CRF++进行中文分词实例

工具包：https://taku910.github.io/crfpp/#tips

语料：http://sighan.cs.uchicago.edu/bakeoff2005/

安装：

1）下载linux版本CRF++包-----CRF++-0.58.tar.gz，并解压。

2）cd CRF++-0.58

3）./configure

4)sudo make

5)sudo make install

若出现ImportError: libcrfpp.so.0: cannot open shared object file: No such file or directory 。
解决方法： ln -s /usr/local/lib/libcrfpp.so.0 /usr/lib/

第一步：准备训练语料

将backoff2005里的训练数据转化为CRF++所需的训练数据格式，采用4-tag( B(Begin，词首), E(End，词尾), M(Middle，词中), S(Single,单字词))标记集，处理utf-8编码文本。原始训练集/icwb2-data/training/msr_training.utf8的形式是人工分好词的中文句子形式。如下：

“ 人们常说生活是一部教科书，而血与火的战争 > 更是不可多得的教科书，她确实是名副其实的 ‘ 我的 > 大学 ’ 。
“ 心静渐知春似海，花深每觉影生香。
“ 吃屎的东西，连一捆麦也铡不动呀？
他 “ 严格要求自己，从一个科举出身的进士成为一个伟> 大的民主主义者，进而成为一位杰出的党外共产主义战士，献身于崇高的共产主义事业。
“ 征而未用的耕地和有收益的土地，不准荒芜。
“ 这首先是个民族问题，民族的感情问题。
’ 我扔了两颗手榴弹，他一下子出溜下去。
“ 废除先前存在的所有制关系，并不是共产主义所独具的特征。
“ 这个案子从始至今我们都没有跟法官接触过，也 > 没有跟原告、被告接触过。
“ 你只有把事情做好，大伙才服你 。

根据如下的脚本 make_crf_train.py，将这个训练语料转换为CRF++训练用的语料格式(2列，4-tag)：

import codecs

import sys  

def character_tagging(input_file, output_file):

    input_data = codecs.open(input_file, 'r', 'utf-8')

    output_data = codecs.open(output_file, 'w', 'utf-8')

    for line in input_data.readlines():

        word_list = line.strip().split()

        for word in word_list:

            if len(word) == 1:

                output_data.write(word + "\tS\n")

            else:

                output_data.write(word[0] + "\tB\n")

                for w in word[1:len(word)-1]:

                    output_data.write(w + "\tM\n")

                output_data.write(word[len(word)-1] + "\tE\n")

        output_data.write("\n")

    input_data.close()

    output_data.close()

转化后如下：

“ S
人 B
们 E
常 S
说 S
生 B
活 E
是 S
一 S
部 S
教 B
科 M
书 E

第二步：训练模型

准备好训练语料，就可以利用crf的训练工具crf_learn来训练模型了，假设上述准备好的语料文件为：msr_training.tagging4crf.utf8

执行如下命令即可：
crf_learn -f 3 -c 4.0 ./template ./msr_training.tagging4crf.utf8 model #执行此命令可以在安装文件外面新建一个文件夹进行，template是模板文件，model是训练完成后的model文件，只需要将模板，训练数据放到新建的文件夹里面，执行此命令就在当前文件夹下训练并生成了model文件。

有四个主要的参数可以调整：
    -a CRF-L2 or CRF-L1
    规范化算法选择。默认是CRF-L2。一般来说L2算法效果要比L1算法稍微好一点，虽然L1算法中非零特征的数值要比L2中大幅度的小。
    -c float
    这个参数设置CRF的hyper-parameter。c的数值越大，CRF拟合训练数据的程度越高。这个参数可以调整过度拟合和不拟合之间的平衡度。这个参数可以通过交叉验证等方法寻找较优的参数。
    -f NUM
    这个参数设置特征的cut-off threshold。CRF++使用训练数据中至少NUM次出现的特征。默认值为1。当使用CRF++到大规模数据时，只出现一次的特征可能会有几百万，这个选项就会在这样的情况下起到作用。
    -p NUM
    如果电脑有多个CPU，那么那么可以通过多线程提升训练速度。NUM是线程数量。

模板文件如下：

# Unigram

U00:%x[-2,0]

U01:%x[-1,0]

U02:%x[0,0]

U03:%x[1,0]

U04:%x[2,0]

U05:%x[-2,0]/%x[-1,0]/%x[0,0]

U06:%x[-1,0]/%x[0,0]/%x[1,0]

U07:%x[0,0]/%x[1,0]/%x[2,0]

U08:%x[-1,0]/%x[0,0]

U09:%x[0,0]/%x[1,0]

# Bigram

B

第三步：准备测试语料并进行测试

有了模型，现在我们需要做得还是准备一份CRF++用的测试语料，然后利用CRF++的测试工具crf_test进行字标注。原始的测试语料是icwb2-data/testing/msr_test.utf8 ，样例如下：

扬帆远东做与中国合作的先行
希腊的经济结构较特殊。
海运业雄踞全球之首，按吨位计占世界总数的１７％。
另外旅游、侨汇也是经济收入的重要组成部分，制造业规模相对较小。
多年来，中希贸易始终处于较低的水平，希腊几乎没有在中国投资。
十几年来，改革开放的中国经济高速发展，远东在崛起。
瓦西里斯的船只中有４０％驶向远东，每个月几乎都有两三条船停靠中国港口。
他感受到了中国经济发展的大潮。
他要与中国人合作。
他来到中国，成为第一个访华的大船主。

这里我们同样提供一个python脚本 make_crf_test.py 对测试语料进行处理，将其转换为CRF++要求的格式（2列，B作为最后一列的占位符)

import codecs

import sys  

def character_split(input_file, output_file):

    input_data = codecs.open(input_file, 'r', 'utf-8')

    output_data = codecs.open(output_file, 'w', 'utf-8')

    for line in input_data.readlines():

        for word in line.strip():

            word = word.strip()

            if word:

                output_data.write(word + "\tB\n")

    input_data.close()

    output_data.close()

转化后如下(注意中间不要有空行，否则标注结果全部为S)：

扬 B

帆 B

远 B

东 B

做 B

与 B

中 B

国 B

假设上述测试语料为msr_test4crf.utf8，执行crf_test即可得到字标注结果：
crf_test -m ./crf_model ./msr_test4crf.utf8 > msr_test4crf.tag.utf8

标注后样例如下：

扬 B B
帆 B E
远 B B
东 B E
做 B S
与 B S
中 B B
国 B E
合 B B
作 B E

第四步：将标注的词位信息转化为分词结果

import codecs

import sys

def character_2_word(input_file, output_file):

    input_data = codecs.open(input_file, 'r', 'utf-8')

    output_data = codecs.open(output_file, 'w', 'utf-8')

    for line in input_data.readlines():

        if line == "\n":

            output_data.write("\n")

        else:

            char_tag_pair = line.strip().split('\t')

            char = char_tag_pair[0]

            tag = char_tag_pair[2]

            if tag == 'B':

                output_data.write(' ' + char)

            elif tag == 'M':

                output_data.write(char)

            elif tag == 'E':

                output_data.write(char + ' ')

            else: # tag == 'S'

                output_data.write(' ' + char + ' ')

    input_data.close()

    output_data.close()

转化后如下：

最后：评估一下分词效果

有了这个CRF字标注分词结果，我们就可以利用backoff2005的测试脚本来测一下这次分词的效果了：
./icwb2-data/scripts/score ./icwb2-data/gold/msr_training_words.utf8 ./icwb2-data/gold/msr_test_gold.utf8 msr_test4crf.tag2word.utf8 > msr_crf_segment.score
结果如下：
=== SUMMARY:
=== TOTAL INSERTIONS: 1412
=== TOTAL DELETIONS: 1305
=== TOTAL SUBSTITUTIONS: 2449
=== TOTAL NCHANGE: 5166
=== TOTAL TRUE WORD COUNT: 106873
=== TOTAL TEST WORD COUNT: 106980
=== TOTAL TRUE WORDS RECALL: 0.965
=== TOTAL TEST WORDS PRECISION: 0.964
=== F MEASURE: 0.964
=== OOV Rate: 0.026
=== OOV Recall Rate: 0.647
=== IV Recall Rate: 0.974
### msr_test4crf.tag2word.utf8 1412 1305 2449 5166 106873 106980 0.965 0.964 0.964 0.026 0.647 0.974
这次我们获得了一个准确率，召回率以及F值都在96%以上的结果，相对于前面几节的测试结果，这个CRF字标注分词结果还相对不错。

上面测试阶段略微繁琐一些，下面程序直接输入测试语料然后直接输出分词结果：

import codecs

import sys  

import CRFPP  

def crf_segmenter(input_file, output_file, tagger):

    input_data = codecs.open(input_file, 'r', 'utf-8')

    output_data = codecs.open(output_file, 'w', 'utf-8')

    for line in input_data.readlines():

        tagger.clear()

        for word in line.strip():

            word = word.strip()

            if word:

                tagger.add((word + "\to\tB").encode('utf-8'))

        tagger.parse()

        size = tagger.size()

        xsize = tagger.xsize()

        for i in range(0, size):

            for j in range(0, xsize):

                char = tagger.x(i, j).decode('utf-8')

                tag = tagger.y2(i)

                if tag == 'B':

                    output_data.write(' ' + char)

                elif tag == 'M':

                    output_data.write(char)

                elif tag == 'E':

                    output_data.write(char + ' ')

                else:

                    output_data.write(' ' + char + ' ')

        output_data.write('\n')

    input_data.close()

    output_data.close()  

if __name__ == '__main__':

    if len(sys.argv) != 4:

        print "Usage: python " + sys.argv[0] + " model input output"

        sys.exit(-1)

    crf_model = sys.argv[1]

    input_file = sys.argv[2]

    output_file = sys.argv[3]

    tagger = CRFPP.Tagger("-m " + crf_model)

    crf_segmenter(input_file, output_file, tagger)

只需执行“python crf_segmenter.py crf_model ./icwb2-data/testing/msr_test.utf8 msr_test.seg.utf8”即可得到与前面几步得到的分词结果完全一致的CRF分词结果：msr_test.seg.utf8 。

参考连接：http://www.52nlp.cn/中文分词入门之字标注法4#comments

模板格式说明参考：http://www.hankcs.com/nlp/the-crf-model-format-description.html

CRF++进行中文分词实例的更多相关文章

基于CRF的中文分词
http://biancheng.dnbcw.info/java/341268.html CRF简介 Conditional Random Field:条件随机场,一种机器学习技术(模型) CRF由J ...
crf++实现中文分词简单例子（Windows crf++0.58 python3）
学习自然语言处理的同学都知道,条件随机场(crf)是个好东西.虽然它的原理确实理解起来有点困难,但是对于我们今天用到的这个crf工具crf++,用起来却是挺简单方便的. 今天只是简单试个水,参考别人的 ...
Bag标签之中的一个行代码实行中文分词实例2
例1: 分词(返回以逗号隔开每一个词带上引號的词组.gap=",",quotes="'"或quotes='"') 单引號 <bag id=pPa ...
Bag标签之中的一个行代码实行中文分词实例1
例1: 分词(返回以逗号隔开的词组,gap=",") <bagid=pPage act=2words name=words gap=",">我喜欢黄 ...
Bag标签之中的一个行代码实行中文分词实例3
例3: 分词(返回一个书包.以_0._1._2 ...取出分好的词) <bag id=words act=2words>我喜欢黄色高领T恤衫</bag> 注意没有name属性 ...
PyTorch 高级实战教程：基于 BI-LSTM CRF 实现命名实体识别和中文分词
前言:译者实测 PyTorch 代码非常简洁易懂,只需要将中文分词的数据集预处理成作者提到的格式,即可很快的就迁移了这个代码到中文分词中,相关的代码后续将会分享. 具体的数据格式,这种方式并不适合处理 ...
【中文分词】条件随机场CRF
之前介绍的MMEM存在着label bias问题,因此Lafferty et al. [1] 提出了CRF (Conditional Random Field). BTW:比较有意思的是,这篇文章的二 ...
CRF++中文分词使用指南
http://blog.csdn.net/marising/article/details/5769653 前段时间写了中文分词的一些记录里面提到了CRF的分词方法,近段时间又研究了一下,特把方法写下 ...
solr7.2安装实例，中文分词器
一.安装实例 1.创建实例目录 [root@node004]# mkdir -p /usr/local/solr/home/jonychen 2.复制实例相关配置文件 [root@node004]# ...

随机推荐

ADO之connection
connection 主要成员 connectionstring 属性连接字符串 open() 打开数据库连接 close() ...
Android手机Fiddler真机抓包
Fiddler是最强大最好用的Web调试工具之一,它能记录所有客户端和服务器的http和https请求,允许用户监视,设置断点,甚至修改输入输出数据,Fiddler包含了一个强大的基于事件脚本的子系统 ...
jQuery树形控件zTree
初始化如下: function zTreeInit(){ parentCode = ""; setting = { view: { dblClickExpand: false, s ...
UVA12585_Poker End Games
题目是这样的,每个人手中有a和b的钱数,c为a和b中间最小的一个. 每个回合,两个人胜利的概率都是0.5,胜利者从失败者手中获得c的钱数. 如果有一个人手中没钱的话,那么他就failer,游戏结束. ...
【uoj#164】[清华集训2015]V 线段树维护历史最值
题目描述给你一个长度为 $n$ 的序列,支持五种操作: $1\ l\ r\ x$ :将 $[l,r]$ 内的数加上 $x$ :$2\ l\ r\ x$ :将 $[l,r]$ 内的数减去 $x$ ,并 ...
【uoj#48】[UR #3]核聚变反应强度数论
题目描述给出一个长度为 $n$ 的数列 $a$ ,求 $a_1$ 分别与 $a_1...a_n$ 的次大公约数.不存在则输出-1. 输入第一行一个正整数 $n$ . 第二行 $n$ 个用空格隔开的 ...
【刷题】BZOJ 2599 [IOI2011]Race
Description 给一棵树,每条边有权.求一条简单路径,权值和等于K,且边的数量最小.N <= 200000, K <= 1000000 Input 第一行两个整数 n, k 第二 ...
洛谷 P3338 [ZJOI2014]力解题报告
P3338 [ZJOI2014]力题目描述给出n个数qi,给出Fj的定义如下: \(F_j = \sum_{i<j}\frac{q_i q_j}{(i-j)^2 }-\sum_{i>j ...
NOIP2017 Day1 T3 逛公园（最短路+拓扑排序+DP）
神tm比赛时多清个零就有60了T T 首先跑出1起点和n起点的最短路,因为k只有50,所以可以DP.设f[i][j]表示比最短路多走i的长度,到j的方案数. 我们发现如果在最短路上的和零边会有后向性, ...
解题：POI 2009 TAB
题面这也算是个套路题(算吗)?发现换来换去每行每列数的组成是不变的,那么就把每行每列拎出来哈希一下,复杂度$O(Tn^2log$ $n)$有点卡时=.=. 然而正解似乎不需要哈希,就像这样↓ ;i& ...

CRF++进行中文分词实例

CRF++进行中文分词实例的更多相关文章

随机推荐

热门专题