CoreNLP是由斯坦福大学开源的一套Java NLP工具，提供诸如：词性标注（part-of-speech (POS) tagger）、命名实体识别（named entity recognizer (NER)）、情感分析（sentiment analysis）等功能。

【开源中文分词工具探析】系列：

1. 前言

CoreNLP的中文分词基于CRF模型：

\[P_w(y|x) = \frac{exp \left( \sum_i w_i f_i(x,y) \right)}{Z_w(x)}
\]

其中，\(Z_w(x)\)为归一化因子，\(w\)为模型的参数，\(f_i(x,y)\)为特征函数。

2. 分解

以下源码分析基于3.7.0版本，分词示例见SegDemo类。

模型

主要模型文件有两份，一份为词典文件dict-chris6.ser.gz：

// dict-chris6.ser.gz 对应于长度为7的Set数组词典

// 共计词数：0+7323+125336+142252+82139+26907+39243

ChineseDictionary::loadDictionary(String serializePath) {

    Set<String>[] dict = new HashSet[MAX_LEXICON_LENGTH + 1];

    for (int i = 0; i <= MAX_LEXICON_LENGTH; i++) {

        dict[i] = Generics.newHashSet();

    }

    dict = IOUtils.readObjectFromURLOrClasspathOrFileSystem(serializePath);

    return dict;

}

词典的索引值为词的长度，比如第0个词典中没有词，第1个词典为长度为1的词，第6个词典为长度为6的词。其中，第6个词典为半成词，比如，有词“《双峰》（电”、“８０年国家领”、“１８２４年英”。

另一份为CRF训练模型文件ctb.gz：

CRFClassifier::loadClassifier(ObjectInputStream ois, Properties props) {

    Object o = ois.readObject();

    if (o instanceof List) {

        labelIndices = (List<Index<CRFLabel>>) o; // label索引

    }

    classIndex = (Index<String>) ois.readObject(); // 序列标注label

    featureIndex = (Index<String>) ois.readObject(); // 特征

    flags = (SeqClassifierFlags) ois.readObject(); // 模型配置

    Object featureFactory = ois.readObject(); // 特征模板，用于生成特征

    else if (featureFactory instanceof FeatureFactory) {

        featureFactories = Generics.newArrayList();

        featureFactories.add((FeatureFactory<IN>) featureFactory);

    }

    windowSize = ois.readInt(); // 窗口大小为2

    weights = (double[][]) ois.readObject(); // 特征+label 对应的权重

    Set<String> lcWords = (Set<String>) ois.readObject(); // Set为空

	else {

        knownLCWords = new MaxSizeConcurrentHashSet<>(lcWords);

    }

    reinit();

}

不同于其他分词器采用B、M、E、S四种label来做分词，CoreNLP的中文分词label只有两种，“1”表示当前字符与前一字符连接成词，“0”则表示当前字符为另一词的开始——换言之前一字符为上一个词的结尾。

class CRFClassifier {

    classIndex: class edu.stanford.nlp.util.HashIndex

      ["1","0"]

}

// 中文分词label对应的类

public static class AnswerAnnotation implements CoreAnnotation<String>{}

特征

CoreNLP的特征如下（示例）：

class CRFClassifier {

	// 特征

    featureIndex: class edu.stanford.nlp.util.HashIndex

		size = 3408491

        0=的膀cc2|C

        1=身也pc|C

        44=LSSLp2spscsc2s|C

        45=科背p2p|C

        46=迪。cc2|C

      	...

      	=球-行pc2|CnC

		=音非cc2|CpC

    // 权重

    weights: double[3408491][2]

		[[2.2114868426005005E-5, -2.2114868091546352E-5]...]

}

特征后缀只有3类：C, CpC, CnC，分别代表了三大类特征；均由特征模板生成：

// 特征模板List

featureFactories: ArrayList<FeatureFactory>

    0 = Gale2007ChineseSegmenterFeatureFactory

// 具体特征模板

Gale2007ChineseSegmenterFeatureFactory::getCliqueFeatures() {

    if (clique == cliqueC) {

        addAllInterningAndSuffixing(features, featuresC(cInfo, loc), "C");

    } else if (clique == cliqueCpC) {

        addAllInterningAndSuffixing(features, featuresCpC(cInfo, loc), "CpC");

        addAllInterningAndSuffixing(features, featuresCnC(cInfo, loc - 1), "CnC");

    }

}

特征模板只用到了两个特征簇cliqueC与cliqueCpC，其中，cliqueC由函数featuresC()实现，cliqueCpC由函数featuresCpC()与featuresCnC()



Gale2007ChineseSegmenterFeatureFactory::featuresC() {

    if (flags.useWord1) {

        // Unigram 特征

        features.add(charc +"::c"); // c[0]

        features.add(charc2+"::c2"); // c[1]

        features.add(charp +"::p"); // c[-1]

        features.add(charp2 +"::p2"); // c[-2]

        // Bigram 特征

        features.add(charc +charc2  +"::cn"); // c[0]c[1]

        features.add(charc +charc3  +"::cn2"); // c[0]c[2]

        features.add(charp +charc  +"::pc"); // c[-1]c[0]

        features.add(charp +charc2  +"::pn"); // c[-1]c[1]

        features.add(charp2 +charp  +"::p2p"); // c[-2]c[-1]

        features.add(charp2 +charc  +"::p2c"); // c[-2]c[0]

        features.add(charc2 +charc  +"::n2c"); // c[1]c[0]

    }

    // 三个字符c[-1]c[0]c[1]对应的LBeginAnnotation、LMiddleAnnotation、LEndAnnotation 三种label特征

    // 结果特征分别以6种形式结尾，"-lb", "-lm", "-le", "-plb", "-plm", "-ple", "-c2lb", "-c2lm", "-c2le"

    // null || ".../models/segmenter/chinese/dict-chris6.ser.gz"

    if (flags.dictionary != null || flags.serializedDictionary != null) {

        dictionaryFeaturesC(CoreAnnotations.LBeginAnnotation.class,

                CoreAnnotations.LMiddleAnnotation.class,

                CoreAnnotations.LEndAnnotation.class,

                "", features, p, c, c2);

    }

    // 特征 c[1]c[0], c[1]

    if (flags.useFeaturesC4gram || flags.useFeaturesC5gram || flags.useFeaturesC6gram) {

        features.add(charp2 + charp + "p2p");

        features.add(charp2 + "p2");

    }

    // Unicode特征

    if (flags.useUnicodeType || flags.useUnicodeType4gram || flags.useUnicodeType5gram) {

        features.add(uTypep + "-" + uTypec + "-" + uTypec2 + "-uType3");

    }

    // UnicodeType特征

    if (flags.useUnicodeType4gram || flags.useUnicodeType5gram) {

        features.add(uTypep2 + "-" + uTypep + "-" + uTypec + "-" + uTypec2 + "-uType4");

    }

    // UnicodeBlock特征

    if (flags.useUnicodeBlock) {

        features.add(p.getString(CoreAnnotations.UBlockAnnotation.class) + "-"

                + c.getString(CoreAnnotations.UBlockAnnotation.class) + "-"

                + c2.getString(CoreAnnotations.UBlockAnnotation.class)

                + "-uBlock");

    }

    // Shape特征

    if (flags.useShapeStrings) {

        if (flags.useShapeStrings1) {

            features.add(p.getString(CoreAnnotations.ShapeAnnotation.class) + "ps");

            features.add(c.getString(CoreAnnotations.ShapeAnnotation.class) + "cs");

            features.add(c2.getString(CoreAnnotations.ShapeAnnotation.class) + "c2s");

        }

        if (flags.useShapeStrings3) {

            features.add(p.getString(CoreAnnotations.ShapeAnnotation.class)

                    + c.getString(CoreAnnotations.ShapeAnnotation.class)

                    + c2.getString(CoreAnnotations.ShapeAnnotation.class)

                    + "pscsc2s");

        }

        if (flags.useShapeStrings4) {

            features.add(p2.getString(CoreAnnotations.ShapeAnnotation.class)

                    + p.getString(CoreAnnotations.ShapeAnnotation.class)

                    + c.getString(CoreAnnotations.ShapeAnnotation.class)

                    + c2.getString(CoreAnnotations.ShapeAnnotation.class)

                    + "p2spscsc2s");

        }

        if (flags.useShapeStrings5) {

            features.add(p2.getString(CoreAnnotations.ShapeAnnotation.class)

                    + p.getString(CoreAnnotations.ShapeAnnotation.class)

                    + c.getString(CoreAnnotations.ShapeAnnotation.class)

                    + c2.getString(CoreAnnotations.ShapeAnnotation.class)

                    + c3.getString(CoreAnnotations.ShapeAnnotation.class)

                    + "p2spscsc2sc3s");

        }

    }

}

Gale2007ChineseSegmenterFeatureFactory::featuresCpC() {}

Gale2007ChineseSegmenterFeatureFactory::featuresCnC() {}

三大类特征分别以“|C”为结尾（共计有32个）、以“|CpC”结尾（共计有37个）、以“|CnC”结尾（共计有9个）；总计78个特征。个人感觉CoreNLP定义的特征过于复杂，大部分特征并没有什么用。CoreNLP后面处理流程跟其他分词器别无二样了，求每个label的权重加权之和，Viterbi解码求解最大概率路径，解析label序列得到分词结果。

CoreNLP分词速度巨慢，效果也一般，在PKU、MSR测试集上的表现如下：

测试集	分词器	准确率	召回率	F1
PKU	thulac4j	0.948	0.936	0.942
	CoreNLP	0.901	0.894	0.897
MSR	thulac4j	0.866	0.896	0.881
	CoreNLP	0.822	0.859	0.840

3.参考资料

[1] Huihsin, Tseng, et al. "A conditional random field word segmenter." Fourth SIGHAN Workshop. 2005.

[2] Chang, Pi-Chuan, Michel Galley, and Christopher D. Manning. "Optimizing Chinese word segmentation for machine translation performance." Proceedings of the third workshop on statistical machine translation. Association for Computational Linguistics, 2008.

开源中文分词工具探析（五）：Stanford CoreNLP的更多相关文章

开源中文分词工具探析（五）：FNLP
FNLP是由Fudan NLP实验室的邱锡鹏老师开源的一套Java写就的中文NLP工具包,提供诸如分词.词性标注.文本分类.依存句法分析等功能. [开源中文分词工具探析]系列: 中文分词工具探析(一) ...
开源中文分词工具探析（六）：Stanford CoreNLP
CoreNLP是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech (POS) tagger).命名实体识别(named entity recognizer ...
开源中文分词工具探析（三）：Ansj
Ansj是由孙健(ansjsun)开源的一个中文分词器,为ICTLAS的Java版本,也采用了Bigram + HMM分词模型(可参考我之前写的文章):在Bigram分词的基础上,识别未登录词,以提高 ...
开源中文分词工具探析（四）：THULAC
THULAC是一款相当不错的中文分词工具,准确率高.分词速度蛮快的:并且在工程上做了很多优化,比如:用DAT存储训练特征(压缩训练模型),加入了标点符号的特征(提高分词准确率)等. 1. 前言 THU ...
开源中文分词工具探析（七）：LTP
LTP是哈工大开源的一套中文语言处理系统,涵盖了基本功能:分词.词性标注.命名实体识别.依存句法分析.语义角色标注.语义依存分析等. [开源中文分词工具探析]系列: 开源中文分词工具探析(一):ICT ...
中文分词工具探析（二）：Jieba
1. 前言 Jieba是由fxsjy大神开源的一款中文分词工具,一款属于工业界的分词工具--模型易用简单.代码清晰可读,推荐有志学习NLP或Python的读一下源码.与采用分词模型Bigram + H ...
中文分词工具探析（一）：ICTCLAS (NLPIR)
1. 前言 ICTCLAS是张华平在2000年推出的中文分词系统,于2009年更名为NLPIR.ICTCLAS是中文分词界元老级工具了,作者开放出了free版本的源代码(1.0整理版本在此). 作者在 ...
基于开源中文分词工具pkuseg-python，我用张小龙的3万字演讲做了测试
做过搜索的同学都知道,分词的好坏直接决定了搜索的质量,在英文中分词比中文要简单,因为英文是一个个单词通过空格来划分每个词的,而中文都一个个句子,单独一个汉字没有任何意义,必须联系前后文字才能正确表达它 ...
11大Java开源中文分词器的使用方法和分词效果对比，当前几个主要的Lucene中文分词器的比较
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...

随机推荐

React入门实例教程
文章转自:阮一峰现在最热门的前端框架,毫无疑问是 React . 上周,基于 React 的 React Native 发布,结果一天之内,就获得了 5000 颗星,受瞩目程度可见一斑. React ...
Palindromes
http://acm.hdu.edu.cn/showproblem.php?pid=1318 Palindromes Time Limit: 2000/1000 MS (Java/Others) ...
spring的applicationContext.xml没有自动提示（使用本地的文档）
http://www.springframework.org/schema/beans/spring-beans.xsd Window>>preference>>搜索xml(X ...
radiobutton独特属性
radiobutton是通过name来分组的,也就是说,使用相同的名字的radio,它们才是单选的,如果名字不同的radio,是不具备这个效果的,这个是第一要点. 第二,针对不同的radio(name ...
js判断是否为ie浏览器
之前在开发时遇到浏览器的兼容性问题,涉及到对ie浏览器的判断.现在此做个笔记. 这里我以函数的形式来判断,在用的时候直接调用即可. var isIE = !!window.ActiveXObject ...
Git的简单的基本使用
前言: 接触了Android Studio,自然是知道了Github这个网站,这个网站有许多大神们做的开源库,我们只需要简单地引入就是可以使用到这些开源库从而实现酷炫的效果,最近也是刚接触到Git的使 ...
sha1() 函数
sha1() 函数计算字符串的 SHA-1 散列. sha1() 函数使用美国 Secure Hash 算法 1. 来自 RFC 3174 的解释 - 美国 Secure Hash 算法 1:SHA- ...
win7 64位wamp2.5无法启动MSVCR110.DLL丢失听语音
从网上下载wampserver2.5 64位的PHP集成环境,根本无法使用,说是丢失了MSVCR110.DLL,然后再网上找了一大堆资料工具都无用,比如下微软的了vcredist_x64,重新卸载安装 ...
关于在vue-cli中使用微信自动登录和分享
(以下所有接口由后台提供) 一.微信自动登录 //定义事件 methods:{ //判断是否微信登陆是不是微信浏览器 isWeiXin() { let ua = window.navigator.u ...
phpmailer的SMTP ERROR: Failed to connect to server: 10
请问,我在win7上学习使用phpmailer时,出现这种错误怎么处理啊? SMTP ERROR: Failed to connect to server: (0) SMTP connect() fa ...

开源中文分词工具探析（五）：Stanford CoreNLP

1. 前言

2. 分解

模型

特征

3.参考资料

开源中文分词工具探析（五）：Stanford CoreNLP的更多相关文章

随机推荐

热门专题