1. 前言

同THULAC一样，LTP也是基于结构化感知器（Structured Perceptron, SP），以最大熵准则建模标注序列$Y$在输入序列$X$的情况下的score函数：

\[S(Y,X) = \sum_s \alpha_s \Phi_s(Y,X)
\]

其中，$\Phi_s(Y,X)$为本地特征函数。中文分词问题等价于给定$X$序列，求解score函数最大值对应的$Y$序列：

\[\mathop{\arg \max}_Y S(Y,X)
\]

2. 分解

以下源码分析基于版本3.4.0。

分词流程

分词流程与其他分词器别无二致，先提取字符特征，计算特征权重值，然后Viterbi解码。代码详见__ltp_dll_segmentor_wrapper::segment()：

int segment(const char *str, std::vector<std::string> &words) {

    ltp::framework::ViterbiFeatureContext ctx;

    ltp::framework::ViterbiScoreMatrix scm;

    ltp::framework::ViterbiDecoder decoder;

    ltp::segmentor::Instance inst;

    int ret = preprocessor.preprocess(str, inst.raw_forms, inst.forms,

inst.chartypes);

    if (-1 == ret || 0 == ret) {

        words.clear();

        return 0;

    }

    ltp::segmentor::SegmentationConstrain con;

    con.regist(&(inst.chartypes));

    build_lexicon_match_state(lexicons, &inst);

    extract_features(inst, model, &ctx, false);

    calculate_scores(inst, (*model), ctx, true, &scm);

    // allocate a new decoder so that the segmentor support multithreaded

    // decoding. this modification was committed by niuox

    decoder.decode(scm, con, inst.predict_tagsidx);

    build_words(inst.raw_forms, inst.predict_tagsidx, words);

    return words.size();

}

训练模型

模型文件cws.model包含了类别、特征、权重、内部词典（internal lexicon）等。我用Java 重写了模型解析，代码如下：

DataInputStream is = new DataInputStream(new FileInputStream(path));

char[] octws = readCharArray(is, 128);

// 1. read label

SmartMap label = readSmartMap(is);

int[] entries = readIntArray(is, label.numEntries);

// 2. read feature Space

char[] space = readCharArray(is, 16);

int offset = readInt(is);

int sz = readInt(is);

SmartMap[] dicts = new SmartMap[sz];

for (int i = 0; i < sz; i++) {

    dicts[i] = readSmartMap(is);

}

// 3. read param

char[] param = readCharArray(is, 16);

int dim = readInt(is);

double[] w = readDoubleArray(is, dim);

double[] wSum = readDoubleArray(is, dim);

int lastTimestamp = readInt(is);

// 4. read internal lexicon

SmartMap internalLexicon = readSmartMap(is);

// read char array

private static char[] readCharArray(DataInputStream is, int length) throws IOException {

    char[] chars = new char[length];

    for (int i = 0; i < length; i++) {

        chars[i] = (char) is.read();

    }

    return chars;

}

// read int array

private static int[] readIntArray(DataInputStream is, int length) throws IOException {

    byte[] bytes = new byte[4 * length];

    is.read(bytes);

    IntBuffer intBuffer = ByteBuffer.wrap(bytes)

            .order(ByteOrder.LITTLE_ENDIAN)

            .asIntBuffer();

    int[] array = new int[length];

    intBuffer.get(array);

    return array;

}

LTP共用到了15类特征，故sz为15；特征是采用Map表示，LTP称之为SmartMap，看代码本质上是一个HashMap。分词工具测评结果表明，LTP分词速度较THULAC要慢。究其原因，THULAC采用双数组Trie来表示模型，特征检索速度要优于LTP。

特征

LTP所用到的特征大致可分为以下几类：

unigram字符特征 ch[-2], ch[-1], ch[0], ch[1], ch[2]
bigram字符特征 ch[-2]ch[-1], ch[-1]ch[0],ch[0]ch[1],ch[1]ch[2]
字符类型特征 ct[-1], ct[0], ct[1]
词典属性特征 ch[0]是否为词典开始字符、中间字符、结束字符

源码见extractor.cpp：

Extractor::Extractor() {

    // delimit feature templates

    templates.push_back(new Template("1={c-2}"));

    templates.push_back(new Template("2={c-1}"));

    templates.push_back(new Template("3={c-0}"));

    templates.push_back(new Template("4={c+1}"));

    templates.push_back(new Template("5={c+2}"));

    templates.push_back(new Template("6={c-2}-{c-1}"));

    templates.push_back(new Template("7={c-1}-{c-0}"));

    templates.push_back(new Template("8={c-0}-{c+1}"));

    templates.push_back(new Template("9={c+1}-{c+2}"));

    templates.push_back(new Template("14={ct-1}"));

    templates.push_back(new Template("15={ct-0}"));

    templates.push_back(new Template("16={ct+1}"));

    templates.push_back(new Template("17={lex1}"));

    templates.push_back(new Template("18={lex2}"));

    templates.push_back(new Template("19={lex3}"));

}

#define TYPE(x) (strutils::to_str(inst.chartypes[(x)]&0x07))

            data.set("c-2", (idx - 2 < 0 ? BOS : inst.forms[idx - 2]));

            data.set("c-1", (idx - 1 < 0 ? BOS : inst.forms[idx - 1]));

            data.set("c-0", inst.forms[idx]);

            data.set("c+1", (idx + 1 >= len ? EOS : inst.forms[idx + 1]));

            data.set("c+2", (idx + 2 >= len ? EOS : inst.forms[idx + 2]));

            data.set("ct-1", (idx - 1 < 0 ? BOT : TYPE(idx - 1)));

            data.set("ct-0", TYPE(idx));

            data.set("ct+1", (idx + 1 >= len ? EOT : TYPE(idx + 1)));

            data.set("lex1", strutils::to_str(inst.lexicon_match_state[idx] & 0x0f));

            data.set("lex2", strutils::to_str((inst.lexicon_match_state[idx] >> 4) & 0x0f));

            data.set("lex3", strutils::to_str((inst.lexicon_match_state[idx] >> 8) & 0x0f));

#undef TYPE

开源中文分词工具探析（七）：LTP的更多相关文章

开源中文分词工具探析（三）：Ansj
Ansj是由孙健(ansjsun)开源的一个中文分词器,为ICTLAS的Java版本,也采用了Bigram + HMM分词模型(可参考我之前写的文章):在Bigram分词的基础上,识别未登录词,以提高 ...
开源中文分词工具探析（四）：THULAC
THULAC是一款相当不错的中文分词工具,准确率高.分词速度蛮快的:并且在工程上做了很多优化,比如:用DAT存储训练特征(压缩训练模型),加入了标点符号的特征(提高分词准确率)等. 1. 前言 THU ...
开源中文分词工具探析（五）：FNLP
FNLP是由Fudan NLP实验室的邱锡鹏老师开源的一套Java写就的中文NLP工具包,提供诸如分词.词性标注.文本分类.依存句法分析等功能. [开源中文分词工具探析]系列: 中文分词工具探析(一) ...
开源中文分词工具探析（五）：Stanford CoreNLP
CoreNLP是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech (POS) tagger).命名实体识别(named entity recognizer ...
开源中文分词工具探析（六）：Stanford CoreNLP
CoreNLP是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech (POS) tagger).命名实体识别(named entity recognizer ...
中文分词工具探析（二）：Jieba
1. 前言 Jieba是由fxsjy大神开源的一款中文分词工具,一款属于工业界的分词工具--模型易用简单.代码清晰可读,推荐有志学习NLP或Python的读一下源码.与采用分词模型Bigram + H ...
中文分词工具探析（一）：ICTCLAS (NLPIR)
1. 前言 ICTCLAS是张华平在2000年推出的中文分词系统,于2009年更名为NLPIR.ICTCLAS是中文分词界元老级工具了,作者开放出了free版本的源代码(1.0整理版本在此). 作者在 ...
基于开源中文分词工具pkuseg-python，我用张小龙的3万字演讲做了测试
做过搜索的同学都知道,分词的好坏直接决定了搜索的质量,在英文中分词比中文要简单,因为英文是一个个单词通过空格来划分每个词的,而中文都一个个句子,单独一个汉字没有任何意义,必须联系前后文字才能正确表达它 ...
Java实现敏感词过滤 - IKAnalyzer中文分词工具
IKAnalyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包. 官网: https://code.google.com/archive/p/ik-analyzer/ 本用例借助 I ...

随机推荐

SpringBoot使用validator校验
在前台表单验证的时候,通常会校验一些数据的可行性,比如是否为空,长度,身份证,邮箱等等,那么这样是否是安全的呢,答案是否定的.因为也可以通过模拟前台请求等工具来直接提交到后台,比如postman这样的 ...
Spring使用笔记（四）面向切面的Spring
面向切面的Spring 一.面向切面的概念在软件开发中,散布于应用多处的功能被称为横切关注点(cross-cutting concern). 通常来讲这些横切关注带点从概念上来讲是与应用逻辑相分离的 ...
Shell脚本笔记（四）条件判断
条件判断一.条件测试与比较一)条件测试基础语法下列测试语法中如果测试的表达式成立,条件测试就会结束,并返回0. 1.test条件测试语法:test <测试表达式> 2.中括号条件 ...
BZOJ2808 : 那些年我们画格子
若$\min(n,m)=1$,那么设$f[i][j][k]$表示考虑前$i$个格子,改变了$j$次颜色,$i$的颜色为$k$的方案数,直接转移即可. 否则$\min(n,m)\geq 2$,那么有解当 ...
[P1034][NOIP2001]一元三次方程求解 (二分)
二分 #include<bits/stdc++.h> using namespace std; double a,b,c,d; double fc(double x) { )+b*pow( ...
Java 基础在Java中需要使用内存的组件
Java程序启动后作为一个进程运行在操作系统中,那么这个进程有哪些部分需要分配内存? 1 Java堆 Java堆用于存储Java对象,堆的大小在JVM启动时向操作系统一次性申请完成,通过-Xmx和-X ...
web中icon 图标问题
每个页面都会引入 icon 小图标,下面说下它的用法一.icon使用 icon的引入方式,与css外部引入方式类似,需要在头部引入, 即: <link rel="shortcut i ...
mysql三表查询sql语句
表结构: Student学生表(学号.姓名.性别.年龄.编辑) Course课程表(编号.课程名称) sc选课表(选课编号.学号.课程编号.成绩) (1)写一个SQL语句,查询选修了“计算机原理”的学 ...
模板-gcd
GCD int gcd(int a, int b) { return b == 0 ? a : gcd(b, a%b); } EXGCD void ex_gcd(int a, int b, int & ...
Set authorization for a whole area
public class FilterConfig { public static void RegisterGlobalFilters(GlobalFilterCollection filters) ...

开源中文分词工具探析（七）：LTP