这篇文章主要是记录HanLP标准分词算法整个实现流程。

  • HanLP的核心词典训练自人民日报2014语料,语料不是完美的,总会存在一些错误。这些错误可能会导致分词出现奇怪的结果,这时请打开调试模式排查问题:
HanLP.Config.enableDebug();

那什么是语料呢?通俗的理解,就是HanLP里面的二个核心词典。假设收集了人民日报若干篇文档,通过人工手工分词,统计人工分词后的词频:①统计分词后的每个词出现的频率,得到一元核心词典;②统计两个词两两相邻出现的频率,得到二元核心词典。根据贝叶斯公式:

\[P(A|B)=\frac{P(A,B)}{P(B)}\qquad=\frac{count(A,B)}{count(B)}\qquad
\]

其中\(count(A,B)\)表示词A和词B 在语料库中共同出现的频率;\(count(B)\)表示词B 在语料库中出现的频率。有了这两个频率,就可以计算在给定词B的条件下,下一个词是 A的概率。

  • 关于HanLP的核心词典、二元文法词典出现错误时如何处理可参考这个链接:
  • 关于分词算法的平滑问题,可参考这个链接

分词流程

采用维特比分词器:基于动态规划的维特比算法。

List<Term> termList = HanLP.segment(sentence);

在进入正式分词流程前,可选择是否进行归一化,然后进入到正式的分词流程。

 		if (HanLP.Config.Normalization)
{
CharTable.normalization(text);
}
return segSentence(text);

第一步,构建词网WordNet,参考:词图的生成

词网包含起始顶点和结束顶点,以及待分词的文本内容,文本内容保存在charArray数组中。vertexes表示词网中结点的个数:vertexes = new LinkedList[charArray.length + 2],加2的原因是:起始顶点和结束顶点。

再将每个结点初始化,每个结点由一个LinkedList存储,值为空

        for (int i = 0; i < vertexes.length; ++i)
{
vertexes[i] = new LinkedList<Vertex>();//待分词的句子的每个字符 对应的 LinkedList
}

最后将起始结点和结束结点初始化,LinkedList中添加进相应的顶点。

        vertexes[0].add(Vertex.newB());//添加起始顶点
vertexes[vertexes.length - 1].add(Vertex.newE());//添加结束顶点
size = 2;//结点size

在添加起始顶点和结束顶点的时候,会从核心词典构建出一棵双数组树。比如,创建一个起始结点:

public static Vertex newB()
{
return new Vertex(Predefine.TAG_BIGIN, " ", new CoreDictionary.Attribute(Nature.begin, Predefine.MAX_FREQUENCY / 10), CoreDictionary.getWordID(Predefine.TAG_BIGIN));
}

每个顶点Vertex包括如下属性:

/**
* 节点对应的词或等效词(如未##数)
*/
public String word;
/**
* 节点对应的真实词,绝对不含##
*/
public String realWord;
/**
* 词的属性,谨慎修改属性内部的数据,因为会影响到字典<br>
* 如果要修改,应当new一个Attribute
*/
public CoreDictionary.Attribute attribute;
/**
* 等效词ID,也是Attribute的下标
*/
public int wordID;//CoreDictionary.txt 每个词的编号,从下标0开始 /**
* 在一维顶点数组中的下标,可以视作这个顶点的id
*/
public int index;//Vertex中 顶点的编号

下面来一 一解释Vertex类中各个属性的意义:

  1. 什么是等效词呢?可参考:[Bigram分词中的等效词串]。在PreDefine.java中就定义一些等效词串:
    /**
* 结束 end
*/
public final static String TAG_END = "末##末";
/**
* 句子的开始 begin
*/
public final static String TAG_BIGIN = "始##始";
/**
* 数词 m
*/
public final static String TAG_NUMBER = "未##数";

也即句子的开始用符号"始##始"来表示,结束用"末##末"表示。也即前面提到的起始顶点和结束顶点。

另外,在分词过程中,会产生一些数量词,比如一人、两人……而这些数量词统一用"未##数"表示。为什么要这样表示呢?由于分词是基于n-gram模型的(n=2),一人、两人 这样的词统计出来的频率不太靠谱,导致在二元核心词典中找不到词共现频率,因此使用等效词串来进行处理。

  1. 真实词String realWord

    真实词是待分词的文本字符。比如:“商品和服务”,真实词就是其中的每个char,“真”、“品”、“和”……

  2. Attribute属性

    记录这个词在一元核心词典中的词性、词频。由于一个词可能会有多个词性和词频,因此词性和词频都有一维数组来存储。

  3. wordId

    该词在一元核心词典中的位置(行号)

  4. index

    这个词在词网(词图)中的顶点的编号

    构建双数组树过程

    如果有bin文件,则直接是以二进制流的形式构建了一颗双数组树,否则从CoreNatureDictionary.txt中读取词典构建双数组中。关于双数组树的原理比较复杂,等以后彻底弄清楚了再来解释。

    基于核心一元词典构建好了双数组树之后,就可以用双数组树来查询结点的wordId、词频、词性……信息,

    return new Vertex(Predefine.TAG_BIGIN, " ", new CoreDictionary.Attribute(Nature.begin, Predefine.MAX_FREQUENCY / 10), CoreDictionary.getWordID(Predefine.TAG_BIGIN));

    CoreDictionary.getWordID(Predefine.TAG_BIGIN)//查询得到一元词典中该结点所代表的字符对应的wordId

    至此,创建了一个Vertex对象。

    WordNet wordNetAll = new WordNet(sentence);只是(初始化了)生成了词网中的顶点,为各个顶点分配了存储空间,并初始化了起始结点和结束结点。接下来,需要初始化待分词的文本中的各个字符了。

    GenerateWordNet(wordNetAll);生成完整的词网。

    生成完整词网

    生成完整词网的流程是:根据待分词的文本 使用双数组树 对一元核心词典进行 最大匹配查询,将命中的词创建一个Vertex对象,然后添加到词网中。

            while (searcher.next())
    {
    wordNetStorage.add(searcher.begin + 1, new Vertex(new String(charArray, searcher.begin, searcher.length), searcher.value, searcher.index));
    }

    具体举例来说:假设待分词的文本是"商品和服务",首先将该文本分解成单个的字符。

然后,对每一个单个的字符,在双数组树(基于一元核心词典构建的)中进行最大匹配查找:

对于 '商' 而言,最大匹配查找得到:'商'--->‘商品’

对于'品'而言,最大匹配查找得到:'品'

对于'和’而言,最大匹配查找得到:'和'--->'和服'

对于'服'而言,最大匹配查找得到:'服'--->'服务'

对于'务'而言,最大匹配查找得到:'务'

下面来具体分析 '商' 这个顶点是如何构建的:

由于'商'这个字存在于一元核心词典中

searcher.next()肯定会命中了'商' ,于是查找到了双数组树中'商'这个顶点的所有信息:

wordID:32769

词性vg,对应的词频是607;词性v对应的词频是198

因此,将双数组树中的顶点信息提取出来,用来构建 '商' 这个Vertex对象,并将之加入到LinkedList中

    public Vertex(String word, String realWord, CoreDictionary.Attribute attribute, int wordID)
{
if (attribute == null) attribute = new CoreDictionary.Attribute(Nature.n, 1); //attribute为null,就赋一个默认值 安全起见
this.wordID = wordID;
this.attribute = attribute; //初始时,所有词的等效词串word=null,当碰到数词/地名...时, 会为这些词生成等效词串.
if (word == null) word = compileRealWord(realWord, attribute);//1人 或者 2人 这样的词,转化为:未##数@人
assert realWord.length() > 0 : "构造空白节点会导致死循环!";
this.word = word;
this.realWord = realWord;
}

compileRealWord()函数的作用是:当碰到数量词……生成等效词串

同理,下一步从双数组树中找到词是'商品',类似地,构建'商品'这个Vertex对象,并将之添加到LinkedList下一个元素。

关于词图的生成,可参考:词图的生成。词图中建立各个节点之间的联系,是通过文章中提到的快速offset法实现的。其实就是通过快速offset法来寻找某个节点的下一个节点。因为后面会使用基于动态规划的维特比算法来求解词图的最短路径,而求解最短路径就需要根据某个节点快速定位该节点的后继节点。

下面,以 商品和服务为例,详细解释一下快速offset法:

0 始##始
1 商 商品
2 品
3 和 和服
4 服 服务
5 务
6 末##末

上表可用一个LinkedList数组存储。每一行代表一个LinkedList,存储该字符最大匹配到的所有结果。这与图:词图的链接表示 是一致的。使用这种方式存储词图,不仅简单而且也易于查找下一个词。

  1. 从词网转化成词图

    然后,接下来是:原子分词,保证图连通。这一部分,不是太理解

            // 原子分词,保证图连通
    LinkedList<Vertex>[] vertexes = wordNetStorage.getVertexes();
    for (int i = 1; i < vertexes.length; )
    {
    if (vertexes[i].isEmpty())
    {
    int j = i + 1;
    for (; j < vertexes.length - 1; ++j)
    {
    if (!vertexes[j].isEmpty()) break;
    }
    wordNetStorage.add(i, quickAtomSegment(charArray, i - 1, j - 1));
    i = j;
    }
    else i += vertexes[i].getLast().realWord.length();
    }

    至此,得到一个粗分词网,如下:

    构建好了词图之后,有了词图中各条边以及边上的权值。接下来,来到了基于动态规划的维特比分词,使用维特比算法来求解最短路径。

    动态规划之维特比分词算法

    List<Vertex> vertexList = viterbi(wordNetAll);

    计算顶点之间的边的权值

    先把词图画出来,如下:

    nodes数组就是用来存储词图的链表数组:

    计算起始顶点的权值

    起始顶点"始##始"到第一层顶点"商"和"商品"的权值:

            //始##始 到 第一层顶点之间的 边以及权值 构建
    for (Vertex node : nodes[1])
    {
    node.updateFrom(nodes[0].getFirst());
    }

    需要注意的是,每个顶点Vertex的weight属性,保存的是从起始顶点到该顶点的最短路径。

        public void updateFrom(Vertex from)
    {
    double weight = from.weight + MathTools.calculateWeight(from, this);
    if (this.from == null || this.weight > weight)//this.weight>weight 表明寻找到了一条比原路径更短的路径
    {
    this.from = from;//记录 更短路径上 的前驱顶点,用来回溯得到最短路径上的节点
    this.weight = weight;//记录 更短路径 的权值
    }
    }

    updateFrom()方法实现了动态规划自底向上计算最短路径。当计算出的weight比当前顶点的路径this.weight还要短时,就意味着找到一条更短的路径。

    路径上的权值的计算

    MathTools.calculateWeight()方法计算权值。这个权值是如何得出的呢?这就涉及到核心二元词典CoreNatureDictionary.ngram.txt了。

    int nTwoWordsFreq = CoreBiGramTableDictionary.getBiFrequency(from.wordID, to.wordID);

    会开始加载核心二元词典CoreNatureDictionary.ngram.txt到内存中,然后查找这两个词:from@to 的词共现频率。显然,这里的词典采用了延迟加载的模式,也即当需要查询词共现频率的时候,才会去加载核心二元词典,从词典中找到对应的频率。比如 始##始@商 即表示:语料中以第一个字'商'开头的频率是46

有了从一元核心词典中查询到的单个词的词频,以及两个词之间的词共现频率,就可以计算“概率”了。(背后的思想是贝叶斯概率,并且需要进行平滑)。关于平滑,可参考这个issue

        double value = -Math.log(dSmoothingPara * frequency / (MAX_FREQUENCY) + (1 - dSmoothingPara) * ((1 - dTemp) * nTwoWordsFreq / frequency + dTemp));

计算其他顶点的权值
        for (int i = 1; i < nodes.length - 1; ++i)
{
LinkedList<Vertex> nodeArray = nodes[i];
if (nodeArray == null) continue;
for (Vertex node : nodeArray)//当前节点为 node
{
if (node.from == null) continue;
for (Vertex to : nodes[i + node.realWord.length()])//获取当前节点 node的下一个节点 to
{
to.updateFrom(node);
}
}
}

updateFrom()方法,通过比较节点的权重(权重代表着概率),更新最优路径上的节点(DP求解最优路径)

    public void updateFrom(Vertex from)
{
double weight = from.weight + MathTools.calculateWeight(from, this);
if (this.from == null || this.weight > weight)//DP求解 2-gram 概率最大的路径
{
this.from = from;
this.weight = weight;
}
}

最终生成的词图如下:

以"商品"节点为例,它的下一个节点有两个:"和服" 、 "和"

0 始##始
1 商 商品
2 品
3 和 和服
4 服 服务
5 务
6 末##末

"商品"的行号为1,长度为2,那么它的下一个节点存储在行号为 1+2 =3 的链表中。

同理,"品"的行号为2,长度为1,那么它的下一个节点存储在行号为2+1=3的链表中。

从上面的词图中可验证:节点"商品"的下一个节点是"和" 、"和服",正确无误。

最终,计算出起始顶点到词图中各个顶点的最短路径的权值。然后从结束顶点开始,回溯,找到最短路径上的各个结点。

        Vertex from = nodes[nodes.length - 1].getFirst();//最后一个顶点的from属性记录着到达该顶点的前缀顶点
while (from != null)
{
vertexList.addFirst(from);
from = from.from;//weight属性是最短路径的权值,所以直接回溯就能得到最短路径上的各个结点
}
return vertexList;

现在已经通过维特比算法求得最短路径上的结点,可使用用户自定义的词典合并结果。这里的使用用户自定义词典合并结果的原理,有待进一步研究。(可参考:)

        if (config.useCustomDictionary)
{
if (config.indexMode > 0)
combineByCustomDictionary(vertexList, wordNetAll);
else combineByCustomDictionary(vertexList);
}

至此,粗分结果完毕。粗分结果如下:

粗分结果[商品/n, 和/cc, 服务/vn]

粗分完成之后,根据Config中的相应配置:是否开启数字识别、NER命名识别、将最终的最短路径上的分词结果输出。

 return convert(vertexList, config.offset);

从而,最终的分词结果如下:

[商品/n, 和/cc, 服务/vn]

原文:https://www.cnblogs.com/hapjin/p/11172299.html

HanLP分词研究的更多相关文章

  1. Hanlp分词1.7版本在Spark中分布式使用记录

    新发布1.7.0版本的hanlp自然语言处理工具包差不多已经有半年时间了,最近也是一直在整理这个新版本hanlp分词工具的相关内容.不过按照当前的整理进度,还需要一段时间再给大家详细分享整理的内容.昨 ...

  2. NLP自然语言处理中的hanlp分词实例

    本篇分享的依然是关于hanlp的分词使用,文章内容分享自 gladosAI 的博客,本篇文章中提出了一个问题,hanlp分词影响了实验判断结果.为何会如此,不妨一起学习一下 gladosAI 的这篇文 ...

  3. HanLP分词命名实体提取详解

    HanLP分词命名实体提取详解   分享一篇大神的关于hanlp分词命名实体提取的经验文章,文章中分享的内容略有一段时间(使用的hanlp版本比较老),最新一版的hanlp已经出来了,也可以去看看新版 ...

  4. python调用hanlp分词包手记

    python调用hanlp分词包手记   Hanlp作为一款重要的分词工具,本月初的时候看到大快搜索发布了hanlp的1.7版本,新增了文本聚类.流水线分词等功能.关于hanlp1.7版本的新功能,后 ...

  5. hanlp分词工具应用案例:商品图自动推荐功能的应用

    本篇分享一个hanlp分词工具应用的案例,简单来说就是做一图库,让商家轻松方便的配置商品的图片,最好是可以一键完成配置的. 先看一下效果图吧: 商品单个推荐效果:匹配度高的放在最前面 这个想法很好,那 ...

  6. aws ec2 安装Elastic search 7.2.0 kibana 并配置 hanlp 分词插件

    文章大纲 Elastic search & kibana & 分词器 安装 版本控制 下载地址 Elastic search安装 kibana 安装 分词器配置 Elastic sea ...

  7. Elasticsearch集成HanLP分词器-个人学习

    1.通过git下载分词器代码. 连接如下:https://gitee.com/hualongdata/hanlp-ext hanlp官网如下:http://hanlp.linrunsoft.com/ ...

  8. Hanlp分词之CRF中文词法分析详解

    这是另一套基于CRF的词法分析系统,类似感知机词法分析器,提供了完善的训练与分析接口. CRF的效果比感知机稍好一些,然而训练速度较慢,也不支持在线学习. 默认模型训练自OpenCorpus/pku9 ...

  9. Hanlp分词实例:Java实现TFIDF算法

    算法介绍 最近要做领域概念的提取,TFIDF作为一个很经典的算法可以作为其中的一步处理. 关于TFIDF算法的介绍可以参考这篇博客http://www.ruanyifeng.com/blog/2013 ...

随机推荐

  1. 12个有趣的C语言问答

    转自:http://www.admin10000.com/document/913.html 1,gets() 方法 Q:以下代码有个被隐藏住的问题,你能找到它吗? 1 2 3 4 5 6 7 8 9 ...

  2. bugku秋名山老司机+写博客的第一天

    bugku之秋名山老司机 题目连接:http://123.206.87.240:8002/qiumingshan/ 一点进去是这样的 请在两秒内计算这个式子...怎么可能算的出来 查看源码,无果.. ...

  3. Android 可单选多选的任意层级树形控件

    花了几天研究了下鸿扬大神的博客<Android打造任意层级树形控件,考验你的数据结构和设计>,再结合公司项目改造改造,现在做个笔记. 先看看Demo的实现效果.首先看的是多选效果 再看看单 ...

  4. lower_case_table_names和数据库在Linux和windows平台之间的相互迁移问题

    MySQL关于 lower_case_table_names 的文档 https://dev.mysql.com/doc/refman/5.7/en/identifier-case-sensitivi ...

  5. django环境搭建(基于anaconda环境)

    环境:win7,anaconda,python3.5 1.介绍 Django特点:具有完整的封装,开发者可以高效率的开发项目,Django将大部分的功能进行了封装,开发者只需要调用即可,如此,大大的缩 ...

  6. Linux shell for循环结构

    Linux Shell   for循环结构 循环结构            1:循环开始条件      2:循环操作      3:循环终止的条件 shell语言          for,while ...

  7. Python基础B(数据类型----交互)

    数据类型 数字类型 一.整型(int) age = 18 % age=int(18) print(id(age)) print(type(age)) print(age) 4530100848 < ...

  8. mysql Navicat通过代理链接数据库

    1.做完host 账号 密码(数据库服务器)配置之后,选择ssh 2.配置代理服务器ip的登录的账号密码.(代理服务器必须可以连你的Navicat客户端和数据库服务器,不然怎么做代理.) 3.可以直接 ...

  9. zzulioj - 2624: 小H的奇怪加法

    题目链接:http://acm.zzuli.edu.cn/problem.php?id=2624 题目描述 小H非常喜欢研究算法,尤其是各种加法.没错加法包含很多种,例如二进制中的全加,半加等.全加: ...

  10. csv与openpyxl函数

    csv 与openpyxl函数 csv函数 常用的存储数据的方式有两种--存储成csv格式文件.存储成Excel文件(不是复制黏贴的那种) 前面,我有讲到json是特殊的字符串.其实,csv也是一种字 ...