hanlp自然语言处理包的人名识别代码解析

HanLP发射矩阵词典nr.txt中收录单字姓氏393个。袁义达在《中国的三大姓氏是如何统计出来的》文献中指出：当代中国100个常见姓氏中，集中了全国人口的87%，根据这一数据我们只保留nr.txt中的100个常见词语的姓氏角色，其他词语去掉其姓氏角色状态。过滤后，nr.txt中具有姓氏角色的单字共计97个。列于下表：

丁万乔于任何余侯傅冯刘卢史叶吕吴周唐夏姚

姜孔孙孟宋尹崔常康廖张彭徐戴方易曹曾朱李

杜杨林梁武段毛江汤汪沈潘熊王田白石秦程罗

胡苏范萧董蒋薛袁许谢谭贺贾赖赵邓邱邵邹郑

郝郭金钟钱阎陆陈雷韩顾马高魏黄黎龚

实验效果

姓氏过滤前，各命名实体识别准确率

nr 33%

ns 83%

nt 43%

姓氏过滤后，各命名实体识别准确率

nr 36%

ns 83%

nt 81%

这里没有开层叠隐马预测机构名和地名，nt上升原因估计是由于很多不是人名的词语没被标为人名，那么nt的模式匹配规则匹配不上了，所以机构名准确率上来了。错误识别的人名，100个常用姓氏的不多，很多恐怕是HanLP里其他词表干预进来的。

隐马一般用于分词和词性标注是比较好的，为什么通常的序列标注方法也就是BIEO方法直接用到实体识别不合适呢。用词性标注为例，每一个词它所对应的词性标记子集是有限的，而这个子集相对于词性标记全集来说是小的。但是到了实体识别则不一定，拿人名来说，除了姓氏以外，名字词语部分可以填充的词语是任意的，也就是说任何词语都有可能出现在中间位置，此时发射矩阵中的某些词实际上就没有太大意义了，因为它可能等可能的由BIEO标记发出，而如果指利用四种标记之间的转移概率信息来确定最优的标记序列势必就影响效果。因此，我们通过引入角色标记，实际上这就引入了先验知识，比如某些字只能由姓氏标记产生，某些字一般情况都充当名字首字，某些字一般情况都充当名字末字，通过给这些不同情况下的字集按照其出现的位置的分布和其语法意义做角色定义，可以缩小每种角色标记可发出的词语集合，也就是每种词语（字）所对应的标记集的大小，相当于使发射概率分布不是均匀分布，那么预测的准确性肯定就得到提高了。

下边介绍一下HanLP人名识别的主要流程

1.使用使用匹配法求出各种分词路径用变量wordNetAll存储

2.用viterbi方法找到一条最优的分词路径，这里主要使用用户自定义词典以及核心词典，用序列变量vertexList存储。

3.角色观察，也就是根据发射概率矩阵列出vertexList中每个词语可能对应的角色标记。roleObserve(...)方法实现。

4.角色标注，利用viterbi方法求出最优角色标记序列。viterbiComputeSimply(...)方法实现。

5.对角色序列进行模式匹配得到人名。模式匹配定义在NRPattern类中。

在精度要求比较高且时间紧的情况下，最好的提高准确率的方法为，只保留常用姓氏，只保留最可能的2gram角色标记模式。在做人名识别时还有一个注意的点，如果你的预测语料和训练语料完全在文体上差别很大，或者说你就是在公开的训练语料上训练而不在预测语料上训练的话，基本上上下文信息是没有用处的，甚至有可能上下文信息会给实体边界标注带来干扰，我想任何机器学习包括深度学习，不管是文本分类领域还是实体识别领域都会有这种泛化能力的问题，这种问题恐怕通过算法是没法解决的，如果可以解决那么任何语种任何领域都可以使用一种模型，一劳永逸了。

hanlp自然语言处理包的人名识别代码解析的更多相关文章

HanLP自然语言处理包介绍
支持中文分词(N-最短路分词.CRF分词.索引分词.用户自定义词典.词性标注),命名实体识别(中国人名.音译人名.日本人名.地名.实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换, ...
HanLP自然语言处理包开源（包含源码）
支持中文分词(N-最短路分词.CRF分词.索引分词.用户自定义词典.词性标注),命名实体识别(中国人名.音译人名.日本人名.地名.实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换, ...
hanlp自然语言处理包的基本使用--python
hanlp拥有:中文分词.命名实体识别.摘要关键字.依存句法分析.简繁拼音转换.智能推荐. 这里主要介绍一下hanlp的中文分词.命名实体识别.依存句法分析,这里就不介绍具体的hanlp的安装了,百度 ...
GitHub10岁之际HanLP自然语言处理包用户量跃居榜首
在本周,GitHub终于度过了属于它自己的十周岁生日.这个在2008年由3个来自旧金山的年轻人创建的基于Git的代码托管网站,先后超越了元老级的SourceForge和背景强大的Google Code ...
如何编译运行HanLP自然语言处理包
master分支对于master分支,编译方法如下: git clone https://github.com/hankcs/HanLP.git mvn install -DskipTests · ...
HanLP-基于HMM-Viterbi的人名识别原理介绍
Hanlp自然语言处理包中的基于HMM-Viterbi处理人名识别的内容大概在年初的有分享过这类的文章,时间稍微久了一点,有点忘记了.看了 baiziyu 分享的这篇比我之前分享的要简单明了的多.下面 ...
HanLP中人名识别分析
HanLP中人名识别分析在看源码之前,先看几遍论文<基于角色标注的中国人名自动识别研究> 关于命名识别的一些问题,可参考下列一些issue: 名字识别的问题 #387 机构名识别错误关 ...
中文自然语言处理工具HanLP源码包的下载使用记录
中文自然语言处理工具HanLP源码包的下载使用记录这篇文章主要分享的是hanlp自然语言处理源码的下载,数据集的下载,以及将让源代码中的demo能够跑通.Hanlp安装包的下载以及安装其实之前就已经 ...
HanLP中人名识别分析详解
HanLP中人名识别分析详解在看源码之前,先看几遍论文<基于角色标注的中国人名自动识别研究> 关于命名识别的一些问题,可参考下列一些issue: l ·名字识别的问题 #387 l ·机 ...

随机推荐

cursor: hand和cursor:pointer的区别
cursor:hand 与 cursor:pointer 的效果是一样的,都像光标指向链接一样,光标变成手行. cursor:hand :IE完全支持.但是在firefox是不支持的,没有效果. cu ...
自制操作系统-使用汇编显示 hello world
Windows (开机)读软盘第一个扇区的读法的具体表格 Hello World汇编版就是将16进制编写的代码使用汇编语言编写出来 ; cherry-os ORG 0x7c00 ;指定程序装载的位置 ...
Shell基础之四变量与运算
shell变量与运算变量存在于内存中.假设变量str,设置或修改变量属性时,不带$号,只有引用变量的值时才使用$号.也就是说在内存中,标记变量的变量名称是str,而不是$str. 变量数据的存储方式 ...
冲刺阶段——Day6
[今日进展] 完成登录代码 userRegister类 import java.awt.*; import java.awt.event.ActionEvent; import java.awt.ev ...
jQuery源码解读----part 1
来源:慕课网 https://www.imooc.com/video/4392 jQuery整体架构 jQuery按我的理解分为五大块,选择器.DOM操作.事件.AJAX与动画, 那么为什么有13个模 ...
python 简单了解一下描述器
1.描述器是什么? 在Python中描述器也被称为描述符, 1)描述器实际上是任何新式类(新式类是继承自 type 或者 object 的类),这种类至少实现了3个特殊的方法__get__, __se ...
VUE数组操作方法的局限
1.不能通过索引值直接设置一个项: vm.items[indexOfItem] = newValue 但是可以用set方法设置: Vue.set(example1.items,indexOfItem, ...
vue2.0+vue-dplayer实现hls播放
vue2.0+vue-dplayer实现hls播放开始安装依赖 npm install vue-dplayer -S 1,编写组件HelloWorld.vue <template> & ...
BitmapDrawable
对Bitmap的一种封装,可以设置它包装的bitmap在BitmapDrawable区域中的绘制方式,有: 平铺填充,拉伸填或保持图片原始大小!以<bitmap>为根节点! 可选属性如下: ...
启动mongodb报错，无法连接mongodb
报错原因如下: MongoDB shell version v3.4.2 connecting to: mongodb://127.0.0.1:27017 --01T12:: W NETWORK [t ...

hanlp自然语言处理包的人名识别代码解析

hanlp自然语言处理包的人名识别代码解析的更多相关文章

随机推荐

热门专题