ANSJ中文分词使用方法
一、前言
之前做solr索引的时候就使用了ANSJ进行中文分词,用着挺好,然而当时没有写博客记录的习惯。最近又尝试了好几种JAVA下的中文分词库,个人感觉还是ANSJ好用,在这里简单总结之。
二、什么是中文分词
百度百科对其定义如下:
中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。
简单说来。比如说小明和服务生小黄相爱了,这句简单的话我们一看就明白,这说的是两个人打架了,但是对于计算机来说他根本不明白你在说什么,即使你将中文所有词语库告诉电脑,它也不知道到底是小明和小黄的爱情故事还是小明和和服诱惑的故事。这就是中文分词。
关于中文分词的深层理论等,我就不在此讲述了,我本身也对此块理论没有深入的领会,直接来讲述ANSJ的使用。
三、ANSJ中文分词
3.1 ANSJ简介
其Github地址为https://github.com/NLPchina/ansj_seg。其中有对其简单介绍:
这是一个基于n-Gram+CRF+HMM的中文分词的java实现.
分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上
目前实现了.中文分词. 中文姓名识别 . 用户自定义词典,关键字提取,自动摘要,关键字标记等功能
可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目.
3.2 ANSJ安装
最简单的方式是下载jar包,直接导入项目中,在Github上都有详细介绍。在这里需要说明的是请下载其各种词库(library文件夹),然后直接将该文件夹拷贝到项目的根目录下。这样项目启动的时候就会自动加载词库。https://github.com/NLPchina/ansj_seg/wiki/在上述项目WIKI中也详细讲述了ANSJ的理论及使用方法等。
3.3 ANSJ使用
- 分词方式
ANSJ提供了多种分词方式,如下:
System.out.println("BASE");
System.out.println(BaseAnalysis.parse(str));
System.out.println("TO");
System.out.println(ToAnalysis.parse(str));
System.out.println("DIC");
System.out.println(DicAnalysis.parse(str));
System.out.println("INDEX");
System.out.println(IndexAnalysis.parse(str));
System.out.println("NLP");
System.out.println(NlpAnalysis.parse(str));
在https://github.com/NLPchina/ansj_seg/wiki/%E5%88%86%E8%AF%8D%E6%96%B9%E5%BC%8F中详细介绍了以上几种分词方式。我对比了ANSJ提供的上述几种分词方式,发现ToAnalysis的方式最好,速度最快,分词效果也很好,所以建议大家直接使用此种分词方式,当然如果你有其他特殊需求也可以测试另外几种分词方式。
当然我在这里要讲述的是词典部分。如果你的业务逻辑很清楚,如某个词语在你的系统中是特殊含义,那么你可以直接将其加到ambiguity.dic文件中。格式如下:
邓颖超 nr 生前 t
习大大 nr
即碰到“习大大”或“邓颖超生前”的时候都按照这种方式进行分词,并且该词的属性就为后面的字母。但是实际中我发现如果default.dic中有此词,ambiguity.dic再添加的话会不起作用,将default.dic中的该词删除即可。
当然如果业务逻辑不是那么明确,也可以在default.dic中添加分词规则,方式如下:
重要 a 37557
此处每行只能添加一个词,第一个为词语,第二个为该词的属性,第三个表示权重,即权重越大,越有可能按照此种方式进行分词。
- 关键词提取
使用方式如下:
System.out.println("关键词提取");
KeyWordComputer kwc = new KeyWordComputer(5);
Collection<Keyword> result = kwc.computeArticleTfidf(str);
System.out.println(result);
或者如WIKI中给出标题:
KeyWordComputer kwc = new KeyWordComputer(5);
String title = "维基解密否认斯诺登接受委内瑞拉庇护";
String content = "有俄罗斯国会议员,9号在社交网站推特表示,美国中情局前雇员斯诺登,已经接受委内瑞拉的庇护,不过推文在发布几分钟后随即删除。俄罗斯当局拒绝发表评论,而一直协助斯诺登的维基解密否认他将投靠委内瑞拉。 俄罗斯国会国际事务委员会主席普什科夫,在个人推特率先披露斯诺登已接受委内瑞拉的庇护建议,令外界以为斯诺登的动向终于有新进展。 不过推文在几分钟内旋即被删除,普什科夫澄清他是看到俄罗斯国营电视台的新闻才这样说,而电视台已经作出否认,称普什科夫是误解了新闻内容。 委内瑞拉驻莫斯科大使馆、俄罗斯总统府发言人、以及外交部都拒绝发表评论。而维基解密就否认斯诺登已正式接受委内瑞拉的庇护,说会在适当时间公布有关决定。 斯诺登相信目前还在莫斯科谢列梅捷沃机场,已滞留两个多星期。他早前向约20个国家提交庇护申请,委内瑞拉、尼加拉瓜和玻利维亚,先后表示答应,不过斯诺登还没作出决定。 而另一场外交风波,玻利维亚总统莫拉莱斯的专机上星期被欧洲多国以怀疑斯诺登在机上为由拒绝过境事件,涉事国家之一的西班牙突然转口风,外长马加略]号表示愿意就任何误解致歉,但强调当时当局没有关闭领空或不许专机降落。";
Collection<Keyword> result = kwc.computeArticleTfidf(title, content);
System.out.println(result);
实际测试两种方式都能达到很好的提取关键词效果,如果有做关键词云的需求可以考虑。
- 自定义分词规则
如果有提取邮箱等分词规则,可以自定义一个Recognition继承Recognition即可。方式如下:
public class RdzaRecognition implements Recognition {
private static final long serialVersionUID = -32133440735240290L;
private static final Nature NATURE = new Nature("rdza");
@Override
public void recognition(Result result) {
List<Term> terms = result.getTerms();
for (Term term : terms) {
String regExp = "rd[z|a]a";
Pattern p = Pattern.compile(regExp);
Matcher m = p.matcher(term.getName());
if (m.matches()) {
term.setNature(NATURE);
}
}
for (Iterator<Term> iterator = terms.iterator(); iterator.hasNext(); ) {
Term term = iterator.next();
if (term.getName() == null) {
iterator.remove();
}
}
}
}
其实现的是将rdza或者rdaa设置为rdaa属性。实现起来很简单,主要是正则表达式,需要自定义匹配规则即可。
调用方式如下:
ToAnalysis.parse(str).recognition(new RdzaRecognition());
即将默认分词的结果再使用上述规则进行分词。
四、总结
本文简单介绍了ANSJ中文分词的使用方法,以后有更详细的使用经验,会直接补充到这里。分享是一种美德。
ANSJ中文分词使用方法的更多相关文章
- Solr整合Ansj中文分词器
Ansj的使用和相关资料下载参考:http://iamyida.iteye.com/blog/2220833 参考 http://www.cnblogs.com/luxh/p/5016894.html ...
- R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:与前面的RsowballC分词不同的 ...
- 推荐十款java开源中文分词组件
1:Elasticsearch的开源中文分词器 IK Analysis(Star:2471) IK中文分词器在Elasticsearch上的使用.原生IK中文分词是从文件系统中读取词典,es-ik本身 ...
- elasticsearch教程--中文分词器作用和使用
概述 本文都是基于elasticsearch安装教程 中的elasticsearch安装目录(/opt/environment/elasticsearch-6.4.0)为范例 环境准备 ·全新最小 ...
- 中文分词实践(基于R语言)
背景:分析用户在世界杯期间讨论最多的话题. 思路:把用户关于世界杯的帖子拉下来.然后做中文分词+词频统计,最后将统计结果简单做个标签云.效果例如以下: 兴许:中文分词是中文信息处理的基础.分词之后.事 ...
- 11大Java开源中文分词器的使用方法和分词效果对比
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
- 开源中文分词工具探析(三):Ansj
Ansj是由孙健(ansjsun)开源的一个中文分词器,为ICTLAS的Java版本,也采用了Bigram + HMM分词模型(可参考我之前写的文章):在Bigram分词的基础上,识别未登录词,以提高 ...
- 11大Java开源中文分词器的使用方法和分词效果对比,当前几个主要的Lucene中文分词器的比较
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
- NLPIR(北理工张华平版中文分词系统)的SDK(C++)调用方法
一.本文内容简介 二.具体内容 1. 中文分词的基本概念 2.关于NLPIR(北理工张华平版中文分词系统)的基本情况 3.具体SDK模块(C++)的组装方式 ①准备内容: ②开始组装 三.注意事项 一 ...
随机推荐
- Django发送带图片和附件的邮件
最近需要做集团的SRC系统.暂无安全研发,所以只能找我这个小菜兼职开发.系统使用Django框架,在整个过程中,有许多奇特的需求.在某项需求中,需要给厂商用户发送富文本邮件,漏洞详情,这个折腾了一下, ...
- 深入PHP变量存储结构 标签: PHP存储
1.深入PHP变量存储结构 标签: PHP存储 分类: 编程语言(10) 首先声明,我并没有去读PHP的源码,只是对于PHP的有时候诡异的表现感兴趣,找了一下开发人员laruence的博客结合PH ...
- 使用SevenZipSharp压缩/解压7z格式
7z格式采用的LZMA算法,号称具有现今最高压缩率.笔者在nuget上搜索7z,在搜索结果中最终选择了SevenZipSharp来进行压缩/解压.不得不说,SevenZipSharp的API设计得非常 ...
- Android开发学习-view
题记:抱着对Android开发的浓厚兴趣,加入了Study jams的线上学习小组,开启了自己的Android学习之旅.一.学习前准备:1.自己动手搭建了"Android Studio&qu ...
- .exe简单的更新软件demo
百度网盘源码加文件:http://pan.baidu.com/s/1qYe2Vgg 功能:通过网站更新用户的软件,需要联网,也可以通过本地网站更新局域网用户软件. 根本实现:1.一个网站(本地就可以) ...
- for xml path 如何将字段转换为xml的属性
for xml path 如何将字段作为xml的属性: 可在查询时 别名用 as '@..' 如'@value' 如下实例: SELECT A.GiftSetGUID AS '@value',A.Gi ...
- 文本处理sed常用操作
文本处理sed常用操作 linux sed (stream editor) is a Unix utility that parses and transforms text, using a sim ...
- 浅谈C#抽象类
抽象类 先说个事,一个类实例化为一个实例.就是一只狗,实例化一下,就成了一只哈士奇(具体的二哈).但是,一个动物类实例化呐,成了啥? 压根就不能实例化.这,就是抽象类的概念引入. 概念:C#允许把类和 ...
- 我们一起学Docker(一)
一.什么是Docker? Docker是一个基于LXC(Linux Container,Linux容器),以及cgroup的上层工具,通过对LXC,cgroup及相关系统命令的封装,使得用户可以非常方 ...
- Spring+SpringMVC+MyBatis+easyUI整合优化篇(十二)数据层优化-explain关键字及慢sql优化
本文提要 从编码角度来优化数据层的话,我首先会去查一下项目中运行的sql语句,定位到瓶颈是否出现在这里,首先去优化sql语句,而慢sql就是其中的主要优化对象,对于慢sql,顾名思义就是花费较多执行时 ...