HanLP vs LTP 分词功能测试】的更多相关文章

文章摘自github,本次测试选用 HanLP 1.6.0 , LTP 3.4.0 测试思路 使用同一份语料训练两个分词库,同一份测试数据测试两个分词库的性能. 语料库选取1998年01月的人民日报语料库.199801人民日报语料 该词库带有词性标注,为了遵循LTP的训练数据集格式,需要处理掉词性标注. 测试数据选择SIGHan2005提供的开放测试集. SIGHan2005的使用可以参见其附带的readme. HanLP java -cp libs/hanlp-1.6.0.jar com.ha…
参考链接: https://github.com/HIT-SCIR/ltp/blob/master/doc/install.rst http://www.xfyun.cn/index.php/services/ltp/detail?&app_id=NTZmYzg5ZWE= http://www.ltp-cloud.com/document/#api_rest_format_json 其他分词算法参考链接: NLPIR:http://www.nlpir.org/    http://www.dat…
 CRF简介 CRF是序列标注场景中常用的模型,比HMM能利用更多的特征,比MEMM更能抵抗标记偏置的问题. [gerative-discriminative.png] CRF训练 这类耗时的任务,还是交给了用C++实现的CRF++.关于CRF++输出的CRF模型,请参考<CRF++模型格式说明>. CRF解码 解码采用维特比算法实现.并且稍有改进,用中文伪码与白话描述如下: 首先任何字的标签不仅取决于它自己的参数,还取决于前一个字的标签.但是第一个字前面并没有字,何来标签?所以第一个字的处理…
本篇分享一个使用hanlp分词的操作小案例,即在spark集群中使用hanlp完成分布式分词的操作,文章整理自[qq_33872191]的博客,感谢分享!以下为全文:   分两步: 第一步:实现hankcs.hanlp/corpus.io.IIOAdapter 1.public class HadoopFileIoAdapter implements IIOAdapter { 2. 3.   @Override 4.    public InputStream open(String path)…
1. 命名实体识别功能测试 @Test public void testNer(){ if (NER.create("ltp_data/ner.model")<0) { System.err.println("load failed"); return; } List<String> words = new ArrayList<String>(); List<String> tags = new ArrayList<S…
需求:客户给销售员自己的个人信息,销售帮助客户下单,此过程需要销售人员手动复制粘贴收获地址,电话,姓名等等,一个智能的分词系统可以让销售人员一键识别以上各种信息 经过调研,找到了一下开源项目 1.word 分词器 2.ansj 分词器 3.mmseg4j 分词器 4.ik-analyzer 分词器 5.jcseg 分词器 6.fudannlp 分词器 7.smartcn 分词器 8.jieba 分词器 9.stanford 分词器 10.hanlp 分词器 最后选择了hanlp,步骤官网都有,下…
前言: 文本分类任务的第1步,就是对语料进行分词.在单机模式下,可以选择python jieba分词,使用起来较方便.但是如果希望在Hadoop集群上通过mapreduce程序来进行分词,则hanLP更加胜任. 一.使用介绍 hanLP是一个用java语言开发的分词工具, 官网是 http://hanlp.com/ . hanLP创建者提供了两种使用方式,一种是portable简化版本,内置了数据包以及词典文件,可通过maven来管理依赖,只要在创建的 maven 工程中加入以下依赖,即可轻松使…
摘要:elasticsearch是使用比较广泛的分布式搜索引擎,es提供了一个的单字分词工具,还有一个分词插件ik使用比较广泛,hanlp是一个自然语言处理包,能更好的根据上下文的语义,人名,地名,组织机构名等来切分词 Elasticsearch 默认分词 输出: IK分词 输出: hanlp分词 输出: ik分词没有根据句子的含义来分词,hanlp能根据语义正确的切分出词 安装步骤: 1.进入https://github.com/pengcong90/elasticsearch-analysi…
1.LTP介绍 ltp是哈工大出品的自然语言处理工具箱, 提供包括中文分词.词性标注.命名实体识别.依存句法分析.语义角色标注等丰富. 高效.精准的自然语言处理技术.pyltp是python下对ltp(c++)的封装. 在linux下我们很容易的安装pyltp, 因为各种编译工具比较方便. 但是在windows下需要安装vs并且还得做一些配置,但是经过本人查阅资料总结了一种不需要安装c++的方法. 2.windows下安装pyltp 想使用LTP进行nlp的任务,第一步就是要需要安装一个pylt…
LTP是哈工大开源的一套中文语言处理系统,涵盖了基本功能:分词.词性标注.命名实体识别.依存句法分析.语义角色标注.语义依存分析等. [开源中文分词工具探析]系列: 开源中文分词工具探析(一):ICTCLAS (NLPIR) 开源中文分词工具探析(二):Jieba 开源中文分词工具探析(三):Ansj 开源中文分词工具探析(四):THULAC 开源中文分词工具探析(五):FNLP 开源中文分词工具探析(六):Stanford CoreNLP 开源中文分词工具探析(七):LTP 1. 前言 同TH…