ansj --词性说明】的更多相关文章

背景 Ansj 是一个开源的 Java 中文分词工具,基于中科院的 ICTCLAS 中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高.工具支持词性标注,所以就可以依据词性进行分词结果的过滤. 词性介绍  1. 名词 (1个一类,7个二类,5个三类) 名词分为以下子类: n 名词 nr 人名 nr1 汉语姓氏 nr2 汉语名字 nrj 日语人名 nrf 音译人名 ns 地名 nsf 音译地名 nt 机构团体名 nz 其它专名 nl 名词性惯用语 ng 名词性语素 nw 新…
最近特别喜欢用Pig,拥有能满足大部分需求的内置函数(built-in functions),支持自定义函数(user defined functions, UDF),能load 纯文本.avro等格式数据:illustrate看pig执行步骤的结果,describe看alias的schema:以轻量级脚本形式跑MapReduce任务,各种爽爆. 1. Word Count 较于中文,英文比较工整,可以根据空格.标点符号进行分词. A = load '/user/.*/req-temp/text…
http://www.hankcs.com/nlp/ansj-word-pairs-array-tire-tree-achieved-with-arrays-dic-dictionary-format.html arrays.dic是一个双数组Trie树格式的词典,用文本的形式储存了索引,字串,base,check,status与词性. 一个直观的图示: index就是base数组中的下标. term是词的当前状态,不一定代表一个词,如“一举一”是“一举一动”的前缀. base是base数组的值…
本文转载至:https://blog.csdn.net/bitcarmanlee/article/details/53607776 最近的项目需要使用到分词技术.本着不重复造轮子的原则,使用了ansj_seg来进行分词.本文结合博主使用经过,教大家用最快的速度上手使用ansj分词. 1.给ansj来个硬广 项目的github地址:https://github.com/NLPchina/ansj_seg 项目的文档地址:http://nlpchina.github.io/ansj_seg/ 首先必…
Ansj中文分词使用教程 Ansj中文分词使用教程:https://blog.csdn.net/a822631129/article/details/52331202 ansj分词史上最详细教程:https://blog.csdn.net/bitcarmanlee/article/details/53607776 摘要:ansj是一个基于n-Gram+CRF+HMM的中文分词的java实现.ansj分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上Ansj目前实…
最近的项目需要使用到分词技术.本着不重复造轮子的原则,使用了ansj_seg来进行分词.本文结合博主使用经过,教大家用最快的速度上手使用ansj分词. 1.给ansj来个硬广 项目的github地址:https://github.com/NLPchina/ansj_seg 项目的文档地址:http://nlpchina.github.io/ansj_seg/ 首先必须感谢作者给我们提供这么好用的开源工具. 2.配置maven 在maven项目的pom中配置ansj的dependency: <de…
一.分词工具 ansj.hanlp.jieba 二.优缺点 1.ansj 优点: 提供多种分词方式 可直接根据内部词库分出人名.机构等信息 可构造多个词库,在分词时可动态选择所要使用的词库缺点: 自定义词典时,系统词典还是被优先使用,导致词性不是自定义词典中的词性 多单词英文姓名无法分出适用场景 若不使用自定义分词,可直接使用ansj 2.hanlp 优点: 自定义分词.词性方便 可分出多单词的英文名称(词典数据可带空格) 可动态增删词库, 动态添加词典前五千万速度很快,5m左右缺点: 动态添加…
Ansj的使用和相关资料下载参考:http://iamyida.iteye.com/blog/2220833 参考 http://www.cnblogs.com/luxh/p/5016894.html  配置和solr和tomcat的 1.从http://iamyida.iteye.com/blog/2220833下载好Ansj需要的相关的资料,下面是已下载好的. Ansj资料: http://pan.baidu.com/s/1kTLGp7L 2.复制ansj相关文件到solr项目中 1)将an…
在上一节[编译Ansj之Solr插件]中介绍如何编译ansj分词在solr(lucene)环境中使用的接口,本章将介绍如何在solr中使用ansj,其步骤主要包括:下载或者编译ansj和nlp-lang等jar包.在schema中配置相关类型.将ansj和nlp-lang等jar包配置到solr中.测试ansj分词效果. 一.下载或者编译ansj-seg和nlp-lang等jar包.  1.您可以到 http://maven.ansj.org/org/ansj/ansj_seg/  | http…
Ansj是一个比较优秀的中文分词组件,具体情况就不在本文介绍了.ansj作者在其官方代码中,提供了对lucene接口的支持.如果用在Solr下,还需要简单的扩展一下. 1.基于maven管理 ansj是基于maven进行开发管理的.我们首先修改一下其pom.xml,具体如下所示: <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-i…