中科院分词ICTCLAS导入用户词典后分词结果一样？

 package ICTCLAS.I3S.Test;

 import java.io.UnsupportedEncodingException;

 import ICTCLAS.I3S.AC.ICTCLAS50;

 public class Test_UserDic {

     /**

      * @param args

      * @throws UnsupportedEncodingException

      */

     public static void main(String[] args) throws UnsupportedEncodingException {

         ICTCLAS50 ictclas =  new ICTCLAS50();

         //initial

         String argu = ".";    //当前目录

         if (ictclas.ICTCLAS_Init(argu.getBytes("UTF-8")) == false) {

             System.err.println("Initail fail!");

             return;

         }

         System.out.println("Initial success!");

         String input = "中国科学院计算技术研究所在多年研究工作积累的基础上，研制出了汉语词法分析系统ICTCLAS。千万科学家";

         //未添加词典前分词

         System.out.println(input);

         ictclas.ICTCLAS_SetPOSmap(ictclas.PKU_POS_MAP_FIRST);

         byte nativeBytes[] = ictclas.ICTCLAS_ParagraphProcess(input.getBytes("UTF-8"), 0, 1);

         String result = new String(nativeBytes, 0, nativeBytes.length, "UTF-8");

         System.out.println("未导入用户词典的分词结果是：\t" + result);

         //添加用户词典分词

         int count = 0;

         String userDir = "userDict.txt"; //用户词典路径

         byte[] userDirb = userDir.getBytes();

         count = ictclas.ICTCLAS_ImportUserDictFile(userDirb, 3);

         System.out.println("\n导入用户词个数：\t" + count);

         count = 0;

         //导入用户词典后再分词

         byte[] nativeBytes1 = ictclas.ICTCLAS_ParagraphProcess(input.getBytes("UTF-8"), 0, 1);

         String result1 = new String(nativeBytes1, 0, nativeBytes1.length, "UTF-8");

         System.out.println("导入用户词典后的分词结果是：\t" + result1);

         //退出，释放分词组件资源

         ictclas.ICTCLAS_Exit();

     }

 }

用户词典如下：
舟曲县城@@ZQXC
连夜@@LY
中国科学院@@v
工作@@t
研究@@nb
国科@t
万科@y

结果如下：
Initial success!
中国科学院计算技术研究所在多年研究工作积累的基础上，研制出了汉语词法分析系统ICTCLAS。千万科学家
未导入用户词典的分词结果是：中国科学院/n 计算技术/n 研究/v 所/u 在/v 多年/m 研究/v 工作/v 积累/v 的/u 基础/n 上/f ，/w 研制/v 出/v 了/u 汉语/n 词法分析/n 系统/n ICTCLAS/x 。/w 千/m 万/m 科学家/n

导入用户词个数： 7
导入用户词典后的分词结果是：中国科学院/n 计算技术/n 研究/v 所/u 在/v 多年/m 研究/v 工作/v 积累/v 的/u 基础/n 上/f ，/w 研制/v 出/v 了/u 汉语/n 词法分析/n 系统/n ICTCLAS/x 。/w 千/m 万/m 科学家/n

没有变化！
看到网上有说用户词典是优先的，（2，用户词典的词的优先级貌似太高了。我在用户词典里加了“万科”这个词，结果测试语句“千万科学家”也被分成了“千/ 万科/ 学/ 家”）
但是我这里分词结果没有变化？

中科院分词ICTCLAS导入用户词典后分词结果一样？的更多相关文章

2------------NLPIR（ICTCLAS2016）分词系统添加用户词典功能
备注:win7 64位系统,netbeans编程基本代码框架参见我的另一篇文章:NLPIR分词功能代码实现: package cwordseg; import java.io.Unsupporte ...
jieba分词原理解析：用户词典如何优先于系统词典
目标查看jieba分词组件源码,分析源码各个模块的功能,找到分词模块,实现能自定义分词字典,且优先级大于系统自带的字典等级,以医疗词语邻域词语为例. jieba分词地址:github地址:https ...
11大Java开源中文分词器的使用方法和分词效果对比，当前几个主要的Lucene中文分词器的比较
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
NLP+词法系列（二）︱中文分词技术简述、深度学习分词实践（CIPS2016、超多案例）
摘录自:CIPS2016 中文信息处理报告<第一章词法和句法分析研究进展.现状及趋势>P4 CIPS2016 中文信息处理报告下载链接:http://cips-upload.bj.bce ...
PHP+mysql数据库开发搜索功能：中英文分词+全文检索（MySQL全文检索+中文分词（SCWS））
PHP+mysql数据库开发类似百度的搜索功能:中英文分词+全文检索中文分词: a) robbe PHP中文分词扩展: http://www.boyunjian.com/v/softd/robb ...
Lucene全文检索_分词_复杂搜索_中文分词器
1 Lucene简介 Lucene是apache下的一个开源的全文检索引擎工具包. 1.1 全文检索(Full-text Search) 1.1.1 定义全文检索就是先分词创建索引,再执行搜索的过 ...
plpython 中文分词Windows下 PG数据库jieba分词
windows 下安装版本匹配python-3.4.3.amd64.msipostgresql-10.1-2-windows-x64.exe create language plpython3u;se ...
如何使用ABBYY FineReader 用户词典识别专业术语？
ABBYY FineReader 15可以说是比较新的版本,在这个版本中能运用强大的光学字符识别技术对PDF文档扫描件.图像等文件进行OCR识别.在识别的过程中,会使用其内置的词典检查识别文字,以获得 ...
11大Java开源中文分词器的使用方法和分词效果对比
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...

随机推荐

七个结构模式之享元模式(Flyweight Pattern)
定义: 运用共享技术对大量细粒度对象的复用,这要求这些对象都很相似,状态变化很小.将这些对象的内部状态和外部状态进行区分,对于内部状态相同的只存储一个对象,而对不同的外部状态则采用不同的操作. 结构图 ...
Could not publish to the server. java.lang.NullPointerException
右键单击tomcat服务器,找到Properties,点下switch location就好了.
ORM查询语言（OQL）简介--高级篇：脱胎换骨
相关文章内容索引: ORM查询语言(OQL)简介--概念篇 ORM查询语言(OQL)简介--实例篇 ORM查询语言(OQL)简介--高级篇:脱胎换骨 ORM查询语言(OQL)简介--高级篇(续):庐山 ...
.Net中的并行编程-5.流水线模型实战
自己在Excel整理了很多想写的话题,但苦于最近比较忙(其实这是借口).... 上篇文章<.Net中的并行编程-4.实现高性能异步队列>介绍了异步队列的实现,本篇文章介绍我实际工作者遇到了 ...
html和css的编码规范
HTML和CSS编码规范内容一.HTML规范二.CSS规范三.注意事项: 四.常用的命名规则五.CSS样式表文件命名六.文件命名规则一.HTML规范: 1.代码规范页面的第一行添加标准模 ...
jquery.sobox 经典版弹窗控件
sobox 是一款非常实用的,基于 jQuery 的弹窗控件.功能非常完整,而代码量又非常少(压缩完仅8k不到)的一款弹窗控件,如果你熟悉ext的弹窗控件,那么sobox的使用对你来说应该是愉悦而完全 ...
js获取本机的外网/广域网ip地址
完整源代码: <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www. ...
强大的<canvas>
<canvas> 个人认为<canvas>是h5最重量级的新标签了,现在各种h5小游戏都是基于<canvas>的,它为游戏提供了一个功能强大的画布,可在画布上绘制丰 ...
Web前端开发工具总结
前端开发工具: web前端开发乃及其它的相关开发, 推荐sublime text, webstorm(jetbrains公司系列产品)这两个的原因在于,有个技术叫emmet, http://docs. ...
sass高级语法
github地址:https://github.com/lily1010/sass/tree/master/course03 用到的sass语法是: sass --watch test.scss:te ...

中科院分词ICTCLAS导入用户词典后分词结果一样？

中科院分词ICTCLAS导入用户词典后分词结果一样？的更多相关文章

随机推荐

热门专题