IKAnalyzer

我们的项目中中文切词使用的是mmseg，有一个不满意的地方是jar包中的默认词典一定会被加载进去，当我对有些term有意见时，无法删除。

mmseg中Dictionary.java里一段代码保证了/data/words.dic的加载，我无法提供自己的进行替换。

//try load words.dic in jar

InputStream wordsDicIn = this.getClass().getResourceAsStream("/data/words.dic");

if(wordsDicIn != null) {

    File wordsDic = new File(this.getClass().getResource("/data/words.dic").getFile());

    loadWord(wordsDicIn, dic, wordsDic);

}

而IKAnalyzer就比较自由，既可以增加自己的词典，也能指定删除默认词典中的词。

        String text = "给我讲一个黄色笑话";

        Configuration cfg = DefaultConfig.getInstance();

        Dictionary.initial(cfg);

        //将"黄色笑话"从默认词典中删除

        Dictionary.getSingleton().disableWords(Arrays.asList("黄色笑话"));

        StringReader sr = new StringReader(text);

        IKSegmenter ik = new IKSegmenter(sr, true);

        Lexeme lex;

        while ((lex = ik.next()) != null) {

            System.out.print(lex.getLexemeText() + "|");

        }

输出：给我讲一个|黄色|笑话

如何增加新词呢？

DefaultConfig类会默认加载根目录下的配置文件IKAnalyzer.cfg.xml

<properties>

    <comment>IK Analyzer 扩展配置</comment>

    <!-- 用户可以在这里配置自己的扩展字典 -->

    <entry key="ext_dict">ik.add.dic</entry>

    <!-- 用户可以在这里配置自己的扩展停止词字典    -->

    <!--entry key="ext_stopwords">/dicdata/ext_stopword.dic</entry-->

</properties>

其中ext_dict就是用于添加自定义的扩展词典。　　

IKAnalyzer的更多相关文章

solr服务中集成IKAnalyzer中文分词器、集成dataimportHandler插件
昨天已经在Tomcat容器中成功的部署了solr全文检索引擎系统的服务:今天来分享一下solr服务在海量数据的网站中是如何实现数据的检索. 在solr服务中集成IKAnalyzer中文分词器的步骤: ...
lucene+IKAnalyzer实现中文纯文本检索系统
首先IntelliJ IDEA中搭建Maven项目(web):spring+SpringMVC+Lucene+IKAnalyzer spring+SpringMVC搭建项目可以参考我的博客整合Luc ...
JAVA 中配置IKAnalyzer扩展词库和停止词库
1.后缀名.dic的词典文件,必须如使用文档里所说的无BOM的UTF-8编码保存的文件.如果不确定什么是无BOM的UTF-8编码,最简单的方式就是用Notepad++编辑器打开,Encoding ...
solr 中文分词 IKAnalyzer
solr中文分词器ik, 推荐资料:http://iamyida.iteye.com/blog/2220474?utm_source=tuicool&utm_medium=referral 使 ...
paip.禁用IKAnalyzer 的默认词库.仅仅使用自定义词库.
paip.禁用IKAnalyzer 的默认词库.仅仅使用自定义词库. 作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http:// ...
Solr整合中文分词组件IKAnalyzer
我用的Solr是4.10版本, 在csdn下载这个版本的IKAnalyzer:IK Analyzer 2012FF_hf1.zip 解压后目录如下: (1)这里还用solr自带的example实验分词 ...
[solr] - IKAnalyzer 扩展分词库
在solr中加入自己的扩展分词库方法: 参考文章: http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html 1.在solr的we ...
[solr] - IKAnalyzer 分词加入
1.下载IK Analyzer中文分词器:http://ik-analyzer.googlecode.com/files/IK%20Analyzer%202012FF_hf1.zip 2.解压出zip ...
paip.ikanalyzer 重加载词库的方法.
paip.ikanalyzer 重加载词库的方法. 作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http://blog.csdn ...

随机推荐

wepack+sass+vue 入门教程（三）
十一.安装sass文件转换为css需要的相关依赖包 npm install --save-dev sass-loader style-loader css-loader loader的作用是辅助web ...
node.js学习（三）简单的node程序&&模块简单使用&&commonJS规范&&深入理解模块原理
一.一个简单的node程序 1.新建一个txt文件 2.修改后缀修改之后会弹出这个,点击"是" 3.运行test.js 源文件使用node.js运行之后的. 如果该路径下没有该 ...
【深入浅出jQuery】源码浅析--整体架构
最近一直在研读 jQuery 源码,初看源码一头雾水毫无头绪,真正静下心来细看写的真是精妙,让你感叹代码之美. 其结构明晰,高内聚.低耦合,兼具优秀的性能与便利的扩展性,在浏览器的兼容性(功能缺陷.渐 ...
如何在nuget上传自己的包+搭建自己公司的NuGet服务器（新方法）
运维相关:http://www.cnblogs.com/dunitian/p/4822808.html#iis 先注册一个nuget账号https://www.nuget.org/ 下载并安装一下Nu ...
Java中Comparable与Comparator的区别
相同 Comparable和Comparator都是用来实现对象的比较.排序要想对象比较.排序,都需要实现Comparable或Comparator接口 Comparable和Comparator都 ...
SDWebImage源码解读之 UIImage+GIF
第二篇前言本篇是和GIF相关的一个UIImage的分类.主要提供了三个方法: + (UIImage *)sd_animatedGIFNamed:(NSString *)name ----- 根据名 ...
JavaScript中事件处理
先看看下面一道题目,请评价以下代码并给出改进意见: if (window.addEventListener) {//标准浏览器 var addListener = function(el, type, ...
UVA, 10336 Rank the Languages
难点在于:递归函数和输出: #include <iostream> #include <vector> #include <algorithm> #include ...
Python 基础之一变量和赋值
变量:程序在运行的时候会用到很多临时存储数据,这个时候就用到了变量,临时数据的名字. Python中变量不需要声明,直接可以使用,变量的数据类型由赋值确定. >>> name=&qu ...
Java实现Excel中的NORMSDIST函数和NORMSINV函数
由于工作中需要将Excel中的此两种函数转换成java函数,从而计算内部评级的资本占用率和资本占用金额.经过多方查阅资料和整理,总结出如下两个转换方法标准正态分布累计函数NORMSDIST: pub ...

IKAnalyzer

IKAnalyzer的更多相关文章

随机推荐

热门专题