IKAnalyzer 独立使用配置扩展词典

有三点要注意（要不然扩展词典始终不生效）：

后缀名.dic的词典文件，必须如使用文档里所说的无BOM的UTF-8编码保存的文件。如果不确定什么是无BOM的UTF-8编码，最简单的方式就是用Notepad++编辑器打开，Encoding->选择 Encoding in UTF-8 without BOM，然后保存。
项目preferences 里编码选择 utf8。
词典和IKAnalyzer.cfg.xml配置文件的路径问题。IKAnalyzer.cfg.xml必须在src根目录下。词典可以任意放，但是在IKAnalyzer.cfg.xml里要配置对。如下：我的两个词典文件my.dic 和 mine.dic 放在src下的com.org.config包下，注意com前面一定不要加/，否则是绝对路径找不到。

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM
"http://java.sun.com/dtd/properties.dtd">

<properties>
<comment>IK Analyzer
扩展配置</comment>

<entry
key="ext_dict">com/org/config/my.dic;com/org/config/mine.dic;</entry>

<entry
key="ext_stopwords">/com/org/config/stopword.dic</entry>

</properties>

IKAnalyzer 独立使用的代码：

package com.org;

import java.io.ByteArrayInputStream;

import java.io.IOException;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.io.Reader;

import org.wltea.analyzer.core.IKSegmenter;

import org.wltea.analyzer.core.Lexeme;

public class IKAnalyzerTest {

public static void main(String[] args) {

String str = "最希望从企业得到的是独家的内容或销售信息，获得打折或促销信息等；最不希望企业进行消息或广告轰炸及访问用户的个人信息等。这值得使用社会化媒体的企业研究";

IKAnalysis(str);

}

public static String IKAnalysis(String str) {

StringBuffer sb = new StringBuffer();

try {

// InputStream in = new FileInputStream(str);//

byte[] bt = str.getBytes();// str

InputStream ip = new ByteArrayInputStream(bt);

Reader read = new InputStreamReader(ip);

IKSegmenter iks = new IKSegmenter(read, true);

Lexeme t;

while ((t = iks.next()) != null) {

sb.append(t.getLexemeText() + " , ");

}

sb.delete(sb.length() - 1, sb.length());

} catch (IOException e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

System.out.println(sb.toString());

return sb.toString();

}

}

运行结果：

加载扩展词典：com/org/config/my.dic

加载扩展词典：com/org/config/mine.dic

加载扩展停止词典：/com/org/config/stopword.dic

最希望 , 从 , 企业 , 得到 , 的 , 是 , 独家 , 的 , 内容或销售信息 ,
获得 , 打折 , 或 , 促销信息 , 等 , 最不 , 希望 , 企业 , 进行 , 消息 , 或 , 广告 ,
轰炸 , 及 , 访问 , 用户 , 的 , 个人信息 , 等 , 这 , 值得 , 使用 , 社会化媒体 , 的 ,
企业研究 ,

加粗的词是扩展词典里的词。

以下是proj的目录结构。

附加：手动添加相关词库

public static void main(String[] args) throws IOException {
       String s = "中文分词工具包";
       Configuration cfg = DefualtConfig.getInstance(); //加载词库
       cfg.setUseSmart(true); //设置智能分词
       Dictionary.initial(cfg);

Dictionary dictionary = Dictionary.getSingleton();
       // List<String> words = new ArrayList<String>();
       // words.add("基础班");
       // words.add("高级会计实务");
       // dictionary.addWords(words); //自动添加自定义词

System.out.println(cfg.getMainDictionary()); // 系统默认词库
System.out.println(cfg.getQuantifierDicionary());

Hit hit = dictionary.matchInMainDict("基础班".toCharArray());
System.out.println(hit.isMatch());

System.out.println(queryWords(s));

}

/**
   * IK 分词
   *
   * @param query
   * @return
   * @throws IOException
   */
   public static List<String> queryWords(String query) throws IOException {
       List<String> list = new ArrayList<String>();
       StringReader input = new StringReader(query.trim());

IKSegmenter ikSeg = new IKSegmenter(input, true);// true　用智能分词　，false细粒度
       for (Lexeme lexeme = ikSeg.next(); lexeme != null; lexeme = ikSeg.next()) {
           list.add(lexeme.getLexemeText());
       }

return list;
}

IKAnalyzer 独立使用配置扩展词典的更多相关文章

IK-Analyzer(5.3.1)动态配置自定义词典
参考文献:http://blog.csdn.net/fatpanda/article/details/37911079 jar包: IK-Analyzer-extra-5.3.1.jar IKAnal ...
IKAnalyzer使用停用词词典进行分词
@Test // 測试分词的效果,以及停用词典是否起作用 public void test() throws IOException { String text = "老爹我们都爱您.&qu ...
Sourcetree报错: 您没有已经配置扩展集成设置的远端
一.错误提示您没有已经配置扩展集成设置的远端; ... 二.解决配置 Legacy Account Settings 即可:
centos 系统软件包管理 yum 本地yum配置扩展源epel rpm 清除yum缓存 yum provides "*/vim" 第十节课
centos 系统软件包管理 yum 本地yum配置扩展源epel rpm 清除yum缓存 yum provides "*/vim" 第十节课你不能保证可逆化操 ...
使用 Sinamics S120 驱动脚本配置扩展报文
为了传输故障代码.电流.温度等信息.通常需要使用扩展报文的方式来发送这些信息.在驱动数量较少的情况下,可以进行手动配置. 如果驱动数量很多,可以使用脚本script的方式来配置扩展报文. 驱动编号注 ...
五十八.Kibana使用、 Logstash配置扩展插件
1.导入数据批量导入数据并查看 1.1 导入数据 1) 使用POST方式批量导入数据,数据格式为json,url 编码使用data-binary导入含有index配置的json文件 ]# ...
Cisco基础(四)：配置标准ACL、配置扩展ACL、配置标准命名ACL、配置扩展命名ACL
一.配置标准ACL 目标: 络调通后,保证网络是通畅的.同时也很可能出现未经授权的非法访问.企业网络既要解决连连通的问题,还要解决网络安全的问题. 配置标准ACL实现拒绝PC1(IP地址为192.16 ...
Lucene基于IKAnalyzer配置的词典扩充
在web项目的src目录下创建IKAnalyzer.cfg.xml文件,内容如下 <?xml version="1.0" encoding="UTF-8" ...
用pecl/pear独立编译PHP扩展 vs. 把扩展编译到PHP内核中
将扩展编译到php内部的方式会提高php运行扩展的效率,但是每次需要新添加扩展时都需要把php以及之前添加的所有扩展重新编译一边,非常麻烦. 独立编译扩展,php外部调用扩展的方式虽然会牺牲一点点的性 ...

随机推荐

2018.08.16 洛谷P1437 [HNOI2004]敲砖块（二维dp）
传送门看起来普通dp" role="presentation" style="position: relative;">dpdp像是有后效性的 ...
hdu-1253（bfs+剪枝）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1253 思路:简单的bfs,就是要注意剪枝. #include<iostream> #inc ...
Django入门与实践-第13章：表单处理（完结）
http://127.0.0.1:8000/boards/1/ http://127.0.0.1:8000/boards/2/ http://127.0.0.1:8000/boards/3/ http ...
多块盘制作成一个lvm
1.创建pv[root@autodeploy nfs]# pvcreate /dev/vdd1WARNING: xfs signature detected on /dev/vdd1 at offse ...
linux下mysql命令大全
1.linux下启动mysql的命令: mysqladmin start /ect/init.d/mysql start (前面为mysql的安装路径) 2.linux下重启mysql的命令: mys ...
python按行读取并替换
fp = open(''test2.txt','w') #打开你要写得文件test2.txt lines = open('test1.txt').readlines() #打开文件,读入每一行 f ...
python nan 变成0
在使用numpy数组的过程中时常会出现nan或者inf的元素,可能会造成数值计算时的一些错误.这里提供一个numpy库函数的用法,使nan和inf能够最简单地转换成相应的数值. numpy.nan_t ...
linux系统编程之进程（三）：进程复制fork，孤儿进程，僵尸进程
本节目标: 复制进程映像 fork系统调用孤儿进程.僵尸进程写时复制一,进程复制(或产生) 使用fork函数得到的子进程从父进程的继承了整个进程的地址空间,包括:进程上下文.进程堆栈. ...
Win(Phone)10开发第(3)弹，简单的Demo程序网络请求json解析列表显示
先分享一个由Json字符串直接生成解析对应的类的工具: jsonclassgenerator14 百度天气接口下面是由一个小功能(又特么的是天气)的实现,记录下下UAP的流程和结构(其实跟之前一模一 ...
Unity运行时保存prefab的方法一则
unity编辑器在运行状态时,prefab的apply按钮就消失了,其实此时代码访问的话是有效的. 代码如下,将会给transform的右键增加一个save prefab的选项. using Unit ...

IKAnalyzer 独立使用 配置扩展词典

IKAnalyzer 独立使用 配置扩展词典的更多相关文章

随机推荐

热门专题

IKAnalyzer 独立使用配置扩展词典

IKAnalyzer 独立使用配置扩展词典的更多相关文章