Java——ikanalyzer分词·只用自定义词库

需要包：
IKAnalyzer2012_FF_hf1.jar
lucene-core-5.5.4.jar
需要文件：

IKAnalyzer.cfg.xml
ext.dic
stopword.dic

整理好的下载地址：
http://download.csdn.net/detail/talkwah/9770635

import java.io.IOException;

import java.io.StringReader;

import org.wltea.analyzer.cfg.Configuration;

import org.wltea.analyzer.cfg.DefaultConfig;

import org.wltea.analyzer.core.IKSegmenter;

import org.wltea.analyzer.core.Lexeme;

public class FenCi {

    private static Configuration m_wordCut_cfg;

    public static void main(String[] args) throws IOException {

        String s = "这节课我们讲授c语言里的结构体和宏";

        wordCut(s);

    }

    public static void wordCut(String query) throws IOException {

        m_wordCut_cfg = DefaultConfig.getInstance();

        System.out.println(m_wordCut_cfg.getMainDictionary()); // 系统默认词库

        System.out.println(m_wordCut_cfg.getQuantifierDicionary());

        StringReader input = new StringReader(query.trim());

        // true 用智能分词/false细粒度

        IKSegmenter ikSeg = new IKSegmenter(input, true);

        Lexeme lexeme = ikSeg.next();

        for (; lexeme != null; lexeme = ikSeg.next()) {

            // 禁用默认词典，只用自定义词典

            // 1.默认词典设为停用词典

            // 2.getLexemeType为64的直接跳过

            int nType = lexeme.getLexemeType();

            if (nType == 64) {

                continue;

            }

            System.out.print(lexeme.getLexemeText() + " ");

        }

    }

}

ext.dic（此例中放在src文件夹下）

#第一行人家不算呢（大小写都能匹配）

C语言

结构体

宏

IKAnalyzer.cfg.xml（必须放在src文件夹下）

<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">

<properties>

    <comment>IK Analyzer 扩展配置</comment>

    <!--用户可以在这里配置自己的扩展字典 -->

    <entry key="ext_dict">ext.dic;</entry>

    <!--用户可以在这里配置自己的扩展停止词字典 -->

    <entry key="ext_stopwords">stopword.dic;org/wltea/analyzer/dic/main2012.dic;</entry>

</properti

stopword.dic（没改）

结果：

org/wltea/analyzer/dic/main2012.dic

org/wltea/analyzer/dic/quantifier.dic

加载扩展词典：ext.dic

加载扩展停止词典：stopword.dic

加载扩展停止词典：org/wltea/analyzer/dic/main2012.dic

c语言 结构体 宏

Java——ikanalyzer分词·只用自定义词库的更多相关文章

Java——word分词·自定义词库
word: https://github.com/ysc/word word-1.3.1.jar 需要JDK8word-1.2.jar c语言给解析成了“语言”,自定义词库必须为UTF-8 程序一旦运 ...
【自定义IK词典】Elasticsearch之中文分词器插件es-ik的自定义词库
Elasticsearch之中文分词器插件es-ik 针对一些特殊的词语在分词的时候也需要能够识别有人会问,那么,例如: 如果我想根据自己的本家姓氏来查询,如zhouls,姓氏“周”. 如 ...
ElasticSearch7.3学习(十五)----中文分词器(IK Analyzer)及自定义词库
1. 中文分词器 1.1 默认分词器先来看看ElasticSearch中默认的standard 分词器,对英文比较友好,但是对于中文来说就是按照字符拆分,不是那么友好. GET /_analyze ...
paip.禁用IKAnalyzer 的默认词库.仅仅使用自定义词库.
paip.禁用IKAnalyzer 的默认词库.仅仅使用自定义词库. 作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http:// ...
31.IK分词器配置文件讲解以及自定义词库
主要知识点: 知道IK默认的配置文件信息自定义词库一.ik配置文件 ik配置文件地址:es/plugins/ik/config目录 IKAnalyzer.cfg.xml:用 ...
30.IK分词器配置文件讲解以及自定义词库
主要知识点: 知道IK默认的配置文件信息自定义词库一.ik配置文件 ik配置文件地址:es/plugins/ik/config目录 IKAnalyzer.cfg.xml:用 ...
paip.ikanalyzer 重加载词库的方法.
paip.ikanalyzer 重加载词库的方法. 作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http://blog.csdn ...
paip..禁用mmseg 的默认词库. . 仅仅使用自定义词库from数据库.
paip..禁用mmseg 的默认词库. . 仅仅使用自定义词库from数据库. mmseg默认词库只能是文件格式...不好维护..要是不个词库放的个数据库里面走好维护兰.. 要实现2个目标..: 1 ...
solr添加中文IK分词器,以及配置自定义词库
Solr是一个基于Lucene的Java搜索引擎服务器.Solr 提供了层面搜索.命中醒目显示并且支持多种输出格式(包括 XML/XSLT 和 JSON 格式).它易于安装和配置,而且附带了一个基于H ...

随机推荐

我发起了一个 .Net 平台上的开源项目知识图谱 Babana Map 和文本文件搜索引擎 Babana Search
起因也是前几天有网友在群里发了知识图谱相关的文章, 还有有网友问起 NLog -> LogStash -> Elastic Search 的问题, ...
pri 知识点
pri github:https://github.com/prijs/pri 添加路由后动态导入,使用的是 react-loadable:https://github.com/jamiebuilds ...
Linux下Redis开机自启（Centos6）
1.设置redis.conf中daemonize为yes,确保守护进程开启. 查找redis配置文件redis.conf [root@localhost /]# find / -name redis. ...
struts2+dojo实现datagrid
ACTION: package test.action; import java.util.ArrayList; import java.util.HashMap; import java.util. ...
Pyhanlp自然语言处理中的新词识别
新词发现本“新词发现”模块基于信息熵和互信息两种算法,可以在无语料的情况下提取一段长文本中的词语,并支持过滤掉系统中已存在的“旧词”,得到新词列表. 调用方法静态方法一句话静态调用接口已经封装到 ...
RedHat6.5安装zookeeper单机
版本号: Redhat6.5 zookeeper-3.4.6 JDK1.8 zookeeper下载官网下载地址:https://mirrors.tuna.tsinghua.edu.cn/apac ...
RedHat6.5安装Spark集群
版本号: RedHat6.5 RHEL 6.5系统安装配置图解教程(rhel-server-6.5) JDK1.8 http://blog.csdn.net/chongxin1/arti ...
Hystrix 常用属性配置
配置参数默认值说明命令-执行属性配置 hystrix.command.default.execution.isolation.strategy THREAD 配置隔离策略,有效值 THREAD, ...
NVMe标准规范
NVMe NVM Express(NVMe),或称非易失性内存主机控制器接口规范(Non-Volatile Memory express),,是一个逻辑设备接口规范.他是与AHCI类似的.基于设备逻辑 ...
SDRAM---页读写
SDRAM---页读写 1.SDRAM页访问一页通俗的来讲就是一行. SDRAM页写操作时序图: 2.DDR(经常被提起,但是我和你不熟) DDR的连续访问操作给DDR一个write命令,同时给出 ...

Java——ikanalyzer分词·只用自定义词库

Java——ikanalyzer分词·只用自定义词库的更多相关文章

随机推荐

热门专题