Elasticsearch之IKAnalyzer的过滤停止词
它在哪里呢?
非常重要!
[hadoop@HadoopMaster custom]$ pwd
/home/hadoop/app/elasticsearch-2.4.3/plugins/ik/config/custom
[hadoop@HadoopMaster custom]$ ll
total 5252
-rw-r--r--. 1 hadoop hadoop 156 Dec 14 10:34 ext_stopword.dic
-rw-r--r--. 1 hadoop hadoop 130 Dec 14 10:34 mydict.dic
-rw-r--r--. 1 hadoop hadoop 63188 Dec 14 10:34 single_word.dic
-rw-r--r--. 1 hadoop hadoop 63188 Dec 14 10:34 single_word_full.dic
-rw-r--r--. 1 hadoop hadoop 10855 Dec 14 10:34 single_word_low_freq.dic
-rw-r--r--. 1 hadoop hadoop 5225922 Dec 14 10:34 sougou.dic
[hadoop@HadoopMaster custom]$
[hadoop@HadoopMaster elasticsearch-2.4.3]$ ll
total 56
drwxrwxr-x. 2 hadoop hadoop 4096 Feb 22 01:37 bin
drwxrwxr-x. 3 hadoop hadoop 4096 Feb 22 18:46 config
drwxrwxr-x. 3 hadoop hadoop 4096 Feb 22 06:05 data
drwxrwxr-x. 2 hadoop hadoop 4096 Feb 22 01:37 lib
-rw-rw-r--. 1 hadoop hadoop 11358 Aug 24 2016 LICENSE.txt
drwxrwxr-x. 2 hadoop hadoop 4096 Feb 25 05:15 logs
drwxrwxr-x. 5 hadoop hadoop 4096 Dec 8 00:41 modules
-rw-rw-r--. 1 hadoop hadoop 150 Aug 24 2016 NOTICE.txt
drwxrwxr-x. 5 hadoop hadoop 4096 Feb 25 06:31 plugins
-rw-rw-r--. 1 hadoop hadoop 8700 Aug 24 2016 README.textile
[hadoop@HadoopMaster elasticsearch-2.4.3]$ cd plugins/
[hadoop@HadoopMaster plugins]$ ll
total 12
drwxrwxr-x. 5 hadoop hadoop 4096 Feb 22 05:28 head
drwxrwxr-x. 3 hadoop hadoop 4096 Feb 25 06:32 ik
drwxrwxr-x. 8 hadoop hadoop 4096 Feb 22 05:34 kopf
[hadoop@HadoopMaster plugins]$ cd ik/
[hadoop@HadoopMaster ik]$ ll
total 5828
-rw-r--r--. 1 hadoop hadoop 263965 Dec 1 2015 commons-codec-1.9.jar
-rw-r--r--. 1 hadoop hadoop 61829 Dec 1 2015 commons-logging-1.2.jar
drwxr-xr-x. 3 hadoop hadoop 4096 Jan 1 12:46 config
-rw-r--r--. 1 hadoop hadoop 55998 Jan 1 13:27 elasticsearch-analysis-ik-1.10.3.jar
-rw-r--r--. 1 hadoop hadoop 4505518 Jan 15 08:59 elasticsearch-analysis-ik-1.10.3.zip
-rw-r--r--. 1 hadoop hadoop 736658 Jan 1 13:26 httpclient-4.5.2.jar
-rw-r--r--. 1 hadoop hadoop 326724 Jan 1 13:07 httpcore-4.4.4.jar
-rw-r--r--. 1 hadoop hadoop 2667 Jan 1 13:27 plugin-descriptor.properties
[hadoop@HadoopMaster ik]$ cd config/
[hadoop@HadoopMaster config]$ ll
total 3016
drwxr-xr-x. 2 hadoop hadoop 4096 Jan 1 12:46 custom
-rw-r--r--. 1 hadoop hadoop 697 Dec 14 10:34 IKAnalyzer.cfg.xml
-rw-r--r--. 1 hadoop hadoop 3058510 Dec 14 10:34 main.dic
-rw-r--r--. 1 hadoop hadoop 123 Dec 14 10:34 preposition.dic
-rw-r--r--. 1 hadoop hadoop 1824 Dec 14 10:34 quantifier.dic
-rw-r--r--. 1 hadoop hadoop 164 Dec 14 10:34 stopword.dic
-rw-r--r--. 1 hadoop hadoop 192 Dec 14 10:34 suffix.dic
-rw-r--r--. 1 hadoop hadoop 752 Dec 14 10:34 surname.dic
[hadoop@HadoopMaster config]$ cd custom/
[hadoop@HadoopMaster custom]$ ll
total 5252
-rw-r--r--. 1 hadoop hadoop 156 Dec 14 10:34 ext_stopword.dic
-rw-r--r--. 1 hadoop hadoop 130 Dec 14 10:34 mydict.dic
-rw-r--r--. 1 hadoop hadoop 63188 Dec 14 10:34 single_word.dic
-rw-r--r--. 1 hadoop hadoop 63188 Dec 14 10:34 single_word_full.dic
-rw-r--r--. 1 hadoop hadoop 10855 Dec 14 10:34 single_word_low_freq.dic
-rw-r--r--. 1 hadoop hadoop 5225922 Dec 14 10:34 sougou.dic
[hadoop@HadoopMaster custom]$ cat ext_stopword.dic
也
了
仍
从
以
使
则
却
又
及
对
就
并
很
或
把
是
的
着
给
而
被
让
在
还
比
等
当
与
于
但[hadoop@HadoopMaster custom]$
大家,有兴趣,可以看看,英文停用词
http://www.ranks.nl/stopwords
大家,有兴趣,可以看看,中文停用词
Elasticsearch之IKAnalyzer的过滤停止词的更多相关文章
- IKAnalyzer使用停用词词典进行分词
@Test // 測试分词的效果,以及停用词典是否起作用 public void test() throws IOException { String text = "老爹我们都爱您.&qu ...
- Java——ikanalyzer分词·只用自定义词库
需要包:IKAnalyzer2012_FF_hf1.jarlucene-core-5.5.4.jar需要文件: IKAnalyzer.cfg.xmlext.dicstopword.dic 整理好的下载 ...
- Lucene系列四:Lucene提供的分词器、IKAnalyze中文分词器集成、扩展 IKAnalyzer的停用词和新词
一.Lucene提供的分词器StandardAnalyzer和SmartChineseAnalyzer 1.新建一个测试Lucene提供的分词器的maven项目LuceneAnalyzer 2. 在p ...
- solr配置同义词,停止词,和扩展词库(IK分词器为例)
定义 同义词:搜索结果里出现的同义词.如我们输入”还行”,得到的结果包括同义词”还可以”. 停止词:在搜索时不用出现在结果里的词.比如is .a .are .”的”,“得”,“我” 等,这些词会在句子 ...
- paip.ikanalyzer 重加载词库的方法.
paip.ikanalyzer 重加载词库的方法. 作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏 地址:http://blog.csdn ...
- web前端js过滤敏感词
web前端js过滤敏感词 这里是用文本输入框还有文本域绑定了失去焦点事件,然后再遍历敏感词数组进行匹配和替换. var keywords=["阿扁","呵呵", ...
- Elasticsearch的前后台运行与停止(rpm包方式)
对应,这es的下载,需要rpm包. Elasticsearch-2.4.3的下载(图文详解) 建议用root用户 [root@djt002 elasticsearch-2.4.3]$ pwd/usr/ ...
- (转)两种高效过滤敏感词算法--DFA算法和AC自动机算法
原文:https://blog.csdn.net/u013421629/article/details/83178970 一道bat面试题:快速替换10亿条标题中的5万个敏感词,有哪些解决思路? 有十 ...
- 【SpringBoot】前缀树 Trie 过滤敏感词
1.过滤敏感词 Spring Boot实践,开发社区核心功能 完成过滤敏感词 Trie 名称:Trie也叫做字典树.前缀树(Prefix Tree).单词查找树 特点:查找效率高,消耗内存大 应用:字 ...
随机推荐
- Tilera--100核cpu
市场对多核的需求越来越多,主要是因为单核处理能力不可能像以往那样不断地提升.从上世纪90 年代开始,整个产业遵循摩尔定律,即芯片上可容纳的晶体管数目每隔18个月便会增加一倍,性能也提升一倍.随着时间的 ...
- php composer,update-ca-trust
安装 ComposerComposer 需要 PHP 5.3.2+ 才能运行. $ curl -sS https://getcomposer.org/installer | php这个命令会将 com ...
- squee_spoon and his Cube VI---郑大校赛(求最长子串)
市面上最常见的魔方,是三阶魔方,英文名为Rubik's Cube,以魔方的发明者鲁比克教授的名字命名.另外,二阶魔方叫Pocket Cube,它只有2*2*2个角块,通常也就比较小:四阶魔方叫Reve ...
- Python并行编程(四):线程同步之RLock
1.基本概念 如果想让只有拿到锁的线程才能释放该锁,那么应该使用RLock()对象.当需要在类外面保证线程安全,又要在类内使用同样方法的时候RLock()就很使用. RLock叫做Reentrant ...
- Flask的配置与路由
配置管理 flask中的配置文件是一个flask.config.Config对象(继承字典),默认配置为: { 'DEBUG': get_de ...
- ssm框架集成Quartz定时器
第一步:添加依赖 <dependency> <groupId>org.quartz-scheduler</groupId> <artifactId>qu ...
- 文字识别的google的库 tesseract
https://github.com/tesseract-ocr/tesseract https://github.com/tesseract-ocr/tessdata 字体识 ...
- python学习笔记(十一)redis的介绍及安装
一.redis简介 1.redis是一个开源的.使用C语言编写的.支持网络交互的.可基于内存也可持久化的Key-Value数据库. 2.redis的官网地址,非常好记,是redis.io. ...
- R语言 dbWriteTable 写入数据库 为空和乱码问题
在windows环境下 用RMySQL 写入数据库中文数据为空 或者乱码问题. 找了下资料 一般情况是 用 insert 语句插入,结合现有业务有点麻烦,放弃了. 还有一种方式换平台,由于经常在win ...
- PLSQLDeveloper安装与配置
1.前提:首先要有oracle数据库或者有oracle服务器,才可以实现使用PLSQL Developer 工具连接到oracle数据库进行开发 2.下载PLSQLDeveloper并解压 3.配置环 ...