ElasticSearch使用IK中文分词---安装步骤记录

提示1:必须保证之前的ES中不存在index, 否则ES集群无法启动, 会提示red!

提示2:下载的IK如果太新,会报错 TokenStream被重载Caused by: java.lang.VerifyError: class org.wltea.analyzer.lucene.IKAnalyzer overrides final method tokenStream.(Ljava/lang/String;Ljava/io/Reader;)Lorg/apache/lucene/analysis/TokenStream; 这个时候可以换一个旧的版本.

1.下载IK字典配置文件

http://download.csdn.net/detail/xxx0624/8464751

然后解压该文件(可以得到一个ik文件夹)并把它放到ES的config文件夹下.

2.下载 ik.jar

http://download.csdn.net/detail/xxx0624/8464743

下载后进入.plugins文件夹(若不存在新建一个):

新建一个名字为analysis-ik的文件夹,再把下载的jar文件放入文件夹内

以上链接的jar包是最新的可能不适用你需要到github上下载旧版本的代码, 然后用mvn clean package来进行编译.

3.修改elasticsearch.yml(config文件夹中)

添加:

index:

  analysis:

    analyzer:

      ik:

          alias: [ik_analyzer]

          type: org.elasticsearch.index.analysis.IkAnalyzerProvider

      ik_max_word:

          type: ik

          use_smart: false

      ik_smart:

          type: ik

          use_smart: true

附上官方说明:

IK Analysis for ElasticSearch

==================================

The IK Analysis plugin integrates Lucene IK analyzer into elasticsearch, support customized dictionary.

Version

-------------

 master                      | 0.90. -> master

 1.1.                       | 0.90.

 1.1.                       | 0.20.

 1.1.                       | 0.19.x

 1.0.                       | 0.16. -> 0.19.   

Install

-------------

you can download this plugin from RTF project(https://github.com/medcl/elasticsearch-rtf)

https://github.com/medcl/elasticsearch-rtf/tree/master/elasticsearch/plugins/analysis-ik

https://github.com/medcl/elasticsearch-rtf/tree/master/elasticsearch/config/ik

<del>also remember to download the dict files,unzip these dict file into your elasticsearch's config folder,such as: your-es-root/config/ik</del>

you need a service restart after that!

Dict Configuration (es-root/config/ik/IKAnalyzer.cfg.xml)

-------------

https://github.com/medcl/elasticsearch-analysis-ik/blob/master/config/ik/IKAnalyzer.cfg.xml

<pre><?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">

<properties>

    <comment>IK Analyzer 扩展配置</comment>

    <!--用户可以在这里配置自己的扩展字典 -->

    <entry key="ext_dict">custom/mydict.dic;custom/sougou.dict</entry>

     <!--用户可以在这里配置自己的扩展停止词字典-->

    <entry key="ext_stopwords">custom/ext_stopword.dic</entry>

</properties>

</pre>

Analysis Configuration (elasticsearch.yml)

-------------

<Pre>

index:

  analysis:

    analyzer:

      ik:

          alias: [ik_analyzer]

          type: org.elasticsearch.index.analysis.IkAnalyzerProvider

      ik_max_word:

          type: ik

          use_smart: false

      ik_smart:

          type: ik

          use_smart: true

</pre>

Or

<pre>

index.analysis.analyzer.ik.type : "ik"

</pre>

you can set your prefer segment mode,default `use_smart` is false.

Mapping Configuration

-------------

Here is a quick example:

.create a index

<pre>

curl -XPUT http://localhost:9200/index

</pre>

.create a mapping

<pre>

curl -XPOST http://localhost:9200/index/fulltext/_mapping -d'

{

    "fulltext": {

             "_all": {

            "indexAnalyzer": "ik",

            "searchAnalyzer": "ik",

            "term_vector": "no",

            "store": "false"

        },

        "properties": {

            "content": {

                "type": "string",

                "store": "no",

                "term_vector": "with_positions_offsets",

                "indexAnalyzer": "ik",

                "searchAnalyzer": "ik",

                "include_in_all": "true",

                "boost":

            }

        }

    }

}'

</pre>

.index some docs

<pre>

curl -XPOST http://localhost:9200/index/fulltext/1 -d'

{content:"美国留给伊拉克的是个烂摊子吗"}

'

curl -XPOST http://localhost:9200/index/fulltext/2 -d'

{content:"公安部：各地校车将享最高路权"}

'

curl -XPOST http://localhost:9200/index/fulltext/3 -d'

{content:"中韩渔警冲突调查：韩警平均每天扣1艘中国渔船"}

'

curl -XPOST http://localhost:9200/index/fulltext/4 -d'

{content:"中国驻洛杉矶领事馆遭亚裔男子枪击 嫌犯已自首"}

'

</pre>

.query with highlighting

<pre>

curl -XPOST http://localhost:9200/index/fulltext/_search  -d'

{

    "query" : { "term" : { "content" : "中国" }},

    "highlight" : {

        "pre_tags" : ["<tag1>", "<tag2>"],

        "post_tags" : ["</tag1>", "</tag2>"],

        "fields" : {

            "content" : {}

        }

    }

}

'

</pre>

here is the query result

<pre>

{

    "took": ,

    "timed_out": false,

    "_shards": {

        "total": ,

        "successful": ,

        "failed":

    },

    "hits": {

        "total": ,

        "max_score": ,

        "hits": [

            {

                "_index": "index",

                "_type": "fulltext",

                "_id": "",

                "_score": ,

                "_source": {

                    "content": "中国驻洛杉矶领事馆遭亚裔男子枪击 嫌犯已自首"

                },

                "highlight": {

                    "content": [

                        "<tag1>中国</tag1>驻洛杉矶领事馆遭亚裔男子枪击 嫌犯已自首 "

                    ]

                }

            },

            {

                "_index": "index",

                "_type": "fulltext",

                "_id": "",

                "_score": ,

                "_source": {

                    "content": "中韩渔警冲突调查：韩警平均每天扣1艘中国渔船"

                },

                "highlight": {

                    "content": [

                        "均每天扣1艘<tag1>中国</tag1>渔船 "

                    ]

                }

            }

        ]

    }

}

</pre>

have fun.

ElasticSearch使用IK中文分词---安装步骤记录的更多相关文章

elasticsearch使用ik中文分词器
elasticsearch使用ik中文分词器一.背景二.安装 ik 分词器 1.从 github 上找到和本次 es 版本匹配上的分词器 2.使用 es 自带的插件管理 elasticsearc ...
Elasticsearch：IK中文分词器
Elasticsearch内置的分词器对中文不友好,只会一个字一个字的分,无法形成词语,比如: POST /_analyze { "text": "我爱北京天安门&quo ...
elasticsearch ik中文分词器安装
特殊说明:灰色文字用来辅助理解的. 安装IK中文分词器我在百度上搜索了下,大多介绍的都是用maven打包下载下来的源码,这种方法也行,但是不够方便,为什么这么说? 首先需要安装maven吧?其次需要 ...
搜索引擎ElasticSearch系列（五）： ElasticSearch2.4.4 IK中文分词器插件安装
一:IK分词器简介 IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包.从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本.最初,它是以开源 ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十九）ES6.2.2 安装Ik中文分词器
注: elasticsearch 版本6.2.2 1)集群模式,则每个节点都需要安装ik分词,安装插件完毕后需要重启服务,创建mapping前如果有机器未安装分词,则可能该索引可能为RED,需要删除后 ...
30.IK中文分词器的安装和简单使用
在之前我们学的都是英文,用的也是英文的standard分词器.从这一节开始,学习中文分词器.中国人基本上都是中文应用,很少是英文的,而standard分词器是没有办法对中文进行合理分词的,只是将每个中 ...
Elasticsearch入门和查询语法分析（ik中文分词）
全文搜索现在已经是很常见的功能了,当然你也可以用mysql加Sphinx实现.但开源的Elasticsearch(简称ES)目前是全文搜索引擎的首选.目前像GitHub.维基百科都使用的是ES,它可以 ...
ElasticSearch速学 - IK中文分词器远程字典设置
前面已经对”IK中文分词器“有了简单的了解: 但是可以发现不是对所有的词都能很好的区分,比如: 逼格这个词就没有分出来. 词库实际上IK分词器也是根据一些词库来进行分词的,我们可以丰富这个词库. ...
es5.0 安装ik中文分词器 mac
es5.0集成ik中文分词器,网上资料很多,但是讲的有点乱,有的方法甚至不能正常运行此插件特别注意的而是,es的版本一定要和ik插件的版本相对应: 1,下载ik 插件: https://github ...

随机推荐

Android线程---UI线程和非UI线程之间通信
近期自学到了线程这一块,用了一上午的时间终于搞出来了主.子线程间的相互通信.当主线程sendMessage后,子线程便会调用handleMessage来获取你所发送的Message.我的主线程 ...
Swift弹窗
在一个ViewController中使用以下代码: let alertController = UIAlertController(title: "Game Set", messa ...
IIS、SQL SERVER和VS的安装顺序
正确安装顺序:先安装IIS,再安装SQL SERVER,最后安装VS. 如果先安装VS后安装的IIS,则需要找到对应的.net framework目录下,执行aspnet_regiis.exe,重新注 ...
关于SVN 目录结构，使用教程
SVN使用教程:http://www.cnblogs.com/armyfai/p/3985660.html Subversion有一个很标准的目录结构,是这样的.比如项目是proj,svn地址为svn ...
004--VS C++ 绘制封闭图形
//全局变量HPEN hPen;HBRUSH hBru[4];int sBru[4] = { HS_VERTICAL, HS_HORIZONTAL, HS_CROSS, HS_DIAGCROSS }; ...
pb datawindow 判断是否是最后一列最后一行
li_column1 = GetColumn() ls_columnname = GetColumnName() Send(Handle(This),,,Long(,)) ll_row2 = GetR ...
transform属性
transform属性在OC中,通过transform属性可以修改对象的平移.缩放比例和旋转角度常用的创建transform结构体方法分两大类 (1) 创建“基于控件初始位置”的形变 CGAffin ...
Javascript Date Format
// 对Date的扩展,将 Date 转化为指定格式的String // 月(M).日(d).小时(h).分(m).秒(s).季度(q) 可以用 1-2 个占位符, // 年(y)可以用 1-4 个占 ...
【收藏】Linux下tomcat内存配置
常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ...
Teamwork——Week4 团队分工和预估项目时间
由于我们给每个组员预估的每天用在该团队项目的时间为2h左右,因此我们的时间计算也已2h为基数.下面就是我们的团队分工和预估项目时间. 任务编号实现人员任务详细描述预估时间任务0 全体组员看学 ...

ElasticSearch使用IK中文分词---安装步骤记录

ElasticSearch使用IK中文分词---安装步骤记录的更多相关文章

随机推荐

热门专题