Elasticsearch 配置同义词

配置近义词

近义词组件已经是elasticsearch自带的了，所以不需要额外安装插件，但是想要让近义词和IK一起使用，就需要配置自己的分析器了。

首先创建近义词文档

在config目录下

mkdir analysis

vim analysis/synonym.txt

编辑：

i-pod, i pod, i pad => ipod,

sea biscuit, sea biscit => seabiscuit,

中文,汉语,汉字

这里可以看到近义词的写法有两种：

a,b => c

a,b,c

第一种在分词的时候，a,b都会解析成为c，然后把c存入索引中

第二种在分词的时候，有a的地方，都会解析成a,b,c，把a,b,c存入索引中

第一种方法相比之下有个主词，比较省索引。

配置elasticsearch.yml中的自定义索引，和前面的ik结合，可以这么设置：

index:

  analysis:

    analyzer:

      ik:

          alias: [ik_analyzer]

          type: org.elasticsearch.index.analysis.IkAnalyzerProvider

      ik_max_word:

          type: ik

          use_smart: false

      ik_smart:

          type: ik

          use_smart: true

      my_synonyms:

          tokenizer: standard

      ik_syno:

          type: custom

          tokenizer: ik

          filter: [my_synonym_filter]

      ik_syno_smart:

          type: custom

          tokenizer: ik

          filter: [my_synonym_filter]

          use_smart: true

    filter:

      my_synonym_filter:

          type: synonym

          synonyms_path: analysis/synonym.txt

上面的配置文件创建了一个filter： my_synonym_filter, 然后创建了两个自定义analyzer: ik_syno和ik_syno_smart

启动elasticsearch:

bin/elasticsearch

案例测试

按照上面的配置，我们使用一个具体的句子进行测试：

120.55.72.158:/elasticsearchtest2

{

"index" : {

"analysis" : {

"analyzer" : {

"ik_syno" : {

"tokenizer" : "ik",

"filter" : ["my_synonym_filter"]

}

}

}

}

}

curl -XPOST "192.168.33.10:9200/elasticsearchtest/_analyze?analyzer=ik_syno" -d 'we are eng man i pad 汉语文字'

返回json结构：

{

    "tokens": [

        {

            "token": "we",

            "start_offset": ,

            "end_offset": ,

            "type": "ENGLISH",

            "position":

        },

        {

            "token": "eng",

            "start_offset": ,

            "end_offset": ,

            "type": "ENGLISH",

            "position":

        },

        {

            "token": "man",

            "start_offset": ,

            "end_offset": ,

            "type": "ENGLISH",

            "position":

        },

        {

            "token": "ipod",

            "start_offset": ,

            "end_offset": ,

            "type": "SYNONYM",

            "position":

        },

        {

            "token": "中文",

            "start_offset": ,

            "end_offset": ,

            "type": "SYNONYM",

            "position":

        },

        {

            "token": "汉语",

            "start_offset": ,

            "end_offset": ,

            "type": "SYNONYM",

            "position":

        },

        {

            "token": "汉字",

            "start_offset": ,

            "end_offset": ,

            "type": "SYNONYM",

            "position":

        },

        {

            "token": "文字",

            "start_offset": ,

            "end_offset": ,

            "type": "CN_WORD",

            "position":

        }

    ]

}

这里就可以看到我们之前配置的东西都成功了：

are字被过滤，是由于are字是stop_words

i pad这个词语被转化为了ipod是由于近义词字典中我们设置了 i pad=>ipod

“文字”两个中文字是被分成一个中文词切割，是因为ik的默认main.dic里面有文字两个字

“中文”“汉字”“汉语”三个词出现是由于近义词字典中我们设置了这三个为同等级的近义词

参考文献:

http://www.cnblogs.com/yjf512/p/4789239.html

Elasticsearch 配置同义词的更多相关文章

[大数据]-Logstash-5.3.1的安装导入数据到Elasticsearch5.3.1并配置同义词过滤
阅读此文请先阅读上文:[大数据]-Elasticsearch5.3.1 IK分词,同义词/联想搜索设置,前面介绍了ES,Kibana5.3.1的安装配置,以及IK分词的安装和同义词设置,这里主要记录L ...
elasticsearch ik同义词
由于elasticsearch 更新实在太快,配置同义词的资料层次不齐,费尽千辛万苦终于找到了.本文通过一个同义词搜索的简单实例来说明ik同义词的配置. 环境介绍这点很重要,本文是基于elastic ...
elasticsearch 使用同义词
elasticsearch 使用同义词使用环境 elasticsearch5.1.1 kibana5.1.1 同义词插件5.1.1 安装插件下载对应的elasticsearch-analysis- ...
ElasticSearch 配置详解
配置文件位于es根目录的config目录下面,有elasticsearch.yml和logging.yml两个配置,主配置文件是elasticsearch.yml,日志配置文件是logging.yml ...
Elasticsearch 配置
Elasticsearch 配置 Elasticsearch不仅仅是Lucene和全文搜索,我们还能这样去描述它: 分布式的实时文件存储,每个字段都被索引并可被搜索分布式的实时分析搜索引擎可以扩展 ...
elasticsearch配置
配置文件详解1.0版配置文件位于es根目录的config目录下面,有elasticsearch.yml和logging.yml两个配置,主配置文件是elasticsearch.yml,日志配置文件是 ...
elasticsearch配置详解
一.说明使用的是新版本5.1,直接从官网下载rpm包进行安装,https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-5 ...
Elasticsearch配置参数介绍
Elasticsearch的config文件夹里面有两个配置文件:elasticsearch.yml和logging.yml.第一个是es的基本配置文件,第二个是日志配置文件,es也是使用log4j来 ...
solr-用mmseg4j配置同义词索引和检索（IKanlyzer需要修改源码适应solr接口才能使用同义词功能）
概念说明:同义词大体的意思是指,当用户输入一个词时,solr会把相关有相同意思的近义词的或同义词的term的语段内容从索引中取出,展示给用户,提高交互的友好性(当然这些同义词的定义是要在配置文件中事先 ...

随机推荐

Java Set List Map
对JAVA的集合的理解是想对于数组数组是大小固定的,并且同一个数组只能存放类型一样的数据(基本类型/引用类型) JAVA集合可以存储和操作数目不固定的一组数据. 所有的JAVA集合都位于 java. ...
JAVA NIO 简单介绍
Version:0.9 StartHTML:-1 EndHTML:-1 StartFragment:00000099 EndFragment:00918492 一:为什么要使用NIO技术 ...
postman-记录cookies信息
接口:赞我的列表,get请求,要登陆用户信息 http://v80.pcauto.com.cn/xsp/s/auto/info/nocache/club/getPraiseMyDynas.xsp?pa ...
2014年第五届蓝桥杯C/C++B组省赛题目解析
一.啤酒和饮料啤酒每罐2.3元,饮料每罐1.9元.小明买了若干啤酒和饮料,一共花了82.3元. 我们还知道他买的啤酒比饮料的数量少,请你计算他买了几罐啤酒. 注意:答案是一个整数.请通过浏览器提交答 ...
图形界面至少要有一个顶级Swing容器
图形界面至少要有一个顶级Swing容器顶级Swing容器为其它Swing组件在屏幕上的绘制和处理事件提供支持常用的顶级容器: JFrame(框架):表示主程序窗口 JDialog(对话框):每个J ...
Python之Python 安装环境搭建
方法和步骤: python安装包的下载:http://111.13.109.34:83/1Q2W3E4R5T6Y7U8I9O0P1Z2X3C4V5B/www.python.org/ftp/python ...
Riak
出处:http://www.oschina.net/p/riak Riak是以 Erlang 编写的一个高度可扩展的分布式数据存储,Riak的实现是基于Amazon的Dynamo论文,Riak的设计目 ...
IMP导入时的错误以及解决办法
导出命令:exp 用户名/密码@localhost:5050/bkcyunty file=D:\bak\db.dmp log=D:\bak\db.log INDEXES=n STATISTICS=no ...
C# ToString()格式设置大全
C 货币 2.5.ToString("C") ￥2.50 D 十进制数 25.ToString("D5") 00025 E 科学型 25000.ToString ...
C# webbrowser判断页面是否加载完毕
private void Form1_Load(object sender, EventArgs e) { webalipay.Url = new Uri("https://authzth. ...

Elasticsearch 配置同义词

Elasticsearch 配置同义词的更多相关文章

随机推荐

热门专题