聊聊 elasticsearch 之分词器配置 (IK+pinyin)

系统：windows 10

elasticsearch版本：5.6.9

es分词的选择

使用es是考虑服务的性能调优，通过读写分离的方式降低频繁访问数据库的压力，至于分词的选择考虑主要是根据目前比较流行的分词模式，根据参考文档自己搭建测试。

es配置目录结构

在此先贴出es下plugins的目录结构，避免安装时一脸茫然(出自本人配置目录，可根据自身需要进行调整)：
es插件目录结构：
ik压缩包内文件列表：
pinyin压缩包内文件目录：

IK 分词器

IK分词器下载地址：https://github.com/medcl/elasticsearch-analysis-ik/releases?after=v5.6.11
进入链接，选择对应版本编译好的压缩包，点击即可下载。如下图：　　、
上述步骤下载后，解压文件到至\elasticsearch5.6.9\plugins\ik目录下（如无ik目录，手动创建即可），重新启动es服务，即可看到控制台输出的插件信息，表示配置成功。如下图：

pinyin分词器

拼音分词器下载地址：https://github.com/medcl/elasticsearch-analysis-pinyin/releases?after=v5.6.11
拼音分词的配置类似于ik分词，进入链接，选择对应版本编译好的压缩包，点击即可下载。如下图：　　
上述步骤下载后，解压文件到至\elasticsearch5.6.9\plugins\pinyin目录下（如无pinyin目录，手动创建即可），重新启动es服务，即可看到控制台输出的插件信息，表示配置成功。如下图：

分词器的测试案例

IK分词，主要强调两种分词模式：ik_smart和ik_max_word
- 　　ik_smart是将文本做了正确的拆分，如下图：
- 看到结果发现ik_smart分词模式拆分的不够细，“阳光明媚”并没有拆分开，所以接下来就该另一种分词出场了 ---- ik_max_word，直接上结果，如下图：
- 这种更加详细的拆分才是我想要的，这回不用担心高级搜索了····
拼音分词，简言之就是将文本拆分成更加详细拼音，图解如下：
ik与pinyin的结合使用（注：当使用分词搜索数据的时候，必须是通过分词器分析的数据才能搜索出来，否则无法搜索出数据）
- 创建索引时可以自定义分词器配置，通过映射可以指定自定义的分词器，配置如下图：
- 创建名称为“greatom”的索引，自定义“ik_smart_pinyin”和“ik_max_word_pinyin”的分词器，过滤设置为“g_pinyin”，如上图右侧提示则表示设置成功，可以通过“GET greatom/settings”查询配置信息。
- 创建type时，需要在字段的解析属性（analyzer）中设置自定义名称的映射，如下图：
- 如上图右侧提示则表示创建成功，接下来增加点数据，以便后续测试。
- 测试数据按照上图方式即可进行批量新增，也可对索引数据进行查询。接下来就开始正式的分词查询。
- 上图表示两种分词的查询格式，可以联想搜索出相关的所有数据，感觉比较智能了。

结尾

通过对es分词的了解和使用，发现选择的两种分词模式已经满足自己项目的使用，还未进行更深入的了解，后续会继续了解底层及分词原理，如有瑕疵或更好的见解，希望可以交流学习。

聊聊 elasticsearch 之分词器配置 (IK+pinyin)的更多相关文章

elasticsearch中文分词器（ik）配置
elasticsearch默认的分词:http://localhost:9200/userinfo/_analyze?analyzer=standard&pretty=true&tex ...
Solr多核心及分词器（IK）配置
Solr多核心及分词器(IK)配置多核心的概念多核心说白了就是多索引库.也可以理解为多个"数据库表" 说一下使用multicore的真实场景,比若说,产品搜索和会员信息搜索 ...
真分布式SolrCloud+Zookeeper+tomcat搭建、索引Mysql数据库、IK中文分词器配置以及web项目中solr的应用(1)
版权声明:本文为博主原创文章,转载请注明本文地址.http://www.cnblogs.com/o0Iris0o/p/5813856.html 内容介绍: 真分布式SolrCloud+Zookeepe ...
ElasticSearch中分词器组件配置详解
首先要明确一点,ElasticSearch是基于Lucene的,它的很多基础性组件,都是由Apache Lucene提供的,而es则提供了更高层次的封装以及分布式方面的增强与扩展. 所以要想熟练的掌握 ...
Solr IK分词器配置
下载地址:https://search.maven.org/search?q=com.github.magese 分词器配置: 参考:https://www.cnblogs.com/mengjinlu ...
elasticsearch kibana + 分词器安装详细步骤
elasticsearch kibana + 分词器安装详细步骤一.准备环境系统:Centos7 JDK安装包:jdk-8u191-linux-x64.tar.gz ES安装包:elasticse ...
Solr入门之（8）中文分词器配置
Solr中虽然提供了一个中文分词器,但是效果很差,可以使用IKAnalyzer或Mmseg4j 或其他中文分词器. 一.IKAnalyzer分词器配置: 1.下载IKAnalyzer(IKAnalyz ...
2.IKAnalyzer 中文分词器配置和使用
一.配置 IKAnalyzer 中文分词器配置,简单,超简单. IKAnalyzer 中文分词器下载,注意版本问题,貌似出现向下不兼容的问题,solr的客户端界面Logging会提示错误. 给出我配置 ...
Solr6.5.0配置中文分词器配置
准备工作: solr6.5.0安装成功 1.去官网https://github.com/wks/ik-analyzer下载IK分词器 2.Solr集成IK a)将ik-analyzer-solr6.x ...

随机推荐

OLTP与OLAP的介绍（理论知识）
OLTP与OLAP的介绍数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing).联机分析处理OLAP(On-Line Analytical ...
python接口自动化测试遇到的问题及解决方案
工作中xml中的某一个字段是全网唯一,这就需要进行参数化处理.此次对这一个字段进行参数化处理引用了random模块和index()函数.代码如下: #!/usr/bin/python # -*- co ...
MongoDB简介---MongoDB基础用法（一）
Mongo MongoDB是一个基于分布式文件存储的数据库.MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的. MongoDB 将数据存储为一 ...
JWT实现过程及应用
jwt实现过程 # 用户登录,返回给客户端token(服务端不保存),用户带着token,服务端拿到token再校验; 1,提交用户名和密码给服务端,如果登陆成功,jwt会创建一个token,并返回; ...
ASP.NET Core Authentication系列（一）理解Claim, ClaimsIdentity, ClaimsPrincipal
前言首先我们来看一下在ASP.NET时代,Authentication是如何使用的.下面介绍的是System.Web.Security.FormsAuthentication: // 登录 Syst ...
Python3网络学习案例一：Ping详解
1. 使用Ping做什么 ping用于确定本地主机是否能与另一台主机成功交换(发送与接收)数据包,再根据返回的信息,就可以推断TCP/IP参数是否设置正确,以及运行是否正常.网络是否通畅等. 2. 效 ...
Redis的介绍及使用
redis 简介简单来说 redis 就是一个数据库,不过与传统数据库不同的是 redis 的数据是存在内存中的,所以读写速度非常快,因此 redis 被广泛应用于缓存方向.另外,redis 也经常 ...
基于虚拟机安装Linux并利用LVM创建磁盘分区
主要步骤:将磁盘设置为LVM类型,并在这四个分区上创建物理卷.卷组和逻辑卷,最后将逻辑卷挂载.电脑使用Windows10 企业版 LTSC 操作系统.虚拟机使用VMware15.5 pro . 1.安 ...
php 实现签名验签
本人php菜鸟,主要使用php实现简单的签名验签功能以下php代码使用的密钥格式为pem格式,其他证书格式可以使用openssl进行转换(未安装请实现安装): 以下是.p12文件导出pem格式公私钥 ...
XJOI 7191 Genius ACM
二分+倍增题目题目中的最大校验值应由数组排序后,取出最大值和最小值,次大值和次小值--进行做差平方取和所以在加入一个新的数时,校验值是不会下降的那么可以发现,校验值是单调递增的,所以可以用二分 ...

聊聊 elasticsearch 之分词器配置 (IK+pinyin)

系统：windows 10

elasticsearch版本：5.6.9

es分词的选择

es配置目录结构

IK 分词器

pinyin分词器

分词器的测试案例

结尾

聊聊 elasticsearch 之分词器配置 (IK+pinyin)的更多相关文章

随机推荐

热门专题