1、背景

一般情况下，有些搜索需求是需要根据拼音和中文来搜索的，那么在elasticsearch中是如何来实现基于拼音来搜索的呢？可以通过elasticsearch-analysis-pinyin分析器来实现。

2、安装拼音分词器

# 进入 es 的插件目录

cd /usr/local/es/elasticsearch-8.4.3/plugins

# 下载

wget https://github.com/medcl/elasticsearch-analysis-pinyin/releases/download/v8.4.3/elasticsearch-analysis-pinyin-8.4.3.zip

# 新建目录

mkdir analysis-pinyin

# 解压

mv elasticsearch-analysis-pinyin-8.4.3.zip analysis-pinyin && cd analysis-pinyin && unzip elasticsearch-analysis-pinyin-8.4.3.zip && rm -rvf elasticsearch-analysis-pinyin-8.4.3.zip

cd ../ && chown -R es:es analysis-pinyin

# 启动es

/usr/local/es/elasticsearch-8.4.3/bin/elasticsearch -d

3、拼音分词器提供的功能

拼音分词器提供如下功能

每个选项的含义 可以通过文档中的例子来看懂。

4、简单测试一下拼音分词器

4.1 dsl

GET _analyze

{

  "text": ["我是中国人"],

  "analyzer": "pinyin"

}

"analyzer": "pinyin" 此处的pinyin是拼音分词器自带的。

4.2 运行结果

从图片上，实现了拼音分词，但是这个不一定满足我们的需求，比如没有中文了，单个的拼音(比如：wo)是没有什么用的，需要对拼音分词器进行定制化。

5、es中分词器的组成

在elasticsearch中分词器analyzer由如下三个部分组成：

character filters： 用于在tokenizer之前对文本进行处理。比如：删除字符，替换字符等。
tokenizer： 将文本按照一定的规则分成独立的token。即实现分词功能。
tokenizer filter： 将tokenizer输出的词条做进一步的处理。比如： 同义词处理，大小写转换、移除停用词，拼音处理等。

6、自定义一个分词器实现拼音和中文的搜索

需求： 自定义一个分词器，即可以实现拼音搜索，也可以实现中文搜索。

1、创建mapping

PUT /test_pinyin

{

  "settings": {

    // 分析阶段的设置

    "analysis": {

      // 分析器设置

      "analyzer": {

        // 自定义分析器，在tokenizer阶段使用ik_max_word，在filter上使用py

        "custom_analyzer": {

          "tokenizer": "ik_max_word",

          "filter": "custom_pinyin"

        }

      },

      // 由于不满足pinyin分词器的默认设置，所以我们基于pinyin

      // 自定义了一个filter，叫py，其中修改了一些设置

      // 这些设置可以在pinyin分词器官网找到

      "filter": {

        "custom_pinyin": {

          "type": "pinyin",

          // 不会这样分：刘德华 > [liu, de, hua]

          "keep_full_pinyin": false,

          // 这样分：刘德华 > [liudehua]

          "keep_joined_full_pinyin": true,

          // 保留原始token（即中文）

          "keep_original": true,

          // 设置first_letter结果的最大长度，默认值：16

          "limit_first_letter_length": 16,

          // 当启用此选项时，将删除重复项以保存索引，例如：de的> de，默认值：false，注意：位置相关查询可能受影响

          "remove_duplicated_term": true,

          // 如果非汉语字母是拼音，则将其拆分为单独的拼音术语，默认值：true，如：liudehuaalibaba13zhuanghan- > liu，de，hua，a，li，ba，ba，13，zhuang，han，注意：keep_none_chinese和keep_none_chinese_together应首先启用

          "none_chinese_pinyin_tokenize": false

        }

      }

    }

  },

  // 定义mapping

  "mappings": {

    "properties": {

      "name": {

        "type": "text",

        // 创建倒排索引时使用的分词器

        "analyzer": "custom_analyzer",

        // 搜索时使用的分词器，搜索时不使用custom_analyzer是为了防止 词语的拼音一样，但是中文含义不一样，导致搜索错误。 比如： 科技 和 客机，拼音一样，但是含义不一样

        "search_analyzer": "ik_smart"

      }

    }

  }

}

注意：

可以看到我们的 name字段使用的分词器是 custom_analyzer，这个是我们在上一步定义的。但是搜索的时候使用的是 ik_smart，这个为甚么会这样呢？

假设我们存在如下2个文本 科技强国和 这是一架客机，那么科技和客机的拼音是不是就是一样的。这个时候如果搜索时使用的分词器也是custom_analyzer那么，搜索科技的时候客机也会搜索出来，这样是不对的。因此在搜索的时候中文就以中文搜，拼音就以拼音搜。

{

  "name": {

    "type": "text",

    "analyzer": "custom_analyzer",

    "search_analyzer": "ik_smart"

  }

}

当 analyzer和search_analyzer的值都是custom_analyzer，搜索时也会通过拼音搜索，这样的结果可能就不是我们想要的。

2、插入数据

PUT /test_pinyin/_bulk

{"index":{"_id":1}}

{"name": "科技强国"}

{"index":{"_id":2}}

{"name": "这是一架客机"}

{"index":{"_id":3}}

3、搜索数据

7、参考文档

1、https://github.com/medcl/elasticsearch-analysis-pinyin/tree/master

elasticsearch实现基于拼音搜索的更多相关文章

php根据汉字获取拼音（php基于拼音搜索实现原理）
php根据汉字获取拼音(php基于拼音搜索实现原理) 代码一:获取字符串汉字首字母,兼容GBK和UTF-8 <?php function getfirstchar($s0){ //获取单个汉 ...
elasticsearch实战中文+拼音搜索
需求雪花啤酒需要搜索雪花.啤酒 .雪花啤酒.xh.pj.xh啤酒.雪花pj ik导入参考https://www.cnblogs.com/LQBlog/p/10443862.html,不需要修改 ...
elasticsearch之拼音搜索
拼音搜索在中文搜索环境中是经常使用的一种功能,用户只需要输入关键词的拼音全拼或者拼音首字母,搜索引擎就可以搜索出相关结果.在国内,中文输入法基本上都是基于汉语拼音的,这种在符合用户输入习惯的条件下缩短 ...
Elasticsearch实现类似 like '?%' 搜索
在做搜索的时候,下拉联想词的搜索肯定是最常见的一个场景,用户在输入的时候,要自动补全词干,说得简单点,就是以...开头搜索,如果是数据库,一句SQL就很容易实现,但在elasticsearch如何实现 ...
转：在ElasticSearch之下（图解搜索的故事）
ElasticSearch 2 (9) - 在ElasticSearch之下(图解搜索的故事) 摘要先自上而下,后自底向上的介绍ElasticSearch的底层工作原理,试图回答以下问题: 为什么我 ...
Elasticsearch java api 基本搜索部分详解
文档是结合几个博客整理出来的,内容大部分为转载内容.在使用过程中,对一些疑问点进行了整理与解析. Elasticsearch java api 基本搜索部分详解 ElasticSearch 常用的查询 ...
ElasticSearch 2 (9) - 在ElasticSearch之下（图解搜索的故事）
ElasticSearch 2 (9) - 在ElasticSearch之下(图解搜索的故事) 摘要先自上而下,后自底向上的介绍ElasticSearch的底层工作原理,试图回答以下问题: 为什么我 ...
从零搭建 ES 搜索服务（四）拼音搜索
一.前言上篇介绍了 ES 的同义词搜索,使我们的搜索更强大了,然而这还远远不够,在实际使用中还可能希望搜索「fanqie」能将包含「番茄」的结果也罗列出来,这就涉及到拼音搜索了,本篇将介绍如何具体实 ...
ElasticSearch 2 (18) - 深入搜索系列之控制相关度
ElasticSearch 2 (18) - 深入搜索系列之控制相关度摘要处理结构化数据(比如:时间.数字.字符串.枚举)的数据库只需要检查一个文档(或行,在关系数据库)是否与查询匹配. 布尔是/ ...
ElasticSearch 2 (17) - 深入搜索系列之部分匹配
ElasticSearch 2 (17) - 深入搜索系列之部分匹配摘要到目前为止,我们介绍的所有查询都是基于完整术语的,为了匹配,最小的单元为单个术语,我们只能查找反向索引中存在的术语. 但是, ...

随机推荐

C语言------选择结构
仅供借鉴.仅供借鉴.仅供借鉴(整理了一下大一C语言每个章节的练习题.没得题目.只有程序了) 文章目录 1 .实训名称 2 .实训目的及要求 3 .源代码及运行截图 4.小结 1 .实训名称实训4:选 ...
Java并发编程 | Synchronized原理与使用
Java提供了多种机制实现多线程之间有需要同步执行的场景需求.其中最基本的是Synchronized ,实现上使用对象监视器( Monitor ). Java中的每个对象都是与线程可以锁定或解锁的对象 ...
27.路由器Routers
像一些reils这样的web框架提供自动生成urls的功能,但是Django没有 rest framework为django添加了这一功能,以一种简单.快速.一致的方式 routers必须配合view ...
驱动开发：内核LDE64引擎计算汇编长度
本章开始LyShark将介绍如何在内核中实现InlineHook挂钩这门技术,内核挂钩的第一步需要实现一个动态计算汇编指令长度的功能,该功能可以使用LDE64这个反汇编引擎,该引擎小巧简单可以直接在驱 ...
分布式事务框架 Seata 入门案例
1. Seata Server 部署 Seata分TC.TM和RM三个角色,TC(Server端)为单独服务端部署,TM和RM(Client端)由业务系统集成. 首先,下载最新的安装包也可以下载源 ...
将java装进u盘指南
将java装入u盘指南 idea 将下载好的idea的文件夹移动到u盘中.在idea的bin目录里找到idea.properties文件,在最后添加以下两行 idea.config.path=U:/I ...
利用递归的方式在JSON 数据中找到某个节点的多有父节点
在项目中遇到的问题-- 一个级联题,知道答案id 后将每一级的选项展示出来例如级联题的 json 数据是 [ { name: '北京', id: 1, children:[ { name: '朝 ...
C#字典出错“集合已经修改，可能无法执行枚举操作”
出现这个现象的原因是由于线程安全考虑,如果你边对字典循环,又同时移除字典中的某个键值对, 那么将会出现这种错误,解决这种问题的方法是你没次remove某个键值对后需要break结束对字典的循环.
Complementary XOR
题目链接题目大意: 给你两个字符串只有01组成,你可以选取区间[l, r],对字符串a在区间里面进行异或操作,对字符串b非区间值进行异或操作,问能否将两个字符串变为全0串.如果可以输出YES, 操作 ...
Redis 常见问题
Redis 常见问题落叶他乡树,寒灯独夜人. 一. 什么是Redis? Redis 是一个使用 C 语言写成的,开源的高性能key-value非关系缓存数据库: Redis的数据都基于缓存的,所以很 ...

elasticsearch实现基于拼音搜索