ElasticSearch拼音插件elasticsearch-analysis-pinyin使用介绍

https://my.oschina.net/xiaohui249/blog/214505

摘要: elasticsearch-analysis-pinyin是ElasticSearch的一个分词插件,能够实现拼音分词索引。本文主要介绍该插件的安装和具体使用方法。

关于elasticsearch-analysis-pinyin的介绍,就此省略,看完此文后你就会知道它有多神奇。

一、安装

安装该插件的前提是你已经安装了ES(ElasticSearch),如果没有参照安装向导。

安装该插件需要2个jar包,一个当然是elasticsearch-analysis-pinyin.jar,另一个是pinyin4j.jar。很多网站都有下载,但是建议亲自编译elasticsearch-analysis-pinyin生成,因为这样不会有版本问题。好,下面介绍编译源码获取上述两个jar包的方法。

1、下载源码(需要安装了git)

    git clone https://github.com/medcl/elasticsearch-analysis-pinyin.git

2、编译(需要安装了maven)

    进入download下来的源码目录:cd elasticsearch-analysis-pinyin,然后执行编译命令:mvn clean install -Dmaven.test.skip。编译成功之后,你将在elasticsearch-analysis-pinyin/target目录中看到elasticsearch-analysis-pinyin的jar包,我编译完成之后,生成的jar包名称为:elasticsearch-analysis-pinyin-1.2.1.jar,然后elasticsearch-analysis-pinyin/lib目录中看到pinyin4j的jar包,我的jar包名称为:pinyin4j-2.5.0.jar。

3、具体安装

    在ES_HOME目录下创建一个plugins目录(如果没有的话),然后在plugins目录下创建pinyin目录,将前两个步骤中得到的jar包拷贝到ES_HOME/plugins/pinyin目录下面。ok,插件安装基本完成,easy吧!

二、如何使用

首先建议重新启动ES服务。

1、分词测试

    (1) 创建一个测试索引:

curl -XPUT http://localhost:9200/medcl/ -d'

{

"index" : {

"analysis" : {

"analyzer" : {

"pinyin_analyzer" : {

"tokenizer" : "my_pinyin",

"filter" : ["standard"]

}

},

"tokenizer" : {

"my_pinyin" : {

"type" : "pinyin",

"first_letter" : "none",

"padding_char" : " "

}

}

}

}

}'

(2) 通过浏览器请求分词效果

        在浏览器输入

http://your_es_host:9200/medcl/_analyze?text=%e5%88%98%e5%be%b7%e5%8d%8e&analyzer=pinyin_analyzer

返回结果如下,分词成功,该插件能够轻易的得到中文对应的拼音分词,然后搜索可以对输入的拼音提示对应的中文,提高搜索体验。

{"tokens":[{"token":"liu de hua ","start_offset":0,"end_offset":3,"type":"word","position":1}]}

2、使用该插件创建索引,实现上图的拼音提示功能

    (1) 创建空索引,设置分词器

curl -XPOST http://localhost:9200/medcl/_close (if you had create index 'medcl', do this)

curl -XPUT http://localhost:9200/medcl/_settings -d'

{

"index" : {

"analysis" : {

"analyzer" : {

"pinyin_analyzer" : {

"tokenizer" : ["my_pinyin"],

"filter" : ["standard","nGram"]

}

},

"tokenizer" : {

"my_pinyin" : {

"type" : "pinyin",

"first_letter" : "prefix",

"padding_char" : ""

}

}

}

}

}'

curl -XPOST http://localhost:9200/medcl/_open (if you had create index 'medcl', do this)

(2) 创建Mapping,即索引结构以及字段配置

curl -XPOST http://localhost:9200/medcl/folks/_mapping -d'

{

"folks": {

"properties": {

"name": {

"type": "multi_field",

"fields": {

"name": {

"type": "string",

"store": "no",

"term_vector": "with_positions_offsets",

"analyzer": "pinyin_analyzer",

"boost": 10

},

"primitive": {

"type": "string",

"store": "yes",

"analyzer": "keyword"

}

}

}

}

}

}'

(3) 开始索引数据

curl -XPOST http://localhost:9200/medcl/folks/andy -d'{"name":"刘德华"}'

(4) 检索数据

    在浏览器一次输入下面的连接,你将会搜索得到上面索引的那个记录:刘德华。

http://localhost:9200/medcl/folks/_search?q=name:刘

http://localhost:9200/medcl/folks/_search?q=name:刘德

http://localhost:9200/medcl/folks/_search?q=name:liu

http://localhost:9200/medcl/folks/_search?q=name:ldh

http://localhost:9200/medcl/folks/_search?q=name:dehua

ElasticSearch1.7.1拼音插件elasticsearch-analysis-pinyin-1.3.3使用介绍的更多相关文章

  1. ElasticSearch安装拼音插件(pinyin)

    环境介绍 集群环境如下: Ubuntu14.04 ElasticSearch 2.3.1(3节点) JDK1.8.0_60 开发环境: Windows10 JDK 1.8.0_66 Maven 3.3 ...

  2. ElasticSearch搜索引擎安装配置拼音插件pinyin

    近几篇ElasticSearch系列: 1.阿里云服务器Linux系统安装配置ElasticSearch搜索引擎 2.Linux系统中ElasticSearch搜索引擎安装配置Head插件 3.Ela ...

  3. ElasticSearch安装拼音插件 elasticsearch-analysis-pinyin

    elasticsearch-analysis-pinyin 是 ElasticSearch的拼音插件.强大的功能支持拼音等的搜索 1.下载源代码 源码地址https://github.com/medc ...

  4. es6.4.0安装和配置IK+拼音插件 实现非全拼搜索

    安装IK分词器 一.进入到es的plugins文件夹创建文件夹analysis-ikmkdir analysis-ik二.下载ik压缩包文件wget https://github.com/medcl/ ...

  5. elasticsearch插件安装之--拼音插件

    /** * vm12下的centos7.2 * elasticsearch 5.2.2 */ 有时在淘宝搜索商品的时候, 会发现使用汉字, 拼音, 或者拼音混合汉字都会出来想要的搜索结果, 今天找了一 ...

  6. Elasticsearch IK+pinyin

    如何在Elasticsearch中安装中文分词器(IK+pinyin)   如果直接使用Elasticsearch的朋友在处理中文内容的搜索时,肯定会遇到很尴尬的问题——中文词语被分成了一个一个的汉字 ...

  7. Elasticsearch:Pinyin 分词器

    Elastic的Medcl提供了一种搜索Pinyin搜索的方法.拼音搜索在很多的应用场景中都有被用到.比如在百度搜索中,我们使用拼音就可以出现汉字: 对于我们中国人来说,拼音搜索也是非常直接的.那么在 ...

  8. [功能帮助类] C#取汉字拼音的首字母PinYin帮助类 (转载)

    点击下载 PinYin.rar 主要功能就是取汉字拼音的首字母,只要你输入一个汉字,或者是多个汉字就会取出相应的道字母,主要是方便查询使用的 /// <summary> /// 编 码 人 ...

  9. elasticsearch安装与使用(4)-- 安装中文分词插件elasticsearch 的 jdbc

    前言 elasticsearch(下面简称ES)使用jdbc连接mysql比go-mysql-elasticsearch的elasticsearch-river-jdbc能够很好的支持增量数据更新的问 ...

随机推荐

  1. mysql系列一

    学习mysql必备工具即安装mysql客户端:mysql安装教程在网上有很多,在此处就不在仔细说明: 下面将仔细介绍一下关于SQL语句: SQL语句:结构化查询语言(Structured Query ...

  2. Ansible自动化配置详解

    第1章 Ansible基本概述 1.1 ansible是一个配置管理系统configuration management system, 你只需要可以使用ssh访问你的服务器或设备就行. 1.安装软件 ...

  3. simpleXML技术解析xml文件(php)

    1.simpleXML的核心思想:以面向对象的方法来操作xml文件 此技术可以将xml文件的所有元素都转成对象.会返回一个对象数组,再用foreach遍历,即可得到元素的名称,内容,和属性值. tes ...

  4. QQ运动,新楛的马桶还在香,营销人不应摒弃。

    QQ运动,都说新楛的马桶还香三天,为毛你这般明日黄花,为营销人所弃. QQ运动,一个差不多被遗忘的冷却地带,却圈粉无数,以性感.狂野.妖艳.线条.汗水等秀元素贯穿始终,狼友显露于此,爱美的女性也未曾缺 ...

  5. html+php上传图片文件到服务器

    html+php上传图片文件到服务器 一.html代码 <body> <form action="" method="post" enctyp ...

  6. Python的matplotlib模块的使用-Github仓库

    import matplotlib.pyplot as plt import numpy as np import requests url='https://api.github.com/searc ...

  7. ruby中将数字转化为字符串格式时差

        工作中有时候会碰到需要把数值展示成比较直观的时间差格式,divmod方法很适合做这个操作.   divmod #输出商和余数的数组    60.divmod(50) #=> [1, 10 ...

  8. C语言:类型、运算符、表达式

    看了一天书,有点累了.就写写随笔记录一下今天的复习成果吧. C语言的基本数据类型 数值型:整型数,浮点数,布尔数,复数和虚数. 非数值型:字符. 整数最基本的是int,由此引出许多变式诸如有符号整数s ...

  9. java 第六章 面向对象基础

    1.面向对象编程思想 面向过程编程 传统的C语言属于面向过程编程.面向过程解决问题的思路:通常是分析出解决问题所需要的步骤,然后用方法把这些步骤一步一步实现,最后一个一个依次调用方法来解决. 面向过程 ...

  10. 「日常训练」「小专题·图论」 Cow Contest (1-3)

    题意 分析 问题是要看出来这是个floyd闭包问题.我没看出来- - 分析之后补充. 代码 // Origin: // Theme: Graph Theory (Basic) // Date: 080 ...