第四章-分词

关注公众号:CoderBuff,回复“es”获取《ElasticSearch6.x实战教程》完整版PDF。

下雨天留客天留我不留

本打算先介绍“简单搜索”,对ES的搜索有一个直观的感受。但在写的过程中发现分词无论如何都绕不过去。term查询,match查询都与分词息息相关,索性先介绍分词。

ES作为一个开源的搜索引擎,其核心自然在于搜索,而搜索不同于我们在MySQL中的select查询语句,无论我们在百度搜索一个关键字,或者在京东搜索一个商品时,常常无法很准确的给出一个关键字,例如我们在百度希望搜索“Java教程”,我们希望结果是“Java教程”、“Java”、“Java基础教程”,甚至是“教程Java”。MySQL虽然能满足前三种查询结果,但却无法满足最后一种搜索结果。

虽然我们很难做到对于百度或者京东的搜索(这甚至需要了解Lucene和搜索的底层原理),但我们能借助ES做出一款不错的搜索产品。

ES的搜索中,分词是非常重要的概念。掌握分词原理,对待一个不甚满意的搜索结果我们能定位是哪里出了问题,从而做出相应的调整。

ES中,只对字符串进行分词,在ElasticSearch2.x版本中,字符串类型只有string,ElasticSearch5.x版本后字符串类型分为了textkeyword类型,需要明确的分词只在text类型。

ES的默认分词器是standard,对于英文搜索它没有问题,但对于中文搜索它会将所有的中文字符串挨个拆分,也就是它会将“中国”拆分为“中”和“国”两个单词,这带来的问题会是搜索关键字为“中国”时,将不会有任何结果,ES会将搜索字段进行拆分后搜索。当然,你可以指定让搜索的字段不进行分词,例如设置为keyword字段。

分词体验

前面说到ES的默认分词器是standard,可直接通过API指定分词器以及字符串查看分词结果。

使用standard进行英文分词:

  1. POST http://localhost:9200/_analyze
  2. {
  3. "analyzer":"standard",
  4. "text":"hello world"
  5. }

ES响应:

  1. {
  2. "tokens": [
  3. {
  4. "token": "hello",
  5. "start_offset": 0,
  6. "end_offset": 5,
  7. "type": "<ALPHANUM>",
  8. "position": 0
  9. },
  10. {
  11. "token": "world",
  12. "start_offset": 6,
  13. "end_offset": 11,
  14. "type": "<ALPHANUM>",
  15. "position": 1
  16. }
  17. ]
  18. }

如果我们对“helloword”进行分词,结果将只有“helloword”一个词,standsard对英文按照空格进行分词。

使用standard进行中文分词:

  1. POST http://localhost:9200/_analyze
  2. {
  3. "analyzer":"standard",
  4. "text":"学生"
  5. }

ES响应:

  1. {
  2. "tokens": [
  3. {
  4. "token": "学",
  5. "start_offset": 0,
  6. "end_offset": 1,
  7. "type": "<IDEOGRAPHIC>",
  8. "position": 0
  9. },
  10. {
  11. "token": "生",
  12. "start_offset": 1,
  13. "end_offset": 2,
  14. "type": "<IDEOGRAPHIC>",
  15. "position": 1
  16. }
  17. ]
  18. }

“学生”显然应该是一个词,不应该被拆分。也就是说如果字符串中是中文,默认的standard不符合我们的需求。幸运地是, ES支持第三方分词插件。在ES中的中文分词插件使用最为广泛的是ik插件。

ik插件

既然是插件,就需要安装。注意,版本5.0.0起,ik插件已经不包含名为ik的分词器,只含ik_smartik_max_word,事实上后两者使用得也最多。

ik插件安装

ik下载地址(直接下载编译好了的zip文件,需要和ES版本一致):https://github.com/medcl/elasticsearch-analysis-ik/releases/tag/v6.3.2。ik历史版本下载页面:https://github.com/medcl/elasticsearch-analysis-ik/releases

下载完成后解压elasticsearch-analysis-ik-6.3.2.zip将解压后的文件夹直接放入ES安装目录下的plugins文件夹中,重启ES。

使用ik插件的ik_smart分词器:

  1. POST http://localhost:9200/_analyze
  2. {
  3. "analyzer":"ik_smart",
  4. "text":"学生"
  5. }

ES响应:

  1. {
  2. "tokens": [
  3. {
  4. "token": "学生",
  5. "start_offset": 0,
  6. "end_offset": 2,
  7. "type": "CN_WORD",
  8. "position": 0
  9. }
  10. ]
  11. }

这才符合我们的预期。那么ik插件中的ik_smartik_max_word有什么区别呢?简单来讲,ik_smart会按照关键字的最粗粒度进行分词,比如搜索“北京大学”时,我们知道“北京大学”是一个特定的词汇,它并不是指“北京的大学”,我们不希望搜索出“四川大学”,“重庆大学”等其他学校,此时“北京大学”不会被分词。而ik_max_word则会按照最细粒度进行分词,同样搜索“北京大学”时,我们也知道“北京”和“大学”都是一个词汇,所以它将会被分词为“北京大学”,“北京大”,“北京”,“大学”,显然如果搜索出现后三者相关结果,这会给我们带来更多无用的信息。

所以我们在进行搜索时,常常指定ik_smart为分词器。

有时候一个词并不在ik插件的词库中,例如很多网络用语等。我们希望搜索“小米手机”的时候,只出现“小米的手机”而不会出现“华为手机”、“OPPO手机”,但“小米手机”并不在ik词库中,此时我们可以将“小米手机”添加到ik插件的自定义词库中。

“小米手机”使用ik_smart的分词结果:

  1. {
  2. "tokens": [
  3. {
  4. "token": "小米",
  5. "start_offset": 0,
  6. "end_offset": 2,
  7. "type": "CN_WORD",
  8. "position": 0
  9. },
  10. {
  11. "token": "手机",
  12. "start_offset": 2,
  13. "end_offset": 4,
  14. "type": "CN_WORD",
  15. "position": 1
  16. }
  17. ]
  18. }

进入ik插件安装目录elasticsearch-5.6.0/plugins/elasticsearch/config,创建名为custom.dic的自定义词库,向文件中添加“小米手机”并保存。仍然是此目录,修改IKAnalyzer.cfg.xml文件,如下所示:

  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
  3. <properties>
  4. <comment>IK Analyzer 扩展配置</comment>
  5. <!--用户可以在这里配置自己的扩展字典 -->
  6. <entry key="ext_dict">custom.dic</entry>
  7. <!--用户可以在这里配置自己的扩展停止词字典-->
  8. <entry key="ext_stopwords"></entry>
  9. <!--用户可以在这里配置远程扩展字典 -->
  10. <!-- <entry key="remote_ext_dict">words_location</entry> -->
  11. <!--用户可以在这里配置远程扩展停止词字典-->
  12. <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
  13. </properties>

重启ES后,再次通过ik_smart对“小米手机”进行分词,发现“小米手机”不再被分词。

创建映射指定分词器

在创建映射时,我们可以指定字段采用哪种分词器,避免我们在每次搜索时都指定。

  1. 创建word索引 PUT http://localhost:9200/word

  2. 创建analyzer_demo类型已经定义映射Mapping

    1. PUT http://localhost:9200/word/analyzer_demo/_mapping
    2. {
    3. "properties":{
    4. "name":{
    5. "type":"text",
    6. "analyzer":"ik_smart"
    7. }
    8. }
    9. }
  3. 查看word索引结构 GET http://localhost:9200/word

    ES响应:

    1. {
    2. "word": {
    3. "aliases": {},
    4. "mappings": {
    5. "analyzer_demo": {
    6. "properties": {
    7. "name": {
    8. "type": "text",
    9. "analyzer": "ik_smart"
    10. }
    11. }
    12. }
    13. },
    14. "settings": {
    15. "index": {
    16. "creation_date": "1561304920088",
    17. "number_of_shards": "5",
    18. "number_of_replicas": "1",
    19. "uuid": "A2YO9GpzRrGAIm2Q6rCoWA",
    20. "version": {
    21. "created": "5060099"
    22. },
    23. "provided_name": "word"
    24. }
    25. }
    26. }
    27. }

可以看到ES在对name字段进行分词时会采用ik_smart分词器。

关注公众号:CoderBuff,回复“es”获取《ElasticSearch6.x实战教程》完整版PDF。

这是一个能给程序员加buff的公众号 (CoderBuff)

《ElasticSearch6.x实战教程》之分词的更多相关文章

  1. 《ElasticSearch6.x实战教程》正式推出(附图书抽奖)

    经过接近1个月的时间,ElasticSearch6.x实战教程终于成册.这本实战教程小册有很多不足(甚至可能有错误),也是第一次完整推出一个系列的教程. 1年前,我开始真正接触ES,在此之前仅停留在知 ...

  2. 《ElasticSearch6.x实战教程》之简单搜索、Java客户端(上)

    第五章-简单搜索 众里寻他千百度 搜索是ES的核心,本节讲解一些基本的简单的搜索. 掌握ES搜索查询的RESTful的API犹如掌握关系型数据库的SQL语句,尽管Java客户端API为我们不需要我们去 ...

  3. 《ElasticSearch6.x实战教程》之复杂搜索、Java客户端(下)

    第八章-复杂搜索 黑夜给了我黑色的眼睛,我却用它寻找光明. 经过了解简单的API和简单搜索,已经基本上能应付大部分的使用场景.可是非关系型数据库数据的文档数据往往又多又杂,各种各样冗余的字段,组成了一 ...

  4. 《ElasticSearch6.x实战教程》之准备工作、基本术语

    第一章-准备工作 工欲善其事必先利其器 ElasticSearch安装 ElasticSearch6.3.2下载地址(Linux.mac OS.Windows通用,下载zip包即可):https:// ...

  5. 《ElasticSearch6.x实战教程》之简单的API

    第三章-简单的API 万丈高楼平地起 ES提供了多种操作数据的方式,其中较为常见的方式就是RESTful风格的API. 简单的体验 利用Postman发起HTTP请求(当然也可以在命令行中使用curl ...

  6. 《ElasticSearch6.x实战教程》之父-子关系文档

    第七章-父-子关系文档 打虎亲兄弟,上阵父子兵. 本章作为复杂搜索的铺垫,介绍父子文档是为了更好的介绍复杂场景下的ES操作. 在非关系型数据库数据库中,我们常常会有表与表的关联查询.例如学生表和成绩表 ...

  7. 《ElasticSearch6.x实战教程》之实战ELK日志分析系统、多数据源同步

    第十章-实战:ELK日志分析系统 ElasticSearch.Logstash.Kibana简称ELK系统,主要用于日志的收集与分析. 一个完整的大型分布式系统,会有很多与业务不相关的系统,其中日志系 ...

  8. PyTorch 高级实战教程:基于 BI-LSTM CRF 实现命名实体识别和中文分词

    前言:译者实测 PyTorch 代码非常简洁易懂,只需要将中文分词的数据集预处理成作者提到的格式,即可很快的就迁移了这个代码到中文分词中,相关的代码后续将会分享. 具体的数据格式,这种方式并不适合处理 ...

  9. 【ASP.NET实战教程】ASP.NET实战教程大集合,各种项目实战集合

    [ASP.NET实战教程]ASP.NET实战教程大集合,各种项目实战集合,希望大家可以好好学习教程中,有的比较老了,但是一直很经典!!!!论坛中很多小伙伴说.net没有实战教程学习,所以小编连夜搜集整 ...

随机推荐

  1. 一个Demo让你掌握Android所有控件

    原文:一个Demo让你掌握Android所有控件 本文是转载收藏,侵删,出处:"安卓巴士"      下面给出实现各个组件的源代码: 1.下拉框实现--Spinner packag ...

  2. 比较DirectX和OpenGL的区别(比较详细)

    OpenGL是个专业的3D程序接口,是一个功能强大,调用方便的底层3D图形库.OpenGL的前身是SGI公司为其图形工作站开发的IRIS GL.IRIS GL是一个工业标准的3D图形软件接口,功能虽然 ...

  3. [android自动化构建]之centos安装gradle

    这是android自动化构建系列之环境配置 这里只记录部分gradle相关的配置 下载并解压 下载地址参考这里:https://services.gradle.org/distributions/,未 ...

  4. python的内存分配

    一.前言 大多数编译型语言,变量在使用前必须先声明,其中C语言更加苛刻:变量声明必须位于代码块最开始,且在任何其他语句之前.其他语言,想C++和java,允许“随时随地”声明变量,比如,变量声明可以在 ...

  5. SYN6101型 RS485子钟

    SYN6101型  RS485子钟 产品概述 SYN6101型RS485子钟是由西安同步电子科技有限公司精心设计.自行研发生产的一套以通过RS485总线复接或串行与母钟连接的子钟,接收母钟发送来的时间 ...

  6. Python连载11-Python中os.path模块简介

    一.os.path(和路径相关的木块) 1.函数:abspath() (1)含义:将路径转化为绝对路径的形式(absolute path) (2)格式:os.path.abspath(相对路径) (3 ...

  7. 留存: struts2+jquery+json集成

    原文地址:struts2+jquery+json集成 以下采用struts2+jquery+json模拟一个案例.当点击提交按钮时会把输入的数据提交到后台,然后从后台获取数据在客户端显示. 效果如下: ...

  8. 办公利器-一行代码搞定http服务

    平时给内网的同事分享个文件,直接用python启动一个http服务,方便又简洁: python3: python -m http.server [port] 默认端口为8000 python2: py ...

  9. 【转+存】JVM指令集

    jvm指令集: 转载地址:https://www.cnblogs.com/yaoyinglong/p/4300447.html 一.未归类系列A 此系列暂未归类. 指令码    助记符         ...

  10. 前端学习【第一篇】: HTML内容

    内容概要: HTML介绍 常用标签介绍 一. HTML介绍 web服务的本质 #!/usr/bin/env python3 # _*_ coding:utf- _*_ import socket sk ...