Elasticsearch 自定义多个分析器

分析器(Analyzer)

Elasticsearch 无论是内置分析器还是自定义分析器，都由三部分组成：字符过滤器(Character Filters)、分词器(Tokenizer)、词元过滤器(Token Filters)。

分析器Analyzer工作流程：

Input Text => Character Filters(如果有多个，按顺序应用) => Tokenizer => Token Filters(如果有多个，按顺序应用) => Output Token

字符过滤器(Character Filters)

字符过滤器：对原始文本预处理，如去除HTML标签，”&”转成”and”等。

注意：一个分析器同时有多个字符过滤器时，按顺序应用。

分词器(Tokenizer)

分词器：将字符串分解成一系列的词元Token。如根据空格将英文单词分开。

词元过滤器(Token Filters)

词元过滤器：对分词器分出来的词元Token做进一步处理，如转换大小写、移除停用词、单复数转换、同义词转换等。

注意：一个分析器同时有多个词元过滤器时，按顺序应用。

分析器analyze API的使用

分析器analyze API可验证分析器的分析效果并解释分析过程。

# text: 待分析文本

# explain:解释分析过程

# char_filter:字符过滤器

# tokenizer:分词器

# filter:词元过滤器

GET _analyze

{

  "char_filter" : ["html_strip"],

  "tokenizer": "standard",

  "filter":  [ "lowercase"],

  "text": "<p><em>No <b>dreams</b>, why bother <b>Beijing</b> !</em></p>",

  "explain" : true

}

自定义多个分析器

创建索引并自定义多个分析器

这里对一个索引同时定义了多个分析器。

PUT my_index

{

  "settings": {

    "number_of_shards": 3,

    "number_of_replicas": 1,

    "analysis": {

      "char_filter": { //自定义多个字符过滤器

        "my_charfilter1": {

          "type": "mapping",

          "mappings": ["& => and"]

        },

        "my_charfilter2": {

          "type": "pattern_replace",

          "pattern": "(\\d+)-(?=\\d)",

          "replacement": "$1_"

        }

      },

      "tokenizer":{  //自定义多个分词器

          "my_tokenizer1": {

              "pattern":"\\s+",

              "type":"pattern"

            },

          "my_tokenizer2":{

                "pattern":"_",

                "type":"pattern"

            }

      },

      "filter": {  //自定义多个词元过滤器

        "my_tokenfilter1": {

          "type": "stop",

          "stopwords": ["the", "a","an"]

        },

        "my_tokenfilter2": {

          "type": "stop",

          "stopwords": ["info", "debug"]

        }

      },

      "analyzer": { //自定义多个分析器

         "my_analyzer1":{  //分析器my_analyzer1

           "char_filter": ["html_strip", "my_charfilter1","my_charfilter2"],

           "tokenizer":"my_tokenizer1",

           "filter": ["lowercase", "my_tokenfilter1"]

         },

         "my_analyzer2":{  //分析器my_analyzer2

           "char_filter": ["html_strip"],

           "tokenizer":"my_tokenizer2",

           "filter": ["my_tokenfilter2"]

         }

      }

    }

  }

}

验证索引my_index的多个分析器

验证分析器my_analyzer1分析效果

GET /my_index/_analyze

{

  "text": "<b>Tom </b> & <b>jerry</b> in the room number 1-1-1",

  "analyzer": "my_analyzer1"//,

  //"explain": true

}

#返回结果

{

  "tokens": [

    {

      "token": "tom",

      "start_offset": 3,

      "end_offset": 6,

      "type": "word",

      "position": 0

    },

    {

      "token": "and",

      "start_offset": 12,

      "end_offset": 13,

      "type": "word",

      "position": 1

    },

    {

      "token": "jerry",

      "start_offset": 17,

      "end_offset": 26,

      "type": "word",

      "position": 2

    },

    {

      "token": "in",

      "start_offset": 27,

      "end_offset": 29,

      "type": "word",

      "position": 3

    },

    {

      "token": "room",

      "start_offset": 34,

      "end_offset": 38,

      "type": "word",

      "position": 5

    },

    {

      "token": "number",

      "start_offset": 39,

      "end_offset": 45,

      "type": "word",

      "position": 6

    },

    {

      "token": "1_1_1",

      "start_offset": 46,

      "end_offset": 51,

      "type": "word",

      "position": 7

    }

  ]

}

验证分析器my_analyzer2分析效果

GET /my_index/_analyze

{

  "text": "<b>debug_192.168.113.1_971213863506812928</b>",

  "analyzer": "my_analyzer2"//,

  //"explain": true

}

#返回结果

{

  "tokens": [

    {

      "token": "192.168.113.1",

      "start_offset": 9,

      "end_offset": 22,

      "type": "word",

      "position": 1

    },

    {

      "token": "971213863506812928",

      "start_offset": 23,

      "end_offset": 45,

      "type": "word",

      "position": 2

    }

  ]

}

添加Mapping并为不同字段设置不同分析器

PUT my_index/_mapping/my_type

{

      "properties": {

      "my_field1": {

        "type": "text",

        "analyzer": "my_analyzer1",

        "fields": {

          "keyword": {

            "type": "keyword"

          }

        }

      },

      "my_field2": {

        "type": "text",

        "analyzer": "my_analyzer2",

        "fields": {

          "keyword": {

            "type": "keyword"

          }

        }

      }

    }

}

创建文档

PUT my_index/my_type/1

{

  "my_field1":"<b>Tom </b> & <b>jerry</b> in the room number 1-1-1",

  "my_field2":"<b>debug_192.168.113.1_971213863506812928</b>"

}

Query-Mathch全文检索

查询时，ES会根据字段使用的分析器进行分析，然后检索。

#查询my_field2字段包含IP:192.168.113.1的文档

GET my_index/_search

{

  "query": {

    "match": {

      "my_field2": "192.168.113.1"

    }

  }

}

#返回结果

{

  "took": 22,

  "timed_out": false,

  "_shards": {

    "total": 3,

    "successful": 3,

    "skipped": 0,

    "failed": 0

  },

  "hits": {

    "total": 1,

    "max_score": 0.2876821,

    "hits": [

      {

        "_index": "my_index",

        "_type": "my_type",

        "_id": "1",

        "_score": 0.2876821,

        "_source": {

          "my_field1": "<b>Tom </b> & <b>jerry</b> in the room number 1-1-1",

          "my_field2": "<b>debug_192.168.113.1_971213863506812928</b>"

        }

      }

    ]

  }

}

Elasticsearch 自定义多个分析器的更多相关文章

elasticsearch 自定义_id
elasticsearch 自定义ID: curl -s -XPUT localhost:9200/web -d ' { "mappings": { "blog" ...
ElasticSearch自定义分析器-集成结巴分词插件
关于结巴分词 ElasticSearch 插件: https://github.com/huaban/elasticsearch-analysis-jieba 该插件由huaban开发.支持Elast ...
Elasticsearch自定义分析器
关于分析器 ES中默认使用的是标准分析器(standard analyzer).如果需要对某个字段使用其他分析器,可以在映射中该字段下说明.例如: PUT /my_index { "mapp ...
Elasticsearch 自定义映射
尽管在很多情况下基本域数据类型已经够用,但你经常需要为单独域自定义映射 ,特别是字符串域.自定义映射允许你执行下面的操作: 全文字符串域和精确值字符串域的区别使用特定语言分析器优化域以适应部分匹 ...
建立标准编码规则（一）-自定义C#代码分析器
1.下载Roslyn的Visual Studio分析器模板插件(VS2015 或VS2017) https://marketplace.visualstudio.com/items?itemName= ...
elasticsearch 自定义similarity 插件开发
转自:http://www.chepoo.com/elasticsearch-similarity-custom-plug-in-development.html 在搜索开发中,我们要修改打分机制,就 ...
elasticsearch自定义动态映射
https://www.elastic.co/guide/cn/elasticsearch/guide/current/custom-dynamic-mapping.html如果你想在运行时增加新的字 ...
ElasticSearch——自定义模板
output中配置 elasticsearch{ action => "index" hosts => ["xxx"] index => &q ...
ElasticSearch 自定义排序处理
使用function_score进行分组处理,利用分组函数script_score进行自定义分值处理, 注意:使用script功能需要在配置中打开脚本功能: script.inline: on s ...

随机推荐

443. String Compression
原题: 443. String Compression 解题: 看到题目就想到用map计数,然后将计数的位数计算处理,这里的解法并不满足题目的额外O(1)的要求,并且只是返回了结果array的长度,并 ...
Swagger注解
swagger注解说明 1.与模型相关的注解,用在bean上面 @ApiModel:用在bean上,对模型类做注释: @ApiModelProperty:用在属性上,对属性做注释 2.与接口相关的注 ...
Java 基本类型和包装类型
讲基本类型和包装类型之前,首先要介绍,装箱和拆箱装箱:基本类型转化为包装类型拆箱:包装类型转化为拆箱类型为什么要有包装类型?Java是面向对象的语言,Java中一切都是对象除了基本数据类型,所以 ...
【转】IO多路复用机制详解
高性能IO模型浅析服务器端编程经常需要构造高性能的IO模型,常见的IO模型有四种: (1)同步阻塞IO(Blocking IO):即传统的IO模型. (2)同步非阻塞IO(Non-blocking ...
oracle数据库分页总结
/* BEGIN CREATE TABLE APPUSER(IDS NUMBER(8), USERNAME VARCHAR2(20), PASSWORD VARCHAR2(20), CTIME DAT ...
mysql学习笔记--数据操作
一.插入数据 1. 语法:insert into 表名 (字段名.字段名,...) values (值1,值2...) 2. 注意: a. 插入字段的个数和顺序与值的个数和顺序必须一致 b. 通过de ...
解决win10电脑VB虚拟机无法安装64位系统的方法
64位电脑在VB虚拟机里却只能安装32位系统怎么办? **原因:CPU虚拟化未开启只要CPU虚拟化开启即可解决问题. 开启步骤: 1.打开电脑设置 2.进入更新和安全界面 3.进入恢复界面 ...
lenet-5
https://blog.csdn.net/happyorg/article/details/78274066 深度学习 CNN卷积神经网络 LeNet-5详解 2017年10月18日 16:04:3 ...
IIC基本概念和基本时序
1. IIC基本概念和基本时序 1.1 I2C串行总线概述 I2C总线是PHLIPS公司推出的一种串行总线,是具备多主机系统所需的包括总线裁决和高低速器件同步功能的高性能串行总线. 1.I2C总线具有 ...
网络基础-- 之子网划分 and 一些基础解释
子网划分的核心思想就是------ 借主机为为网络位最近几天--看了一下今天就分享一波. 首先我们先来理解一下 ----- one. 进制的转换 ----- two. IP地址 -- ...

Elasticsearch 自定义多个分析器

Elasticsearch 自定义多个分析器的更多相关文章

随机推荐

热门专题