2.elasticsearch中的mapping

mapping 顾名思义，代表了映射关系。是文档中字段和数据类型的映射关系

为什么要了解mapping

虽然elasticsearch中已尽有的动态mapping(Dynamic Mapping)，而且新增字段默认也会添加新的mapping，但是毕竟是机器，有时会推算的不对，比如地理位置信息，特殊格式化的日期类型等。这时，如果需要es提供排序、聚合等查询功能，就不能满足我们的需求。

什么是mapping

通过手动设置mapping，我们可以
- 定义文档里字段的数据类型
- 定义字段的名称
- 定义对应字段的是否索引
- 定义对应字段的分词方式
mapping会把JSON文档文档映射成Lucene所需要的扁平格式
一个mapping属于一个索引的type
- 每个文档都属于一个Type
- 一个type又一个mapping定义
- 7.0开始，不需要在mapping定义中指定type信息，因为默认每个索引只有一个type叫"_doc"

查询mapping

#GET 索引名/_mapping

GET mapping_test/_mapping

设置mapping

PUT users

{

    "mappings" : {

      "properties" : {

        "firstName" : {

          "type" : "text",//text类型全文搜索

          "fields" : {

            "keyword" : {

              "type" : "keyword",//keyword支持聚合查询

              "ignore_above" : 256

            }

          }

        },

        "lastName" : {

          "type" : "keyword",

           "null_value": "NULL"//支持字段为null，只有keyword类型支持

        },

        "mobile" : {

          "type" : "text",

          "index": false//此字段不被索引

        },

        "address":{

            "type":"text",

            "index_options":"offsets"//控制倒排索引记录的内容。offsets最多，记录四个

        }

      }

    }

}

Dynamic Mapping

什么是动态mapping

在写入文档时，如果索引不存在，会自动创建索引，字段类型的自动识别如下：

JSON类型	Elastic search类型
字符串	1、匹配日期格式，设置成Date 2、配置数子设置为float或者long，该选项默认关闭3、设置为text，并且增加keyword字段，超过256位不分词
布尔值	boolean
浮点数	float
整数	long
对象	object
数组	由第一个非空数值的类型做决定
空值	忽略

PUT dynamic_mapping_test/_mapping

{

  "dynamic": false

}

PUT dynamic_mapping_test/_mapping

{

  "dynamic": strict

}

dynamic属性默认为true，新增字段时会自动创建mapping
dynamic属性被设置为false时，新增字段不会创建mapping，但是数据会存储，无法根据字段条件查询，但是该字段会会被match_all查询处理
dynamic属性被设置为strict时，数据写入直接出错

es中字段对应的数据类型

简单类型
- text/keyword，对应json中的String，一般会设置字段为text，然后新建个keyword子字段，设置为keyword类型
  - text类型被用来索引长文本，在建立索引前会将这些文本进行分词，转化为词的组合，建立索引。允许es来检索这些词语。text类型不能用来排序和聚合。
  - Keyword类型不需要进行分词，可以被用来检索过滤、排序和聚合。keyword 类型字段只能用本身来进行检索
- date
- long, integer, short, byte, double, float
- boolean
- IPv4&IPv6
复杂类型-对象和嵌套对象
- 对象类型/嵌套类型(n)
特殊类型
- geo_point&geo_shape/percolator

如何设置自定义mapping

常见的属性

index 控制当前字段是否被索引，默认为true，如果设置成false，该字段不可被搜索
index_options 控制倒排索引记录的内容
- docs 记录doc id
- freqs 记录doc id 和term frequencies
- positions 记录doc id/term frequencies/term position
- offsets 记录doc id/term frequencies/term position/character offects
null_value 需要对字段为null值实现搜索
- 只有keyword类型支持设定为null_value
copy_to
- _all在7+版本中被copy_t所替代
- 将字段内容拷贝到目标字段，查询时可以用目标字段作为查询条件，但是不会出现_source中
fields
- 在字段下新增一个字段，可以自定义类型，使用不同的analyzer
- 可以用来实现以拼音方式搜索中文字段
analyzer 分词器
- standard 默认分词器，按词切分，小写处理
- simple 按照非字母切分（符号被过滤），小写处理
- stop 小写处理，停用词过滤（the、a、is）
- whitespace 按照空格切分，不转小写
- keyword 不分词，直接将输入当作输出
- patter 正则表达式，默认\W+（非字符分隔）
- language 提供了30多种常见语言的分词器（english、german）
- 中文分词 icu_analyzer、ik、thulac

什么是分词器

分词器分为三部分，分别担任不同的工作

character filters 对文本进行预处理，如去除html标签、字符串替换、正则匹配替换
tokenizer 将文本按照一定规则，切分为词
token filter 将tokenizer切分的词进行增加、修改、删除操作（添加近义词，复数改单数，小写）

设置自定义的分词器

可以将分词器的三个组成部分，自己搭配，实现自定义，也可以用java实现tokenizer插件

{

  "tokenizer":"keyword",

  "char_filter":["html_strip"],

  "filter": ["stop","snowball"]

}

{

  "tokenizer":"standard",

  "char_filter": [

      {

        "type" : "mapping",

        "mappings" : [ ":) => happy", ":( => sad"]

      }

    ],

  "filter": ["stop","snowball"]

}

#自定分词器，并且让firstName字段使用自定义分词器

PUT users

{

  "settings": {

      "analysis": {

          "analyzer": {

              "my_custom_analyzer": {

                  "type": "custom",

                  "char_filter": [

                      "emoticons"

                  ],

                  "tokenizer": "punctuation",

                  "filter": [

                      "lowercase",

                      "english_stop"

                  ]

              }

          },

          "tokenizer": {

              "punctuation": {

                  "type": "pattern",

                  "pattern": "[.,!?]"

              }

          },

          "char_filter": {

              "emoticons": {

                  "type": "mapping",

                  "mappings": [

                      ":) => _happy_",

                      ":( => _sad_"

                  ]

              }

          },

          "filter": {

              "english_stop": {

                  "type": "stop",

                  "stopwords": "_english_"

              }

          }

      }

  },

  "mappings" : {

      "properties" : {

        "firstName" : {

          "type" : "text",

          "analyzer": "my_custom_analyzer",

          "fields": {

            "keyword":{

              "type":"keyword",

              "ignore_above":256

            }

          }

        },

        "lastName" : {

          "type" : "keyword",

           "null_value": "NULL"

        },

        "mobile" : {

          "type" : "text",

          "index": false

        },

        "address":{

            "type":"text",

            "index_options":"offsets"

        }

      }

    }

}

设置索引模版和动态模版

比如索引是日志时，每天增加一个索引，那么设置索引模版可以自动按照模版生成索引mapping，设置分片。

index template

帮助你设定mapping和setting，并按照一定的规则，自动匹配到新创建的索引之上
模版仅在一个索引创建时产生作用，修改模版不会影响已创建的索引
可以设定多个索引模版，这些设置会被“merge”在一起
可以指定“order”的数值，控制“merging”的过程

PUT _template/template_default

{

  "index_patterns": ["*"],

  "order" : 0,

  "version": 1,

  "settings": {

    "number_of_shards": 1,

    "number_of_replicas":1

  }

}

PUT /_template/template_test

{

    "index_patterns" : ["test*"],

    "order" : 1,

    "settings" : {

        "number_of_shards": 1,

        "number_of_replicas" : 2

    },

    "mappings" : {

        "date_detection": false,//匹配字符串转日期功能

        "numeric_detection": true//匹配字符串转数值功能

    }

}

#获取template

GET /_template/temp*

当一个索引被创建时

应用elasticsearch默认的settings和mappings
应用order数值低的index template中的设定
应用order数值高的，之前的设定会被覆盖
应用创建索引时用户指定的setting和mappings，覆盖之前模版中的设定

dynamic template(感觉用到的不多)

根据elasticsearch识别的数据类型，结合字段名称，对一个索引来动态设定字段类型，比如
- 所有的字符串类型都设置成keyword
- is开头的字段都设置成boolean
- long开头的都设置成long类型

PUT my_index

{

  "mappings": {

    "dynamic_templates": [

            {

        "strings_as_boolean": {

          "match_mapping_type":   "string",

          "match":"is*",

          "mapping": {

            "type": "boolean"

          }

        }

      },

      {

        "strings_as_keywords": {

          "match_mapping_type":   "string",

          "mapping": {

            "type": "keyword"

          }

        }

      }

    ]

  }

}

2.elasticsearch中的mapping的更多相关文章

elasticsearch中的mapping映射配置与查询典型案例
elasticsearch中的mapping映射配置与查询典型案例 elasticsearch中的mapping映射配置示例比如要搭建个中文新闻信息的搜索引擎,新闻有"标题".&q ...
ElasticSearch 中的 Mapping
公号:码农充电站pro 主页:https://codeshellme.github.io 1,ES 中的 Mapping ES 中的 Mapping 相当于传统数据库中的表定义,它有以下作用: 定义索 ...
elasticsearch中的mapping简介
默认mapping elasticsearch(以下简称ES)是没有模式(schema)的,当我们执行以下命令: curl -d '{"name":"zach" ...
如何在Elasticsearch中安装中文分词器(IK+pinyin)
如果直接使用Elasticsearch的朋友在处理中文内容的搜索时,肯定会遇到很尴尬的问题--中文词语被分成了一个一个的汉字,当用Kibana作图的时候,按照term来分组,结果一个汉字被分成了一组. ...
使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作(二)
CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,f ...
使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作
http://www.cnblogs.com/wgp13x/p/4934521.html 内容一样,样式好的版本. 使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据 ...
elasticsearch的映射(mapping)和分析(analysis)
转发自:http://blog.csdn.net/hzrandd/article/details/47128895 分析和分析器分析(analysis)是这样一个过程: 首先,表征化一个文本块为适用 ...
ES 15 - Elasticsearch中的数据类型 (text、keyword、date、geo等)
目录 1 核心数据类型 1.1 字符串类型 - string(不再支持) 1.1.1 文本类型 - text 1.1.2 关键字类型 - keyword 1.2 数字类型 - 8种 1.3 日期类型 ...
ES 11 - 配置Elasticsearch的映射 (mapping)
目录 1 映射的相关概念 1.1 什么是映射 1.2 映射的组成 1.3 元字段 1.4 字段的类型 2 如何配置mapping 2.1 创建mapping 2.2 更新mapping 2.3 查看m ...
Elasticsearch学习之图解Elasticsearch中的_source、_all、store和index属性
转自 : https://blog.csdn.net/napoay/article/details/62233031 1. 概述 Elasticsearch中有几个关键属性容易混淆,很多人搞不清楚_s ...

随机推荐

Python基础——垃圾回收、格式化输入输出、基本运算符、流程控制
文章目录每日测验垃圾回收机制详解(了解) 引用计数标记清除分代回收与用户交互接收用户的输入字符串的格式化输出填充与格式化基本运算符算数运算符比较运算符: >.>=.& ...
maven error
1 [INFO] Assembling webapp [crm9] in [/home/wukongcrm/72crm-java/target/ROOT] 2 [INFO] Processing wa ...
MySQL误删恢复方法2
实际工作中总会发生数据误删除的场景,在没有备份情况下,如何快速恢复误删数据就显得非常重要. 本文基于MySQL的binlog日志机制,当日志格式设置为"binlog_format=ROW&q ...
累死了qwq-一些平时的思考awa
最近真的有点难受了qwq有的时候没有认可我就是会有点伤心虽然知道就算是全部的人都认可我也没有什么用...但是总归是一个动力的来源.唉有的时候真的好想就这么的放弃信奥啊,毕竟在浙江这种地方,想要那一个奖 ...
从原理到实战，详解XXE攻击
本文分享自华为云社区<[安全攻防]深入浅出实战系列专题-XXE攻击>,作者: MDKing. 1 基本概念 XML基础:XML 指可扩展标记语言(Extensible Markup Lan ...
初探富文本之React实时预览
初探富文本之React实时预览在前文中我们探讨了很多关于富文本引擎和协同的能力,在本文中我们更偏向具体的应用组件实现.在一些场景中比如组件库的文档编写时,我们希望能够有实时预览的能力,也就是用户可以 ...
APP攻防--反模拟器&反代理&反证书&真机逃逸&XP框架&Frida技术
APP攻防--反模拟器&反代理&反证书&真机逃逸&XP框架&Frida技术 APP抓包技术关于APP抓包,使用burpsuite抓模拟器中的数据包,需要将模拟 ...
读写分离-mycat
读写分离-mycat: 安装mycat: http://dl.mycat.io/1.6.7.1/Mycat-server-1.6.7.1-release-20190627191042-linux.ta ...
Python 潮流周刊#24：no-GIL 提案正式被采纳了！
你好,我是猫哥.这里每周分享优质的 Python.AI 及通用技术内容,大部分为英文.标题取自其中两则分享,不代表全部内容都是该主题,特此声明. 微信 | 博客 | 邮件 | Github | Tel ...
powerdesigner 生成sql语言
首先要确定的是自己已经准备好一个概念模型在概念模型界面点击上方工具栏中的Tools->Generate logical data model.. 生成逻辑模型同样的操作生成物理模型 Gene ...