2018年05月17日 18:01:37 lyzkks 阅读数：444更多

什么是mapping

mapping是类似于数据库中的表结构定义，主要作用如下：

定义index下的字段名
定义字段类型，比如数值型、浮点型、布尔型等
定义倒排索引相关的设置，比如是否索引、记录position等

查看mapping

GET /[index_name]/_mapping

其中 keyword表示部分次的字符串类型

自定义mapping

api

说明

mapping中的字段类型一旦设置，禁止直接修改，因为 lucene实现的倒排索引生成后不允许修改，应该重新建立新的索引，然后做reindex操作。

但是可以新增字段，通过 dynamic 参数来控制字段的新增，这个参数的值如下：

true：默认值，表示允许选自动新增字段
false：不允许自动新增字段，但是文档可以正常写入，但无法对字段进行查询等操作
strict：严格模式，文档不能写入，报错

示例

首先创建名为 my_index的索引并设置mapping：

PUT my_index

{

  "mappings": {

    "doc": {

      "dynamic": false,

      "properties": {

        "title": {

          "type": "text"

        },

        "name": {

          "type": "keyword"

        },

        "age": {

          "type": "integer"

        }

      }

    }

  }

}

其中包含了 title、name、age三个字段

查询索引的mapping设置：

GET my_index/_mapping

然后写入一个文档：

PUT my_index/doc/1

{

  "title": "hello world",

  "desc": "this is book"

}

注意，这里在mapping设置中，”dynamic”: false，表示在写入文档时，如果写入字段不存在也不会报错。这里的desc字段就是不存在的字段。

查询一下写入的文档：

GET my_index/doc/_search

{

  "query": {

    "match": {

      "title": "hello"

    }

  }

}

可以通过 title字段查询到文档的内容

如果说想通过desc字段查询文档内容呢？当然是查不到的：

GET my_index/doc/_search

{

  "query": {

    "match": {

      "desc": "book"

    }

  }

}

可以验证一下”dynamic”: strict模式：
首先删除索引：

DELETE my_index

然后修改索引mapping设置：

PUT my_index

{

  "mappings": {

    "doc": {

      "dynamic": "strict",

      "properties": {

        "title": {

          "type": "text"

        },

        "name": {

          "type": "keyword"

        },

        "age": {

          "type": "integer"

        }

      }

    }

  }

}

在重新创建文档：

PUT my_index/doc/1

{

  "title": "hello world",

  "desc": "this is book"

}

在strict 模式下插入不存在的字段将会出现报错

copy_to参数说明

作用是将该字段的值复制到目标字段，实现类似_all的作用。不会出现在_source中，只能用来搜索。

PUT my_index4

{

  "mappings": {

    "doc": {

      "properties": {

        "first_name": {

          "type": "text"

          , "copy_to": "full_name"

        },

        "last_name": {

          "type": "text"

          , "copy_to": "full_name"

        },

        "full_name" : {

          "type": "text"

        }

      }

    }

  }

}

可以看到这个index中，full_name的内容就是从 first_name 和 last_name 中复制过来的。

然后创建一个新的文档，文档只需要写first_name 和 last_name即可：

PUT my_index4/doc/1

{

  "first_name": "john",

  "last_name": "smith"

}

最后查询一下文档的内容：

GET my_index4/_search

{

  "query": {

    "match": {

      "full_name": {

        "query": "john smith",

        "operator": "and"

      }

    }

  }

}

这个查询语句意思是：查询包含关键字john smith的文档，必须同时包含两个关键字才返回。

index参数

index参数作用是控制当前字段是否被索引，默认为true，false表示不记录，即不可被搜索。

PUT my_index5

{

  "mappings": {

    "doc": {

      "properties": {

        "cookie": {

          "type": "text",

          "index": false

        },

        "content": {

          "type": "text",

          "index": true

        }

      }

    }

  }

}

这个index有两个字段，其中cookie设定为不可被搜索

写入文档：

PUT my_index5/doc/1

{

  "cookie": "name=mike",

  "content": "hello world"

}

尝试分别查询一下两个字段，看看区别：

GET my_index5/_search

{

  "query": {

    "match": {

      "cookie": "mike"

    }

  }

}

GET my_index5/_search

{

  "query": {

    "match": {

      "content": "hello"

    }

  }

当在es中存储了一些不想要被检索的字段如身份证、手机等，这是对于这些字段就可以使用index设置为false，这样有一定的安全性还可以节省空间

index_options参数

index_options的作用是用于控制倒排索引记录的内容，有如下四种配置：

docs：只记录doc id
freqs：记录doc id 和term frequencies
positions：记录doc id、 term frequencies和term position
offsets：记录doc id、 term frequencies、term position、character offsets

text类型的默认配置为positions，其他默认为docs。记录的内容越多，占据的空间越大。

null_value参数

这个参数的作用是当字段遇到null值的时候的处理策略，默认为null，即空值，此时es会忽略该值。可以通过这个参数设置某个字段的默认值。

数据类型

核心数据类型

字符串型：text、keyword（不会分词）
数值型：long、integer、short、byte、double、float、half_float等
日期类型：date
布尔类型：boolean
二进制类型：binary
范围类型：integer_range、float_range、long_range、double_range、date_range

复杂数据类型

数组类型：array
对象类型：object
嵌套类型：nested object
地理位置数据类型：geo_point、geo_shape
专用类型：ip（记录ip地址）、completion（实现自动补全）、token_count（记录分词数）、murmur3（记录字符串hash值）

多字段特性

多字段特性（multi-fields），表示允许对同一字段采用不同的配置，比如分词。

常见例子是对人名实现拼音搜索，只需要在人名中新增一个字段pinyin即可。但是这种方式不是十分优雅，multi-fields可以在不改变整体结构的前提下，增加一个子字段：

Dynamic mapping

自动识别规则

在前面说过，在写入文档的时候如果index不存在的话es会自动创建这个索引。但是es是如何确定index字段的类型的呢？

首先es可以自动识别文档字段的类型，这样可以降低用户的使用成本。

es是依靠json文档的字段类型来实现自动识别字段类型的：

日期自动识别

日期的自动识别可以自行配置日期的格式，默认情况下是：

["strict_date_opeional_time", "yyyy/MM/dd HH:mm:ss Z||yyyy/MM/dd Z"]

strict_date_opeional_time 是ISO 标准的日期格式，完整的格式如下：

YYYY-MM-DDhh:mm:ssTZD(eg:1997-07-16y19:20:30+01:00)

dynamic_date_formats：可以自定义日期类型
date_detection：可以关闭日期自动识别机制（默认开启）

首先创建一个日期自动识别的索引：

PUT test_index

{

  "mappings": {

    "doc": {

      "dynamic_date_formats": ["MM/dd/yyyy"]

    }

  }

}

然后创建一个文档：

PUT test_index/doc/1

{

  "create_time": "09/21/2016"

}

查看：

GET test_index/_mapping

关闭日期自动识别可以如下：

数字自动识别

字符串为数字的时候，默认不会自动识别为整型，因为字符串中出现数字是完全合理的。

numeric_detection 可以开启字符串中数字的自动识别。

Dynamic Templates

Dynamic Templates 意为动态模板，它的作用是允许根据es自动识别的数据类型、字段名等来动态设定字段类型。

可以实现的效果如下：

所有字符串类型都设置为keyword类型，即默认不分词
所有以message开头的字段都设置为text类型，即分词
所有以long_开头的字段都设置为long类型
所有自动匹配为double类型的都设定为float类型，以节省空间

API

匹配规则参数

match_mapping_type：匹配es自动识别的字段类型，如boolean、long等
match、unmatch：匹配字段名
path_match、path_unmatch：匹配路径

举例

字段类型匹配

首先PUT一个文档，然后查看mapping：

PUT test_index/doc/1

{

  "name": "Tom"

}

GET test_index/_mapping

可以看到在默认情况下，字符串被识别成为text类型，并且有一个子字段keyword。

现在设置动态模板，要求匹配到string类型的字段设置为keyword：

PUT test_index

{

  "mappings": {

    "doc": {

      "dynamic_templates": [

        {

          "strings_as_keywords": {

            "match_mapping_type": "string",

            "mapping": {

              "type": "keyword"

            }

          }

        }

      ]

    }

  }

重新创建文档并查看mapping：

name字段的类型变成了 keyword类型

字段匹配

现在想将以message开头的字段且为string的匹配称为text类型，其余为keyword：

PUT test_index

{

  "mappings": {

    "doc": {

      "dynamic_templates": [

        {

          "message_as_text": {

            "match_mapping_type": "string",

            "match": "message",

            "mapping": {

              "type": "text"

            }

          }

        },

        {

          "strings_as_keywords": {

            "match_mapping_type": "string",

            "mapping": {

              "type": "keyword"

            }

          }

        }

      ]

    }

  }

}

Dynamic Templates 的匹配顺序是从上到下执行的，匹配到一个后后面的规则就会跳过

然后创建一个文档并查看mapping：

PUT test_index/doc/1

{

  "name": "john",

  "message": "good boy"

}

GET test_index/_mapping

可以看到message被设置为了text类型，name还是keyword

double设定为float

这样可以节省空间

自定义mapping的建议

一般步骤

自定义mapping 的步骤：

写一条文档到es的临时索引中，获取es自动生成的mapping
修改第一步得到的mapping，自定义相关配置
使用第2步的mapping创建市级的索引

实际举例

假设我得到了需要存入es的文档，首先将文档写入临时的index中：

PUT test_index/doc/1

{

  "referre": "-",

  "response_code": "200",

  "remote_ip": "172.0.0.1",

  "method": "POST",

  "username": "-",

  "http_version": "1.1",

  "body_sent": {

    "bytes": "0"

  },

  "url": "/helloworld"

}

然后查看es自动生成的mapping：

GET test_index/_mapping

现在希望将bytes设置为整型，url设置为text类型，其他都使用keyword（将上一步的输出复制过来就好）：

PUT product_index

{

    "mappings": {

      "doc": {

        "properties": {

          "body_sent": {

            "properties": {

              "bytes": {

                "type": "long"

              }

            }

          },

          "http_version": {

            "type": "keyword"

          },

          "method": {

            "type": "keyword"

          },

          "referre": {

            "type": "keyword"

          },

          "remote_ip": {

            "type": "keyword"

          },

          "response_code": {

            "type": "keyword"

          },

          "url": {

            "type": "text"

          },

          "username": {

            "type": "keyword"

          }

        }

      }

    }

  }

这样直接将测试index的mapping复制过来进行修改，不会遗漏字段，修改完成设置一个index的名称就行了。

然后就可以向实际的索引中写入文档了：

PUT product_index/doc/1

{

  "referre": "-",

  "response_code": "200",

  "remote_ip": "172.0.0.1",

  "method": "POST",

  "username": "-",

  "http_version": "1.1",

  "body_sent": {

    "bytes": "0"

  },

  "url": "/helloworld"

}

然后查看一下实际索引的mapping：

GET product_index/_mapping

使用动态模板优化

上边的设置方法很直接，但是当字段比较多的时候显得复杂，可以使用动态模板进行匹配：

DELETE product_index

PUT product_index

{

    "mappings": {

      "doc": {

        "dynamic_templates": [

          {

            "strings": {

              "match_mapping_type": "string",

              "mapping": {

                "type": "keyword"

              }

            }

          }

        ],

        "properties": {

          "body_sent": {

            "properties": {

              "bytes": {

                "type": "long"

              }

            }

          },

          "url": {

            "type": "text"

          },

          "username": {

            "type": "keyword"

          }

        }

      }

    }

  }

这里使用动态模板匹配所有字符串都设置为keyword类型，需要单独设置类型的在下面另行指出。

索引模板

什么是索引模板

索引模板，index template，主要用于在新建索引时自动应用预先设置的配置，简化索引创建的步骤。

模板中可以设定索引的配置以及mapping，可以有多个模板，根据order设置，order大的覆盖小的范围。

API

模板加载顺序根据 order 从小到大加载，后面的大order的模板的配置将会覆盖小 order配置。

获取与删除的API 如下：

举例

这里设置了两个索引模板：

PUT _template/test_template

{

  "index_patterns": ["te*", "bar*"],

  "order": 0,

  "settings": {

    "number_of_shards": 1

  },

  "mappings": {

    "doc": {

      "_source": {

        "enabled": false

      },

      "properties": {

        "name": {

          "type": "keyword"

        }

      }

    }

  }

}

PUT _template/test_template2

{

  "index_patterns": ["test*"],

  "order": 1,

  "settings": {

    "number_of_shards": 1

  },

  "mappings": {

    "doc": {

      "_source": {

        "enabled": true

      }

    }

  }

}

然后先创建一个foo_index，并获取一下它的mapping：

PUT foo_index

GET foo_index/_mapping

因为这个index没有被任何一个模板匹配到，所以它的mapping是空的

再创建一个bar_index，并获取一下它的mapping：

PUT bar_index

GET bar_index/_mapping

这个索引匹配到了test_template

再创建一个test_index，并获取一下它的index配置：

PUT test_index

GET test_index/

这个索引匹配到了test_template2模板，这使得索引的”_source”: {“enabled”: true}

elasticsearch篇之mapping的更多相关文章

elasticsearch中的mapping映射配置与查询典型案例
elasticsearch中的mapping映射配置与查询典型案例 elasticsearch中的mapping映射配置示例比如要搭建个中文新闻信息的搜索引擎,新闻有"标题".&q ...
面试小结之Elasticsearch篇(转)
最近面试一些公司,被问到的关于Elasticsearch和搜索引擎相关的问题,以及自己总结的回答. Elasticsearch是如何实现Master选举的? Elasticsearch的选主是ZenD ...
第三百六十四节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的mapping映射管理
第三百六十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的mapping映射管理 1.映射(mapping)介绍映射:创建索引的时候,可以预先定义字 ...
java课程设计之--Elasticsearch篇
一.团队课程设计博客链接 https://www.cnblogs.com/Rasang/p/12169899.html 二.个人负责模块或任务说明 2.1Elasticsearch简介 Elastic ...
elasticsearch版本控制及mapping映射属性介绍
学习elasticsearch不仅只会操作,基本的运行原理我们还是需要进行了解,以下内容我讲对elasticsearch中的基本知识原理进行梳理,希望对大家有所帮助! 一.ES版本控制 1．Elast ...
Elasticsearch如何修改Mapping结构并实现业务零停机
Elasticsearch 版本:6.4.0 一.疑问在项目中后期,如果想调整索引的 Mapping 结构,比如将 ik_smart 修改为 ik_max_word 或者增加分片数量等,但 El ...
Elasticsearch系列---初识mapping
概要本篇简单介绍一下field数据类型mapping的相关知识. mapping是什么? 前面几篇的实战案例,我们向Elasticsearch索引数据时,只是简单地把JSON文本放在请求体里,至于J ...
Elasticsearch：Dynamic mapping
Elasticsearch最重要的功能之一是它试图摆脱你的方式,让你尽快开始探索你的数据. 要索引文档,您不必首先创建索引,定义映射类型和定义字段 - 您只需索引文档,那么index,type和fie ...
ElasticSearch Index API && Mapping
ElasticSearch NEST Client 操作Index var indexName="twitter"; var deleteIndexResponse = clie ...

随机推荐

matlab练习程序（神经网络识别mnist手写数据集）
记得上次练习了神经网络分类,不过当时应该有些地方写的还是不对. 这次用神经网络识别mnist手写数据集,主要参考了深度学习工具包的一些代码. mnist数据集训练数据一共有28*28*60000个像素 ...
Linux 中使用 firewalld
firewalld 是一种动态防火墙管理解决方案.Centos 7 默认使用 firewalld.firewalld 是对 iptables 的一个封装,可以让你更容易地管理 iptables 规则. ...
Git命令备忘
最近在用Git,查了点相关资料,逻辑依然不太明了,先整理一部分备忘,以后补充一.本地Git与Github/码云的关联 1. 设置本地用户名,邮箱 git config --global user.n ...
英语口语练习系列-C14-常用片语
句子 1. Some ads are extremely persuasive and we find we buy products we don't really need. 有一些广告非常有说服 ...
DecimalFormat格式化十进制数字
DecimalFormat 是 NumberFormat 的一个具体子类,用于格式化十进制数字.该类设计有各种功能,使其能够分析和格式化任意语言环境中的数,包括对西方语言.阿拉伯语和印度语数字的支持. ...
前端学习-基础部分-css（一）
开始今日份整理 1.CSS的导入方式 CSS的导入方式主要是有内联模式,行内模式,外部样式表 1.1 内联模式内联模式:直接在<head>中直接写css,例如 p{ color:rgb( ...
关于wxpython多线程研究包括(import Publisher等错误研究)
作为一个自动化测试人员,开发基本的应用桌面程序是必须的!最近在研究wxpython相关知识,目前看到多线程一块,发现官方文档介绍说:"在线程中不能修改修改窗口属性!",但是实际情况 ...
.NET IL实现对象深拷贝
对于深拷贝,通常的方法是将对象进行序列化,然后再反序化成为另一个对象.例如在stackoverflow上有这样的解决办法:https://stackoverflow.com/questions/785 ...
云端安装MQTT服务器
如果自己下载的3.1版本的MQTT, 安装步骤参考 https://developer.emqx.io/docs/emq/v3/cn/install.html 配置用户名和密码第一种是用http ht ...
Java HttpURLConnection发送post请求示例
public static Map<String, Object> invokeCapp(String urlStr, Map<String, Object> params) ...

elasticsearch篇之mapping