公号:码农充电站pro

主页:https://codeshellme.github.io

通常在使用 ES 构建数据模型时,需要考虑以下几点:

  • 字段类型
  • 是否需要搜索与分词
  • 是否需要聚合与排序
  • 是否需要额外的存储

1,字段类型

对于不同类型的数据,主要考虑下面几点:

  • 对于 Text 类型:用于全文本字段,数据会被分词器分词。

    • 默认不支持聚合分析及排序,需要设置 fielddatatrue
  • 对于 Keyword 类型:用于不需要分词处理的文本,例如手机号,email 地址,性别等。
    • 适用于精确匹配,支持聚合与排序。
  • 对于多字段类型:默认情况下,ES 会为将文本设置为 text 类型,并添加一个 keyword 子字段。
    • 在处理人类语言时,可以通过增加“英文”,“拼音”和“标准”分词器,来满足搜索需求。
  • 对于数值类型:尽量选择贴近的类型。比如 byte 类型能满足需求,就不要用 long

2,搜索需求

对于搜索需求,主要考虑以下几点:

  • 如果不需要检索,排序和聚合,可将 enabled 设置成 false,以减少不必要的处理(磁盘开销),来提高性能。
  • 如果不需要检索,但需要排序与聚合,可将 index 设置成 false

3,聚合与排序

对于聚合与排序,主要考虑以下几点:

  • 如果不需要检索,排序和聚合,可将 enabled 设置成 false
  • 如果需要检索,但不需要排序与聚合,可将 doc_valuesfielddata 设置成 false
  • 对于keyword 类型的字段,如果更新与聚合比较频繁,推荐将 eager_global_ordinals 设置为 true(可以达到利用缓冲的目的,提高性能)。

4,额外存储

store 设置为 true(默认为 false),可以存储字段的原始内容;一般在 _sourceenabledfalse 时使用。

5,示例

如果需要对一些图书信息进行建模,需求如下:

  • 书名:支持全文本及精确匹配
  • 简介:支持全文本
  • 作者:支持精确匹配
  • 出版日期:日期类型
  • 图书封面:不需要支持搜索

示例数据如下:

{
"title":"Mastering ElasticSearch 5.0",
"description":"Master the searching, indexing, and aggregation features in ElasticSearch Improve users’ search experience with Elasticsearch’s functionalities and develop your own Elasticsearch plugins",
"author":"Bharvi Dixit",
"public_date":"2017",
"cover_url":"https://images-na.ssl-images-amazon.com/images/I/51OeaMFxcML.jpg"
}

如果不手动设置 mapping,那么每个字段将被 ES 设置为如下类型:

{
"type" : "text", # text 类型
"fields" : { # 并添加一个 keyword 子字段
"keyword" : {
"type" : "keyword",
"ignore_above" : 256
}
}
}

5.1,手动设置 mapping

下面根据需求,手动设置 mapping:

PUT books
{
"mappings": {
"properties": {
"author": {
"type": "keyword"
},
"cover_url": {
"type": "keyword",
"index": false # 不需要支持搜索
},
"description": {
"type": "text"
},
"public_date": {
"type": "date"
},
"title": {
"type": "text",
"fields": {
"keyword": {
"type": "keyword",
"ignore_above": 100
}
}
}
}
}
}

5.2,增加需求

如果现在需要添加一个字段 content,用于存储图书的内容,因此该字段的信息量将非常大,这将导致 _source 的内容过大,导致过大的网络开销。

为了优化,可以将 _sourceenabled 设置为 false,然后将每个字段的 store 设置为 true(打开额外存储)。

如下:

PUT books
{
"mappings": {
"_source": {
"enabled": false # enabled 为 false
},
"properties": {
"author": {
"type": "keyword",
"store": true # store 为 true
},
"cover_url": {
"type": "keyword",
"index": false,
"store": true # store 为 true
},
"description": {
"type": "text",
"store": true # store 为 true
},
"content": {
"type": "text",
"store": true # store 为 true
},
"public_date": {
"type": "date",
"store": true # store 为 true
},
"title": {
"type": "text",
"fields": {
"keyword": {
"type": "keyword",
"ignore_above": 100
}
},
"store": true # store 为 true
}
}
}
}

_source 禁止掉之后,查询的结果中就没有了 _source 字段;如果需要哪些字段的内容,则需要设置 stored_fields,如下:

POST books/_search
{
"stored_fields": ["title","author","public_date"],
"query": {
"match": {
"content": "searching"
}
}
}

(本节完。)


推荐阅读:

ElasticSearch DSL 查询

ElasticSearch 文档及操作

ElasticSearch 搜索模板与建议

ElasticSearch 聚合分析

ElasticSearch 中的 Mapping


欢迎关注作者公众号,获取更多技术干货。

ElasticSearch 数据建模的更多相关文章

  1. [转] [Elasticsearch] 数据建模 - 处理关联关系(1)

    [Elasticsearch] 数据建模 - 处理关联关系(1) 标签: 建模elasticsearch搜索搜索引擎 2015-08-16 23:55 6958人阅读 评论(0) 收藏 举报 分类: ...

  2. Elasticsearch 数据建模指南

    文章转载自:https://mp.weixin.qq.com/s/vSh6w3eL_oQvU1mxnxsArA 0.题记 我在做 Elasticsearch 相关咨询和培训过程中,发现大家普遍更关注实 ...

  3. ES 32 - Elasticsearch 数据建模的探索与实践

    目录 1 什么是数据建模? 2 如何对 ES 中的数据进行建模 2.1 字段类型的建模方案 2.2 检索.聚合及排序的建模方案 2.3 额外存储的建模方案 3 ES 数据建模实例演示 3.1 动态创建 ...

  4. Elasticsearch数据建模笔记

    数据建模 数据建模是创建数据模型的过程 数据模型是对真实世界进行抽象描述的一种工具和方法,实现对现实世界的映射 三个过程:概念模型=>逻辑模型=>数据模型 数据模型:结合具体的数据库,在满 ...

  5. ElasticSearch——数据建模最佳实践

    如何建模 mapping 设计非常重要,需要从两个维度进行考虑: 功能:搜索.排序.聚合 性能:存储的开锁.内存的开销.搜索的性能 mapping 注意事项: 加入新字段很容易(必要时需要 updat ...

  6. 论Elasticsearch数据建模的重要性

    文章转载自: https://mp.weixin.qq.com/s?__biz=MzI2NDY1MTA3OQ==&mid=2247484159&idx=1&sn=731562a ...

  7. Elasticsearch 6.x版本全文检索学习之数据建模

    1.什么是数据建模. 答:数据建模,英文为Data Modeling,为创建数据模型的过程.数据模型Data Mdel,对现实世界进行抽象描述的一种工具和方法,通过抽象的实体及实体之间联系的形式去描述 ...

  8. Cassandra数据建模

    1.  概述 Apache Cassandra将数据存储在表中,每个表都由行和列组成.CQL(Cassandra查询语言)用于查询存储在表中的数据.Apache Cassandra数据模型基于查询并针 ...

  9. 《Entity Framework 6 Recipes》翻译系列 (3) -----第二章 实体数据建模基础之创建一个简单的模型

    第二章 实体数据建模基础 很有可能,你才开始探索实体框架,你可能会问“我们怎么开始?”,如果你真是这样的话,那么本章就是一个很好的开始.如果不是,你已经建模,并在实体分裂和继承方面感觉良好,那么你可以 ...

随机推荐

  1. Educational Codeforces Round 91 (Rated for Div. 2) B. Universal Solution

    题目链接:https://codeforces.com/contest/1380/problem/B 题意 你在和一个机器人玩石头剪刀布,给出一个长为 $n$ 的出拳序列,机器人会从某一处开始出拳 $ ...

  2. poj 3436 ACM Computer Factory 最大流+记录路径

    题目 题意: 每一个机器有一个物品最大工作数量,还有一个对什么物品进行加工,加工后的物品是什么样.给你无限多个初始都是000....的机器,你需要找出来经过这些机器操作后最多有多少成功的机器(111. ...

  3. zoj3623 Battle Ships

    Battle Ships is a new game which is similar to Star Craft. In this game, the enemy builds a defense ...

  4. GYM101810 ACM International Collegiate Programming Contest, Amman Collegiate Programming Contest (2018) M. Greedy Pirate (LCA)

    题意:有\(n\)个点,\(n-1\)条边,每条边正向和反向有两个权值,且每条边最多只能走两次,有\(m\)次询问,问你从\(u\)走到\(v\)的最大权值是多少. 题解:可以先在纸上画一画,不难发现 ...

  5. Xtrabackup 物理备份

    目录 Xtrabackup 安装 Xtrabackup 备份介绍 Xtrabackup全量备份 准备备份目录 全量备份 查看全量备份内容 Xtrabackup 全量备份恢复数据 删除所有数据库 停止数 ...

  6. 1.初识Redis

    作者 微信:tangy8080 电子邮箱:914661180@qq.com 更新时间:2019-08-14 20:35:36 星期三 欢迎您订阅和分享我的订阅号,订阅号内会不定期分享一些我自己学习过程 ...

  7. C++中main函数的返回值一定要是int

    因为大学上课时候,经常是在主函数中做处理,直接用cout语句输出到显示设备,所以一直在用void main(). 直到后面具体编程的时候,才发现void main()这种用法是按 C89(C语言的早期 ...

  8. spring-cloud-netflix-hystrix-turbine

    Hystrix-dashboard是一款针对Hystrix进行实时监控的工具,通过Hystrix Dashboard我们可以在直观地看到各Hystrix Command的请求响应时间, 请求成功率等数 ...

  9. Linux错误记录贴

    add-apt-repository 不要写成 add-apt-repository service  不要写成 sevice 总之在打命令的时候要注意不要拼错单词 对于ls命令权限不够我们可以先su ...

  10. vue watch All In One

    vue watch All In One var vm = new Vue({ data: { a: 1, b: 2, c: 3, d: 4, e: { f: { g: 5 } } }, watch: ...