Elasticsearch数据建模笔记

数据建模

数据建模是创建数据模型的过程

数据模型是对真实世界进行抽象描述的一种工具和方法，实现对现实世界的映射
三个过程：概念模型=》逻辑模型=》数据模型

数据模型：结合具体的数据库，在满足业务读写性能等需求的前提下，确定最终定义

数据建模：功能需求+性能需求

逻辑模型（功能需求）

实体属性
实体之间的关系
搜索相关的配置

物理模型（性能需求）

索引模版

分片数量

索引Mapping

字段配置
关系处理

对字段进行建模

字段类型：

Text vs Keyword

Text

用于全文本字段，文本会被Analyzer分词
默认不支持聚合分析及排序。需要设置fielddata为true

Keyword

用于id,枚举及不需要分词的文本。例如电话号码，email地址，手机号码，邮政编码，性别等
适用于Filter(精确匹配)，Sorting和Aggregations

设置多字段类型

默认会为文本类型设置成text,并且设置一个keyword的子字段
在处理人类语言时，通过增加“英文”，“拼音”和“标准”分词器，提高搜索结果

结构化数据

数值类型

尽量选择贴近的类型。例如可以用byte,就不要用long

枚举类型

设置为keyword。即便是数字，也应该设置成keyword,获取更加好的性能

其他

日期/布尔/地理信息

检索

如不需要检索

Enable设置成false

如不需要检索

Index设置成false

对需要检索的字段，可以通过如下配置，设定存储粒度

Index_options/Norms：不需要归一化数据时，可以关闭

聚合及排序

如不需要排序和聚合分析

Enable设置成false

如不需要排序或者聚合分析

Doc_value/fielddata设置成false

更新频繁，聚合查询频繁的keyword类型的字段

推荐eager_global_ordinals设置为true

额外的存储

是否需要专门存储当前字段数据
Disable _source:节约磁盘；适用于指标型数据

一般建议考虑增加压缩比
无法看到_source字段，无法ReIndex 无法Upadte
Kibana中无法做discovery

最佳实践

建模建议一：如何处理关联关系

建模建议二：避免过多字段

一个文档中，最好避免大量的字段

过多的字段数不容易维护
Mapping信息保存在Cluster State中，数据量过大，对集群性能会有影响（Cluster State信息需要和所有的节点同步）
删除或者修改数据需要reindex

默认最大字段数是1000，可以设置index.mapping.tatal_fields.limt限定最大字段数
Dynamic vs Strict
- Dynamic（生产环境中，尽量不用打开Dynamic）
  - true-未知字段会被自动加入
  - false-新字段不会被索引。但是会保存在_source
  - strict-新字段不会被索引，文档写入失败
- Strict
  - 可以控制道字段级别　　
当Dynamic设置为True,同时采用扁平化的设计且键值对过多会导致字段数量的膨胀，通过Nested对象保存key/value可以减少字段数量。

建模建议三：避免正则查询
- 通过 Inner Object避免低性能的正则匹配

{
  "version":{
  "display_name":"7.1.0",
  "marjor":7,
  "minor":1,
  "hot_fix":0
  }
}

建模建议四：避免空值引起的聚合不准确

使用Null_Value解决空值的问题

建模建议五：为索引的Mapping加入Meta信息便于管理

{
  "mappings": {
    "_meta": {
      "software_version_mapping": "1.0"
    }
  }
}

Mapping字段的相关设置

https://www.elastic.co/guide/en/elasticsearch/reference/current/mapping-params.html

Elasticsearch数据建模笔记的更多相关文章

[转] [Elasticsearch] 数据建模 - 处理关联关系(1)
[Elasticsearch] 数据建模 - 处理关联关系(1) 标签: 建模elasticsearch搜索搜索引擎 2015-08-16 23:55 6958人阅读评论(0) 收藏举报分类: ...
Elasticsearch 数据建模指南
文章转载自:https://mp.weixin.qq.com/s/vSh6w3eL_oQvU1mxnxsArA 0.题记我在做 Elasticsearch 相关咨询和培训过程中,发现大家普遍更关注实 ...
ES 32 - Elasticsearch 数据建模的探索与实践
目录 1 什么是数据建模? 2 如何对 ES 中的数据进行建模 2.1 字段类型的建模方案 2.2 检索.聚合及排序的建模方案 2.3 额外存储的建模方案 3 ES 数据建模实例演示 3.1 动态创建 ...
ElasticSearch 数据建模
公号:码农充电站pro 主页:https://codeshellme.github.io 通常在使用 ES 构建数据模型时,需要考虑以下几点: 字段类型是否需要搜索与分词是否需要聚合与排序是否需 ...
ElasticSearch——数据建模最佳实践
如何建模 mapping 设计非常重要,需要从两个维度进行考虑: 功能:搜索.排序.聚合性能:存储的开锁.内存的开销.搜索的性能 mapping 注意事项: 加入新字段很容易(必要时需要 updat ...
论Elasticsearch数据建模的重要性
文章转载自: https://mp.weixin.qq.com/s?__biz=MzI2NDY1MTA3OQ==&mid=2247484159&idx=1&sn=731562a ...
Elasticsearch 6.x版本全文检索学习之数据建模
1.什么是数据建模. 答:数据建模,英文为Data Modeling,为创建数据模型的过程.数据模型Data Mdel,对现实世界进行抽象描述的一种工具和方法,通过抽象的实体及实体之间联系的形式去描述 ...
head first python菜鸟学习笔记（第七章） ——web应用之为数据建模
问题1. #意思是从athletelist.py中导入AthleteListfrom athletelist import AthleteList 源程序代码 import pickle from a ...
Cassandra数据建模
1. 概述 Apache Cassandra将数据存储在表中,每个表都由行和列组成.CQL(Cassandra查询语言)用于查询存储在表中的数据.Apache Cassandra数据模型基于查询并针 ...

随机推荐

无标定量|有标定量|谱图计数|XIC|AMT数据库|RT对对齐|母离子|子离子|SILVER|SRM|iBAQ|APEX|差异蛋白筛选|MaxQuant|PANDA|C-HPP
生物医学大数据-蛋白质定量现今肽段定量效率存在巨大差异.比如相同质量蛋白质,但是肽段和蛋白信号不均一,在物理条件一致时,仅有70%的重复率,并且当重复次数变多时,overlapping在变少. 无标 ...
JS一维数组、多维数组和对象的混合使用
转载地址:http://blog.csdn.net/wangyuchun_799/article/details/38460515 引言这篇文章的主要目的是讲解JavaScript数组和对象的混合使 ...
[Redis] Redis哨兵模式部署 - zz胖的博客
1. 部署Redis集群 redis的安装及配置参考[redis部署] 本文以创建一主二从的集群为例. 1.1 部署与配置先创建sentinel目录,在该目录下创建8000,8001,8002三个以 ...
最优化算法——常见优化算法分类及总结
之前做特征选择,实现过基于群智能算法进行最优化的搜索,看过一些群智能优化算法的论文,在此做一下总结. 在生活或者工作中存在各种各样的最优化问题,比如每个企业和个人都要考虑的一个问题"在一定成 ...
keepalive笔记之一:基本安装
在安装文件中有范例说明 /usr/share/doc/keepalived-1.2.13/samples/ Keepalived:它的诞生最初是为ipvs(一些服务,内核中的一些规则)提供高可用性的, ...
js new 与 return
前置: 默认情况下, 函数的返回值是 undefined (即没有定义返回值). new 操作符 js 中的 new 操作符,可以是我们像 java 一样,获得一个新的对象,例如: function ...
监控Linux系统所选的服务所占进程内存占用
[代码] #!/bin/bash #程序功能描述: # 监控系统所选的服务所占进程内存占用 #作者:孤舟点点 #版本:1.0 #创建时间:-- :: PATH=/bin:/sbin:/usr/bin: ...
linux查看端口号占用命令-netstat
题记经常会发现,很多时候我们在运行一些带有端口的程序时,程序经常会报端口被占用的问题,比如Tomcat 8080,端口起不来. 查看端口号 netstat 如果发现某个端口被占用后,可以用命令查看, ...
ES：PB级别的大索引如何设计
一.单个大索引的缺陷如果每天亿万+的实时增量数据呢,基于以下几点原因,单个索引是无法满足要求的: 1.存储大小限制维度单个分片(Shard)实际是 Lucene 的索引,单分片能存储的最大文档数是 ...
nginx增加访问验证
使用OpenSSL实用程序创建密码文件如果您的服务器上安装了OpenSSL,则可以创建没有附加软件包的密码文件.我们将在/ etc / nginx配置目录中创建一个名为.htpasswd的隐藏文件来 ...

Elasticsearch数据建模笔记

Elasticsearch数据建模笔记的更多相关文章

随机推荐

热门专题