ES：PB级别的大索引如何设计

一、单个大索引的缺陷

如果每天亿万+的实时增量数据呢，基于以下几点原因，单个索引是无法满足要求的；

1、存储大小限制维度

单个分片（Shard）实际是 Lucene 的索引，单分片能存储的最大文档数是：2,147,483,519 (= Integer.MAX_VALUE - 128)。如下命令能查看全部索引的分隔分片的文档大小：

GET _cat/shards

app_index                       2 p STARTED      9443   2.8mb 127.0.0.1 Hk9wFwU

app_index                       2 r UNASSIGNED

app_index                       3 p STARTED      9462   2.7mb 127.0.0.1 Hk9wFwU

app_index                       3 r UNASSIGNED

app_index                       4 p STARTED      9520   3.5mb 127.0.0.1 Hk9wFwU

app_index                       4 r UNASSIGNED

app_index                       1 p STARTED      9453   2.4mb 127.0.0.1 Hk9wFwU

app_index                       1 r UNASSIGNED

app_index                       0 p STARTED      9365   2.3mb 127.0.0.1 Hk9wFwU

app_index                       0 r UNASSIGNED

2、性能维度

当然一个索引很大的话，数据写入和查询性能都会变差，而高效检索体现在：基于日期的检索可以直接检索对应日期的索引，无形中缩减了很大的数据规模。

比如检索：“2019-02-01”号的数据，之前的检索会是在一个月甚至更大体量的索引中进行，现在直接检索"index_2019-02-01"的索引,效率提升好几倍。

3、风险维度

一旦一个大索引出现故障，相关的数据都会受到影响。而分成滚动索引的话，相当于做了物理隔离。

二、具体实现

综上，结合实践经验，大索引设计建议：使用模板+Rollover+Curator动态创建索引。动态索引使用效果如下：

index_2019-01-01-000001

index_2019-01-02-000002

index_2019-01-03-000003

index_2019-01-04-000004

index_2019-01-05-000005

1、使用模板统一配置索引；

2、使用 Rollver 增量管理索引；

目的：按照日期、文档数、文档存储大小三个维度进行更新索引。使用举例：

POST /logs_write/_rollover

{

  "conditions": {

    "max_age":   "7d",

    "max_docs":  1000,

    "max_size":  "5gb"

  }

}

3、索引增量更新

1.索引更新的时机是：当原始索引满足设置条件的三个中的一个的时候，就会更新为新的索引。为保证业务的全索引检索，一般采用别名机制；

2.在索引模板设计阶段，模板定义一个全局别名：用途是全局检索，如图所示的别名：indexall。每次更新到新的索引后，新索引指向一个用于实时新数据写入的别名，如图所示的别名：indexlatest。同时将旧索引的别名 index_latest 移除。

别名删除和新增操作举例：

POST /_aliases

{

  "actions" : [

      { "remove" : { "index" : "index_2019-01-01-000001", "alias" : "index_latest" } },

      { "add" : { "index" : "index_2019-01-02-000002", "alias" : "index_latest" } }

  ]

}

ES：PB级别的大索引如何设计的更多相关文章

[Big Data - Codis, Mycat（cobar）] 企业互联网+转型实战：如何进行PB级别数据的架构变迁
随着DT时代的来临,数据对于企业经营决策的价值日益凸显,而企业在进行互联网+转型的过程中,如何让数据架构平滑迁移到大数据平台,对于传统业务的转型升级至关重要.企业IT部门该如何进行PB级别大数据平台的 ...
HBase学习（四）二级索引 rowkey设计
HBase学习(四) 一.HBase的读写流程画出架构 1.1 HBase读流程 Hbase读取数据的流程:1)是由客户端发起读取数据的请求,首先会与zookeeper建立连接2)从zookeepe ...
MySQL索引的设计和使用
一.索引可以有效地提升SELECT操作的性能,同时会影响UPDATE.CREATE和DELETE操作的性能.每种引擎对于表的索引有数量和长度的限制. 二.索引的设计原则 (A) 搜索的索引列,不一定是 ...
Presto: 可以处理PB级别数据的分布式SQL查询引擎
2012年秋季Facebook启动了Presto,Presto的目的是在几百PB级别数据量上面进行准实时分析.在摒弃了一些外部项目以后,Facebook准备开发他们自己的分布式查询引擎.Presto的 ...
HBase二级索引的设计(案例讲解)
摘要最近做的一个项目涉及到了多条件的组合查询,数据存储用的是HBase,恰恰HBase对于这种场景的查询特别不给力,一般HBase的查询都是通过RowKey(要把多条件组合查询的字段都拼接在RowK ...
MySQL索引的设计、使用和优化
原文:http://bbs.landingbj.com/t-0-243071-1.html MySQL索引概述所有MySQL列类型可以被索引.对相关列使用索引是提高SELECT操作性能的最佳途径.根 ...
HBase二级索引的设计
摘要最近做的一个项目涉及到了多条件的组合查询,数据存储用的是HBase,恰恰HBase对于这种场景的查询特别不给力,一般HBase的查询都是通过RowKey(要把多条件组合查询的字段都拼接在RowK ...
mysql__索引的设计和使用
索引的设计和使用 1 索引概述 MySIAM和InnoDB存储引擎的表默认创建的都是BTREE索引,MySQL目前不支持函数索引,但是支持前缀索引.还支持全文本索引,但是只有MySIAM(5.0开始) ...
HBase之八--(1)：HBase二级索引的设计(案例讲解)
摘要最近做的一个项目涉及到了多条件的组合查询,数据存储用的是HBase,恰恰HBase对于这种场景的查询特别不给力,一般HBase的查询都是通过RowKey(要把多条件组合查询的字段都拼接在RowK ...

随机推荐

Django专题-ugettext_lazy
标准翻译使用函数 ugettext() 来指定一个翻译字符串. 作为惯例,使用短别名 _ 来引入这个函数以节省键入时间. 在下面这个例子中,文本 "Welcome to my site&q ...
iOS 直接使用16进制颜色
在做iOS开发时,一般我们会吸色,就是产品给的图我们一般会吸色,但是最近吸色时候,老大说有较大的颜色偏差,所以要求我们直接使用UI给出的额16进制颜色,你也可以搜索<RGB颜色值转换成十六进制颜 ...
android weight
UML-如何迭代
未完待续...
tcp和udp的socket形式
Sockets编程有三种: (1).流套接字(SOCK_STREAM): (2).数据包套接字(SOCK_DGRAM): (3).原始套接字(SOCK_RAW): TCP是流套接字 UCP是数据包套接 ...
MySQL修改最大连接数的两个方法，偏爱第一种
总结MySQL修改最大连接数的两个方式最大连接数是可以通过mysql进行修改的,mysql数据库修改最大连接数常用有两种方法,今天我们分析一下这两种方法之间的特点和区别,以便我们能更好的去维护m ...
Serverless 的开发者工具建设
本文将介绍 Serverless 生态下的开发者工具,并简述这些工具是如何贯穿开发.调试.测试和部署的生命周期,提升开发者效率的. 由于 Serverless 平台具备弹性扩缩.免运维.按需付费等特点 ...
signal之——异步回收机制2
前言:上一篇的处理方法可以解决所有回收问题,但是如果我们不考虑子进程的返回状态,那么可以使内核来进行对子进程的回收代码如下: //如果无需关心进程结束状态可以设置子进程结束时不产生僵尸进程有内核值 ...
dubbo服务调用
1.Dubbo的缺省(默认)协议:采用单一长连接和NIO异步通讯. 2. 3.调用关系说明 0. 服务容器负责启动,加载,运行服务提供者. 1. 服务提供者在启动时,向注册中心注册自己提供的服务. ...
Yii框架的学习指南（策码秀才篇）1-1 如何认识Yii framework
Yii的框架和其他框架的区别在于:它是更加快速,安全,专业的PHP框架 Yii是一个高性能的,适用于开发WEB2.0应用的PHP框架. Yii是一个基于组件.用于开发大型 Web 应用的高性能 P ...

ES：PB级别的大索引如何设计

ES：PB级别的大索引如何设计的更多相关文章

随机推荐

热门专题