Elasticsearch最佳实践之分片使用优化

本文由云+社区发表

作者：老生姜

一、遇到的问题

　　与大多数分布式系统一样，Elasticsearch按照一定的Hash规则把用户数据切分成多个分片，然后打散到不同机器进行存储，从而实现大规模数据的分布式存储。

cluster.png

　　然而在一些复杂的应用场景中使用Elasticsearch，经常会遇到分片过多引发的一系列问题。起初我们在支撑内部某业务时，单集群内有约1000个子业务，大部分子业务保留31天的数据。如果每个子业务按天滚动建立Index，每个Index 5个分片、一主两从共三副本的情况下，集群内部会有多达45w~个分片。在集群内分片过多时，经常遇到下面这些问题：

　　1. 创建分片慢：Elasticsearch创建分片的速度会随着集群内分片数的增加而变慢。以ES 5.5.2版本、3节点集群为例，在默认配置下，当集群分片数超过1w时，创建index的耗时一般在几十秒甚至以上。　　2. 集群易崩溃：在凌晨触发Elasticsearch自动创建Index时，由于创建速度太慢，容易导致大量写入请求堆积在内存，从而压垮集群。　　3. 写入拒绝：分片过多的场景中，如果不能及时掌控业务变化，可能经常遇到单分片记录超限、写入拒绝等问题。

二、解决过程

拆分集群对于存在明显分界线的业务，可以按照业务、地域使用不同集群，这种拆分集群的思路是非常靠谱的。Elasticsearch官方建议使用小而美的集群，避免巨无霸式的集群，我们在实际使用过程中对这一点也深有体会。但对于我们的场景，已经按照地域拆分了集群，且同一地域的子业务间分界线不明显，拆分过多的集群维护成本较高。
调整滚动周期根据保留时长调整index滚动周期是最简单有效的思路。例如保留3天的数据按天滚动，保留31天的数据按周滚动，保留一年的数据按月滚动。合理的滚动周期，可以在存储成本增加不大的情况下，大幅降低分片数量。对于我们的场景，大部分数据保留31天，在按周滚动的情况下，集群的总分片数可以下降到6.5w~个。
合理设置分片数和副本数集群内部除个别子业务压力较高外，大部分业务压力较小，合理设置单Index的分片数效果也不错。我们的经验是单个分片的大小在10GB~30GB之间比较合适，对于压力非常小的业务可以直接分配1个分片。其他用户可结合具体场景考虑，同时注意单分片的记录条数不要超过上限2,147,483,519。在平衡我们的业务场景对数据可靠性的要求及不同副本数对存储成本的开销两个因素之后，我们选择使用一主一从的副本策略。目前我们集群单Index的平均分配数为3，集群的总分片数下降到3w~个。
分片分配流程优化默认情况下，ES在分配分片时会考虑分片relocation对磁盘空间的影响。在分片数较少时，这个优化处理的副作用不明显。但随着单机分片数量的上升，这个优化处理涉及的多层循环嵌套过程耗时愈发明显。可通过cluster.routing.allocation.disk.include_relocations: false关闭此功能，这对磁盘均衡程度影响不明显。
预创建Index 对于单集群3w分片的场景，集中在每周某天0点创建Index，对集群的压力还是较大，且存储空间存在波动。考虑到集群的持续扩展能力和可靠性，我们采用预创建方式提前创建分片，并把按Index的创建时间均匀打散到每周的每一天。
持续调整分片数对于集群分片的调整，通常不是一蹴而就的。随着业务的发展，不断新增的子业务或原有子业务规模发生突变，都需要持续调整分片数量。默认情况下，新增的子业务会有默认的分片数量，如果不足，会在测试阶段及上线初期及时发现。随着业务发展，系统会考虑Index近期的数据量、写入速度、集群规模等因素，动态调整分片数量。

三、后续

　　目前，Elasticsearch的分片均衡策略尚有瑕疵，例如：1. 机器的空间利用不是非常均衡，对于此类场景，用户可暂时通过调整机器空间的高低水位线配置触发数据均衡；2. 当集群扩容新节点时，Elasticsearch会把大量新建分片分配到新机器，导致新机器压力过高，目前用户可临时通过index.routing.allocation.total_shards_per_node配置进行限制。

　　这是我们后续在分片使用方面的优化工作，通过直接优化分片均衡策略，更优雅的解决上述问题。如果大家有分片使用方面的问题或经验，欢迎一起交流讨论！

此文已由腾讯云+社区在各渠道发布

获取更多新鲜技术干货，可以关注我们腾讯云技术社区-云加社区官方号及知乎机构号

Elasticsearch最佳实践之分片使用优化的更多相关文章

ES最佳实践之分片使用优化
Elasticsearch最佳实践之分片使用优化作者:老生姜一.遇到的问题与大多数分布式系统一样,Elasticsearch按照一定的Hash规则把用户数据切分成多个分片,然后打散到不同机器进行 ...
lasticsearch最佳实践之分片使用优化
一.遇到的问题与大多数分布式系统一样,Elasticsearch按照一定的Hash规则把用户数据切分成多个分片,然后打散到不同机器进行存储,从而实现大规模数据的分布式存储. cluster.png ...
[Java Performance] 数据库性能最佳实践 - JPA和读写优化
数据库性能最佳实践当应用须要连接数据库时.那么应用的性能就可能收到数据库性能的影响. 比方当数据库的I/O能力存在限制,或者因缺失了索引而导致运行的SQL语句须要对整张表进行遍历.对于这些问题.只相 ...
HBase最佳实践－写性能优化策略
本篇文章来说道说道如何诊断HBase写数据的异常问题以及优化写性能.和读相比,HBase写数据流程倒是显得很简单:数据先顺序写入HLog,再写入对应的缓存Memstore,当Memstore中数据大小 ...
HBase最佳实践－读性能优化策略
任何系统都会有各种各样的问题,有些是系统本身设计问题,有些却是使用姿势问题.HBase也一样,在真实生产线上大家或多或少都会遇到很多问题,有些是HBase还需要完善的,有些是我们确实对它了解太少.总结 ...
elasticsearch最佳实践
创建索引无mapping 创建索引名称为index的索引 curl -XPUT http://localhost:9200/book 有mapping 如果需要定义每个类型的结构映射,创建type名 ...
elasticsearch 最佳实践
创建索引无mapping 创建索引名称为index的索引 curl -XPUT http://localhost:9200/book 有mapping 如果需要定义每个类型的结构映射,创建type名 ...
MongoDB最佳实践中文手册
背景:查阅了一下MongoDB的相关文档,发现中文文档还是比较少的,工作中需要用到MongoDB,而这本<MongoDB最佳实践>是很好的选择,所以就把这本手册翻译了一下,其中生涩的专业用 ...
[转]在 Azure 云服务上设计大规模服务的最佳实践
本文转自:http://technet.microsoft.com/zh-cn/magazine/jj717232.aspx 英文版:http://msdn.microsoft.com/library ...

随机推荐

ScalaPB（4）：通用跨系统protobuf数据，sbt设置
我们知道,在集群环境节点之间进行交换的数据必须经过序列化/反序列化处理过程,而在这方面protobuf是一个比较高效.易用的模式.用户首先在.proto文件中用IDL来定义系统中各种需要进行交换的数据 ...
ABP+AdminLTE+Bootstrap Table aspnetboilerplate 学习
http://www.cnblogs.com/anyushengcms/p/7325126.html https://github.com/aspnetboilerplate/aspnetboiler ...
bugku misc writeup(一个普通的压缩包)
这个题做了好几个小时,因为没有writeup,一点一点摸索,做题思路写出来给大家交流首先这是一个zip.rar压缩包,下载下来第一步就是拖进hexeditor中观察,检查下文件的头尾结构是否有问题, ...
String的replaceAll（）用法详解
使用replaceAll实现字符串替换,即把字符串某些字符全部替换成别的 // 将str中的所有数字替换为"数字"二字 String str = "abc123bcd45 ...
java的Calendar，获取月份少一月的问题及其它注意事项
java的Calendar,获取月份少一月的问题及其它注意事项: import java.util.*; public class DateClass{ public static void main ...
[ Java面试题 ]数据库篇
基本表结构: student(sno,sname,sage,ssex)学生表 course(cno,cname,tno) 课程表 sc(sno,cno,score) 成绩表 teacher(tno,t ...
Javascript继承，再谈
说到Javascript的继承,相信只要是前端开发者都有所了解或应用,因为这是太基础的知识了.但不知各位有没有深入去理解其中的玄机与奥秘.今本人不才,但也想用自己的理解来说一说这其中的玄机和奥秘. 一 ...
你不知道的JavaScript--Item16 for 循环和for...in 循环的那点事儿
大家都知道在JavaScript中提供了两种方式迭代对象: for 循环: for..in循环: 1.for循环不足: 在于每次循环的时候数组的长度都要去获取: 终止条件要明确: 在for循环中,你 ...
FreeRTOS数据结构（一）--链表和链表项
结构体定义 /*链表结构体*/ typedef struct xLIST { listFIRST_LIST_INTEGRITY_CHECK_VALUE /*用于链表完整性检查*/ configLIST ...
rest_framework之解析器、路由控制、分页
解析器我们都知道,网络传输数据只能传输字符串格式的,如果是列表.字典等数据类型,需要转换之后才能使用但是我们之前的rest_framework例子都没有转换就直接可以使用了,这是因为rest_fr ...

Elasticsearch最佳实践之分片使用优化

Elasticsearch最佳实践之分片使用优化的更多相关文章

随机推荐

热门专题