Elasticsearch实战-磁盘IO被打满

背景

事情是这样的。一天下午4点42分左右。业务反馈我开发的服务在测试环境出现问题，返回资源数据是0。查日志发现是ES访问超时。相当于数据库挂了。持续了20多分钟自己恢复。
咨询了ES团队，最终得到下面的答复：

当前集群现状:
1）当前集群数据IO最高的索引为XXX，数据量很小(100mb)
2)但是读写都很大(读>1000QPS,写>1000QPS) ，使用的是线下环境的机器
3)索引分了10个片，4个副本问题
分析:
1)线下环境的机器之前了解到测试环境硬盘性能本来就很差,这个需要业务SRE一块来确定
2)查询的时候，会一次性查询10个片，这样可能会查10台机器的数据，很容易出现木桶效应，造成集群的性能下降
3)写入的时候，虽然是做了10个分片，看起来能加大写能力，但是机器数少，导致结果是每台机器分布了5个分片，等效于只做了2个分片，完全没有扩大写的能力
建议:
1)升级硬件，换成SSD
2)分片改成2个，这样读能力比以前肯定有提升，写能力等价
3)数据量很小，建议直接换成Redis

我自己做了调查。测试环境ES有十台VM（非本地ESB磁盘）作为服务器。其中一台IO被打满。其他机器负载、IO都很低。对于这个问题，ES团队给出的答复是：

ES的服务负载均衡、发现机制是自己写的，一般不会出现问题，
Client仅仅对官方的客户端做了简单的封装，
当然最好是可以对官方的客户端进行改造，
但是我们现在的人力明显不行，只能继续沿用老的客户端使用；
我们预计在10月份左右会出一个自研的客户端，
会尽量避免出现一台机器导致部分查询出现问题，
但是也避免不了，
ES内部的服务发现机制，我们改变不了，除非改ES

调查

1.需要换成本地磁盘，测试环境也是我们的正式环境。是否能直接替换成物理机？多少台合适？怎么可以平滑替换？

没有必要换成物理机。因为ES内存最多能用32G。内存多出来的是浪费用不上，有物理机也是隔成VM来用。

原来10台VM是足够的，只需要同等数量替换。

有机器替换功能。替换时原理是先申请机器部署。然后点击机器替换。会一台台的将分片赶到新机器上。一台下完自动下线老机器。

2.我们测试环境有10台服务器，10个分片，4个副本，写/读QPS大概是7：6。究竟几个分片几个索引更合理？

因为每个分片和副本是同步写。写比例大，副本多会对性能有很大影响。分片替换需要重建索引，很难平滑。所以只将副本数减少为一个分片1个。

3.程序方面有没有可以优化的？

在ES上层增加tair缓存。在进行数据更新操作时是单个数据读取。采用tair有更好的事务性，并减少了对ES的压力。ES只处理复杂查询请求。

Elasticsearch实战-磁盘IO被打满的更多相关文章

ElasticSearch实战系列十: ElasticSearch冷热分离架构
前言本文主要介绍ElasticSearch冷热分离架构以及实现. 冷热分离架构介绍冷热分离是目前ES非常火的一个架构,它充分的利用的集群机器的优劣来实现资源的调度分配.ES集群的索引写入及查询速度 ...
【好书摘要】性能优化中CPU、内存、磁盘IO、网络性能的依赖
系统优化是一项复杂.繁琐.长期的工作,优化前需要监测.采集.测试.评估,优化后也需要测试.采集.评估.监测,而且是一个长期和持续的过程,不是说现在优化了,测试了,以后就可以一劳永逸了,也不是说书本上 ...
Linux按照CPU、内存、磁盘IO、网络性能监测
系统优化是一项复杂.繁琐.长期的工作,优化前需要监测.采集.测试.评估,优化后也需要测试.采集.评估.监测,而且是一个长期和持续的过程,不是说现在优化了,测试了,以后就可以一劳永逸了,也不是说书 ...
inux按照CPU、内存、磁盘IO、网络性能监测
http://my.oschina.net/chape/blog/159640 系统优化是一项复杂.繁琐.长期的工作,优化前需要监测.采集.测试.评估,优化后也需要测试.采集.评估.监测,而且是一个长 ...
ES CPU和磁盘IO升高
问题 ES监控出现偶尔的波动,CPU和磁盘IO升高有时候在凌晨,业务请求比较低,也没有慢查询,GC也比较正常,没有出现Full GC ES内部的merge segment会占用CPU和磁盘资源,怀疑 ...
linux性能优化cpu 磁盘IO MEM
系统优化是一项复杂.繁琐.长期的工作,优化前需要监测.采集.测试.评估,优化后也需要测试.采集.评估.监测,而且是一个长期和持续的过程,不是说现在优化了,测试了,以后就可以一劳永逸了,也不是说书本上 ...
性能优化中CPU、内存、磁盘IO、网络性能的依赖(转)
关于系统性能优化,推荐一篇不错的博客! 系统优化是一项复杂.繁琐.长期的工作,优化前需要监测.采集.测试.评估,优化后也需要测试.采集.评估.监测,而且是一个长期和持续的过程,不是说现在优化了,测试 ...
Linux按照CPU、内存、磁盘IO、网络性能监测【转载】
本文转载地址:https://my.oschina.net/chape/blog/159640 系统优化是一项复杂.繁琐.长期的工作,优化前需要监测.采集.测试.评估,优化后也需要测试.采集.评估.监 ...
磁盘 IO 和网络 IO 该如何评估、监控、性能定位和优化？
生产中经常遇到一些IO延时长导致的系统吞吐量下降.响应时间慢等问题,例如交换机故障.网线老化导致的丢包重传:存储阵列条带宽度不足.缓存不足.QoS限制.RAID级别设置不当等引起的IO延时. 一.评估 ...

随机推荐

Flink 源码解析 —— TaskManager 处理 SubmitJob 的过程
TaskManager 处理 SubmitJob 的过程 https://t.zsxq.com/eu7mQZj 博客 1.Flink 从0到1学习 -- Apache Flink 介绍 2.Flink ...
gin-jwt对API进行权限控制
前言之前文章简单介绍了如何运行gin+vue的前后端分离开源项目,该项目是学习了Gin实践教程后结合vue-element-admin写的,该教程讲得很详细,适合入门Gin.本篇文章将介绍gin+v ...
Linux系统简介以及基本操作（一）
Linux简介(操作系统) Linux发展史(了解) Linux出现于1991年,是由芬兰赫尔辛基大学学生李纳斯·托瓦兹(Linus Torvalds)偶然发现的,他当时是为了方便下载学校网站的一些视 ...
2019NC#8
题号标题已通过代码题解/讨论通过率团队的状态 A All-one Matrices 点击查看单调栈+前缀和 326/2017 通过 B Beauty Values 点击查看进入讨论 8 ...
poj 1182 食物链（种类并查集 ‘初心者’）
题目链接:http://poj.org/problem?id=1182 借着这题可以好好理解一下种类并查集,这题比较简单但挺经典的. 题意就不解释了,中问题. 关于种类并查集结局方法也是挺多的 1扩增 ...
JAVA - 一个for循环实现99乘法表
public class Test03 {public static void main(String[] args) { int lie = 1; for (int hang = 1; hang&l ...
《2019面向对象程序设计（java）课程学习进度条》
学习资源 1.教材P28-P76 2.第3章教学课件3.1-3.8 3.corejava.zip中第3章示例程序3-1—3-5 4.Eclipse简明教程.pdf 5.MOOC & 视频:浙江 ...
spring的嵌套事务
转自http://www.iteye.com/topic/35907 在所有使用 spring 的应用中, 声明式事务管理可能是使用率最高的功能了, 但是, 从我观察到的情况看, 绝大多数人并不能深刻 ...
初玩Docker
Docker 和VM的区别 Docker就是类似于一个打包好的环境,相关的服务都安装在里面,可以直接使用的. VM就相当于另外一套独立的系统,独立的IP,虚拟硬件. 要使用就需要单独构建一套才可以. ...
Spring Boot与Spring MVC集成启动过程源码分析
开源项目推荐 Pepper Metrics是我与同事开发的一个开源工具(https://github.com/zrbcool/pepper-metrics),其通过收集jedis/mybatis/ht ...