记录一次elasticsearch-5.6.4宕机排查经历

犯罪现场~~

es: 三节点，配置相同

内存: 248G

CPU: 没注意看

磁盘: 2T

data: 380G左右

indices: 近9800条

在下才疏学浅，目前跟着大佬学习，这个问题还没解决，大佬猜测是indices数量过高，将es打爆了，由于机器是客户的，indices的删减需要客户方的同意，暂时不确定是否是这个原因导致的，后期成功处理恢复es集群后，再来更新（为什么不看日志？因为日志太大了，108G，不知道应该搜索哪些关键字，有大佬知道，望赐教）

下面分享两个遇到的犯罪现场~~~

客户环境，就不贴ip地址出来了，以node1,node2,node3来代替，不过这个也不重要

犯罪现场一：es重新启动后，无法加入老的集群

'开发说kibana异常，无法访问，于是登录es服务，查看es的状态'

# curl 'http://node1:9200/_cat/nodes'

{"error":{"root_cause":[{"type":"master_not_discovered_exception":"reason":null}],"type":"master_not_discovered_exception","reason":null},"status":503}

`_cat/nodes无法查看到es集群的node信息，只好通过ps查找es的进程，最后发现node1的es进程挂了，因为日志太大，所以无法定位问题，于是重新去启动es的进程（./bin/elasticsearch -d -p ./PID）`

'tailf log/cluster-es.log 看到started，并且ps和ss可以查看到es的进程和端口后，再次执行以上的curl，结果发现还是一样的报错'

# curl 'http://node1ip:9200'

# curl 'http://node2ip:9200'

# curl 'http://node3ip:9200'

发现:

node2和node3的"cluster_uuid"一致，但是node1和node2，node3不一致，看来，node2和node3与node1的爱消失了~~~

解决：

在下才疏学浅，没有妙招，只好将三个节点的es全部kill，然后重新$(./bin/elasticsearch -d -p ./PID)启动es三节点

验证：

# curl 'http://node1ip:9200/_cat/nodes'

等待总是让人抓耳挠腮。。。当然，集群查询正常，此时，发现了新的犯罪现场，请看下一回合~~~

犯罪现场二：indices好大

'es集群虽然暂时正常了，由于kibana显示es集群是red，所以，还是要继续破案'

# curl 'http://node1ip:9200/_cat/indices' | grep green | wc -l

  %  Total    %  Received   %  Xferd  Average   Speed    Time    Time     Time      Current

                                      Dload    Upload    Total   Spent    Left      Speed

100  1118k  100  1118k      0      0   261k        0   0:00:04  0:00:04  --:--:--    274k

# curl 'http://node1ip:9200/_cat/indices' | grep red | wc -l

  %  Total    %  Received   %  Xferd  Average   Speed    Time    Time     Time      Current

                                      Dload    Upload    Total   Spent    Left      Speed

100  1118k  100  1118k      0      0   309k        0   0:00:03  0:00:03  --:--:--    309k

8124

# curl 'http://node1ip:9200/_cat/indices' | grep yellow | wc -l

  %  Total    %  Received   %  Xferd  Average   Speed    Time    Time     Time      Current

                                      Dload    Upload    Total   Spent    Left      Speed

100  1118k  100  1118k      0      0   250k        0   0:00:04  0:00:04  --:--:--    343k

1665

'啊这...8124+1665=9789...由于集群刚刚恢复，数据需要同步，第二天再来查看吧~~~'

# one day过去了~~~果然早起的运维吃爆红，node1还活着，node2和node3殉情了~~~

# curl 'http://hostip:9200/_cat/nodes'

{"error":{"root_cause":[{"type":"null_pointer_exception":"reason":null}],"type":"null_pointer_exception","reason":null},"status":500}

通过日志，看到了几个报错，基本上也就是indices在恢复的时候，又暴毙了吧，只有等客户方沟通结束，删除一些indices后，再做破案吧，破案后，再来更新

截取四段日志做参考吧，希望有大佬可以带我飞~~~

1、fatal error on the network layer

2、[node1] failed to connect to master [node2]

3、MasterNotDiscoveredExcption: null

4、[node1] timed out while waiting for initial discovered state - timeout: 30s

--------------------------------更新与2020年12月13日---------------------------------

最终，在客户方同意下，删除了历史indices，只保留最近一个月的数据，indices从9789所见到了2785；

但是在恢复过程中，es又暴毙了一次，发现客户方没有加内存限制，加了内存限制之后，解决了

记录一次elasticsearch-5.6.4宕机排查经历的更多相关文章

HBase–RegionServer宕机恢复原理
Region Server宕机总述 HBase一个很大的特色是扩展性极其友好,可以通过简单地加机器实现集群规模的线性扩展,而且机器的配置并不需要太好,通过大量廉价机器代替价格昂贵的高性能机器.但也正因 ...
elasticsearch介绍集群,模拟横向扩展节点、节点宕机、改变分片
出处:[http://www.cnblogs.com/dennisit/p/4133131.html] ,防楼主删博,故保留一份! elasticsearch用于构建高可用和可扩展的系统.扩展 ...
Elasticsearch宕机问题
个人博客:https://blog.sharedata.info/ Elasticsearch 突然宕机,每次重启都只生成错误日志报错信息:## There is insufficient memor ...
记录一次mysql宕机的解决办法
首先先粘贴出来我的错误信息,如下: 2019-07-16T00:53:18.285919Z 0 [System] [MY-010116] [Server] /usr/sbin/mysqld (mysq ...
【JVM】linux上tomcat中部署的web服务，时好时坏，莫名其妙宕机，报错：There is insufficient memory for the Java Runtime Environment to continue.
=========================================================================================== 环境: linu ...
Vertica节点宕机处理一例
Vertica节点宕机处理一例: 查询数据库版本和各节点状态常规方式启动宕机节点失败进一步查看宕机节点的详细日志定位问题并解决 1. 查询数据库版本和各节点状态 dbadmin=> sel ...
由于某IP大频率提交评论导致服务器宕机
早上突然收到dnspod的宕机通知(好久没收到了,有点手足无措). 服务器在上午10:40时达到85%.uptime显示cpu利用率达到35.不宕才怪. 按照之前的经验,应该是触发一个特别耗CPU的处 ...
ORA-04031错误导致宕机案例分析
今天遇到一起ORACLE数据库宕机案例,下面是对这起数据库宕机案例的原因进行分析.解读.分析过程中顺便记录一下这个案例的前因后果,攒点经验值,培养一下分析.解决问题的能力. 案例环境: 操作系统 ...
双十一来了，别让你的mongodb宕机了
好久没过来吹牛了,前段时间一直赶项目,没有时间来更新博客,项目也终于赶完了,接下来就要面临双十一这场惊心动魄的处女秀考验, 我们项目中会有一个wcf集群,而集群地址则放在mongodb中,所以mong ...

随机推荐

聊聊同步、异步、阻塞、非阻塞以及IO模型
前言在使用Netty改造手写RPC框架的时候,需要给大家介绍一些相关的知识,这样很多东西大家就可以看明白了,手写RPC是一个支线任务,后续重点仍然是Kubernetes相关内容. 阻塞与非阻塞同步 ...
Keil MDK STM32系列(五) 使用STM32CubeMX创建项目基础结构
Keil MDK STM32系列 Keil MDK STM32系列(一) 基于标准外设库SPL的STM32F103开发 Keil MDK STM32系列(二) 基于标准外设库SPL的STM32F401 ...
Spark-寒假-实验4
1．spark-shell 交互式编程 (1)该系总共有多少学生: 执行命令: var tests=sc.textFile("file:///home/hadoop/studata/chap ...
【摘抄】疑问chatterbot
ChatterBot使用哪种机器学习? -------------------------------------------------- - 简而言之,ChatterBot使用了许多不同的机器学 ...
ASP.NET 内联代码、内联表达式、数据绑定表达式使用方法罗列（形式就是常说的尖括号百分号等于号井号）
今天在做渭南电脑维修网的一个小功能时遇到了一些问题,因此特别列出,以备他日之用. 首先对ASP.NET 内联代码.内联表达式.数据绑定表达式的概念进行罗列,详细概念以及基本的用法我就不在这里罗嗦了,请 ...
jQuery ajax get与post后台交互中的奥秘
这两天在做关注功能模块(类似于Instagram).多处页面都需要通过一个"关注"按钮进行关注或者取消该好友的操作.一个页面对应的放一个按钮,进行操作.效率低维护性差.因此想通过j ...
TeXstudio在右边显示预览
打开预览界面后: 点击查看(View) 选择最后一个:窗口/内嵌(Windowed/Embedded) 就可以了
巧用 Base62 解决字段太短的问题
最近银联一纸 259 号改造通知,所有支付机构开始改造支付交易,上传终端信息. 不知道其他支付机构的小伙伴针对这次改造是否开始了? 由于这次银联给的时间非常少,我们这边改动涉及到相关上游一起改造,所以 ...
集合框架-工具类-Collection-toArray方法
1 package cn.itcast.p3.toolclass.arrays.demo; 2 3 import java.util.ArrayList; 4 import java.util.Arr ...
new实例化和反射实例化有什么区别？
在工厂设计模式中,使用反射实例化,子类可以随便增加,工厂类不需要做任何的修改使用反射之后最大的好处就是解耦合

记录一次elasticsearch-5.6.4宕机排查经历

犯罪现场~~

犯罪现场一：es重新启动后，无法加入老的集群

犯罪现场二：indices好大

记录一次elasticsearch-5.6.4宕机排查经历的更多相关文章

随机推荐

热门专题