.suofang img { max-width: 100% !important; height: auto !important }

本篇文章记录最近ES做节点替换，从shard迁移过程中被锁定导致无法分配，主shard正常，希望可以帮助其它人

failed to create shard，failed to obtain in-memory shard lock，ShardLockObtainFailedException

一、问题描述

这次遇到的问题比较特殊，尝试过以下几种手段都没有恢复：

_cluster/reroute手动分片shard
由于是从shard无法分片，所以当时试过将所以的副本改成0，然后再设置成1，想通过重新生成副本来解决，结果也失败

接下来是排查问题的过程：

1、通过“GET _cat/shards/indexname”错误信息如下，从shard无法分配，主shard正常，正常的shard未展示出来：

indexname                3     r      UNASSIGNED

indexname                4     r      UNASSIGNED

indexname                1     r      UNASSIGNED

之前在运维过程中也遇到过UNASSIGNED这种从shard无法分配的问题，通过"allocate_replica"命令手动分配可以解决，这类问题一般都是因为node节点重启或者失联导致的shard分片异常

2、通过“GET _cluster/allocation/explain”错误信息如下：

"index": "indexname",

  "shard": 3,

  "primary": false,

  "current_state": "unassigned",

  "unassigned_info": {

    "reason": "ALLOCATION_FAILED",

    "at": "2023-11-02T18:43:14.758Z",

    "failed_allocation_attempts": 300,

    "details": "failed shard on node [4MMOUt8-SMatWGCzX1asAQ]: failed to create shard, failure IOException[failed to obtain in-memory shard lock]; nested: ShardLockObtainFailedException[[indexname][3]: obtaining shard lock timed out after 5000ms]; ",

    "last_allocation_status": "no_attempt"

  },

  "can_allocate": "no",

  "allocate_explanation": "cannot allocate because allocation is not permitted to any of the nodes",

大多数情况下shard的allocate相关的问题都可以通过“GET _cluster/allocation/explain”命令获取到有用的关键信息，从返回的内容来分析是索引的第3个shard导致的，在node节点[4MMOUt8-SMatWGCzX1asAQ]被锁定。

二、处理过程

知道问题原因了就有方法解决了，我准备了三套方案，如下：

前置工作

业务将索引的读写请求切走
创建一个测试索引验证shard是否都正常
备份索引数据

方案1：重启索引

--刷新索引

POST indexname/_flush

--关闭索引

POST indexname/_close

---打开索引

POST indexname/_open

在本次处理过程中，使用了方案1重启索引就已经把问题解决了，但是方案一还是的业务配合将读写请求切走，否则索引close会导致应用的请求报错

方案2：重启节点node节点

[4MMOUt8-SMatWGCzX1asAQ]

PUT _cluster/settings

{

"persistent": {

"cluster.routing.allocation.enable": "none"

}

}

PUT _cluster/settings

{

"persistent": {

"cluster.routing.allocation.enable": "all"

}

}

方案2重启锁定shard的节点理论上来说也是可以解决这个问题，但是因为方案一已经解决了问题就没机会做测试

方案3.重建索引

先还原备份到一个临时索引，验证数据没问题
删除当前索引，还原创建新索引

方案3是最后的方案了，如果方案1和2都解决不了的话只能通过方案3进行索引重建来解决，通过备份还原的方式来恢复索引其实也是很快的

三、思考总结

其实整个问题处理过程中还有一些其它的细节在文中没有提到，就是集群在默认开启自动shard均衡过程中由于shard多长尝试分片无法成功，达到默认的5次重试之后就会报错，这个时候其实可以尝试将集群的自动分片关闭"cluster.routing.allocation.enable": "none"，然后执行"POST /_cluster/reroute?retry_failed=true"来重置计数，最后通过手动分片shard的方式来做迁移也有可能能解决问题。只不过在每次遇到问题的时候需要结合当时的最佳场景去做判断，寻找影响范围最小的方案；

备注：

作者：pursuer.chen

博客：http://www.cnblogs.com/chenmh

本站点所有随笔都是原创，欢迎大家转载；但转载时必须注明文章来源，且在文章开头明显处给明链接。

《欢迎交流讨论》

.feedbackCon a { border-bottom: 1px dotted rgba(51, 51, 51, 1) }

记录ElasticSearch分片被锁定导致无法分配处理过程的更多相关文章

Elasticsearch 分片集群原理、搭建、与SpringBoot整合
单机es可以用,没毛病,但是有一点我们需要去注意,就是高可用是需要关注的,一般我们可以把es搭建成集群,2台以上就能成为es集群了.集群不仅可以实现高可用,也能实现海量数据存储的横向扩展. 新的阅读体 ...
超详细从零记录Hadoop2.7.3完全分布式集群部署过程
超详细从零记录Ubuntu16.04.1 3台服务器上Hadoop2.7.3完全分布式集群部署过程.包含,Ubuntu服务器创建.远程工具连接配置.Ubuntu服务器配置.Hadoop文件配置.Had ...
【控制分片分配】控制Elasticsearch分片和副本的分配
ES集群中索引可能由多个分片构成,并且每个分片可以拥有多个副本.通过将一个单独的索引分为多个分片,我们可以处理不能在一个单一的服务器上面运行的大型索引,简单的说就是索引的大小过大,导致效率问题.不能运 ...
Elasticsearch分片&副本分配
集群索引中可能由多个分片构成,并且每个分片可以拥有多个副本,将一个单独的索引分为多个分片,可以处理不能在单一服务器上运行的大型索引. 由于每个分片有多个副本,通过副本分配到多个服务器,可以提高查询的 ...
Elasticsearch分片优化
原文地址:https://qbox.io/blog/optimizing-elasticsearch-how-many-shards-per-index 大多数ElasticSearch用户在创建索引 ...
Elasticsearch分片、副本与路由(shard replica routing)
本文讲述,如何理解Elasticsearch的分片.副本和路由策略. 1.预备知识 1)分片(shard) Elasticsearch集群允许系统存储的数据量超过单机容量,实现这一目标引入分片策略sh ...
事故记录：php-cgi进程过多导致系统资源耗尽
事故现象:机房一台服务器运行一段时间后,突然发现系统资源即将被耗尽! 1)top命令查看一下系统的cpu ram swap的使用情况由上图分析,可以看出1--共有602个进程,但其中有601个进程休 ...
Elasticsearch 分片路由原理指定分片存储查询
Elasticsearch 项目中使用到Es的父子结构.在数据填充之后,查看每个节点的数据分布情况,发现有的节点数据多,有的节点少的情况,在未使用Es父级结构之前,每个节点的数据分布还算平均,如下图: ...
【分片无法挂载】Elasticsearch分片和副本无法挂载(分片移位)
部署说明硬件服务器两台: 机器A:64G内存机器B:32G内存分片共12个节点 2个查询节点,10个存储节点 8个主分片 1个复制分片(每个分片都有一个副本分布在不同的节点上面) 每台机器都 ...
有关elasticsearch分片策略的总结
最近在优化部分业务的搜索吞吐率,结合之前优化过写请求的经验,想和大家讨论下我对es分片在不同场景下的分配策略的思路原先普通索引我的分片策略是: 主分片=节点数,副本=1,这样可以保证业务数据一定 ...

随机推荐

2023年郑州轻工业大学校赛邀请赛jc
比赛时,jxh和myh从头开始看题,我拿着试题册去找签到,很快他们签上了一个数学题,我跟他们说兔子和飞镖可以写,刚开始飞镖这个题我先wa了一次,因为刚开始的思路少考虑了情况,我们队后来改的挺乱,jxh ...
如何修改NuGet默认全局包文件夹的位置？
由于一些历史原因,重装系统成为Windows用户解决疑难杂症的祖传手艺.受此影响,给硬盘分盘几乎成为了一种执念,少则C.D两个盘,夸张一点的5~6个盘的也不是没有. PS:macOS和Linux一直都 ...
线程池shutdown引发TimeoutException
问题描述分享一个发版过程服务报错问题,问题出现在每次发版,服务准备下线的时候,报错的位置是在将任务submit提交给线程池,使用Future.get()引发的TimeoutException,错误日 ...
linux 问题： ssh登录报错，ssh_exchange_identification，多次几次可以登录
分析怀疑是句柄数不够,和ssh的最大登录限制确认 2.1 确认句柄数过程: ~# systemctl status sshd | grep -i pid Main PID: 3767395 (s ...
VSCode:缩进两格空格
在设定中对如图所示两项进行修改: 至此问题解决.
tcpdump抓指定端口/ip的数据包
抓指定端口,这里以7070端口为例 tcpdump -i ens192 port 7070 -s 0 -l -A -w /chris/70.pcap ens192是网卡抓完ctrl c停止抓指定 ...
（转）[Android测试] Android Studio+Appium+Java+Windows 自动化测试之二:Appium环境安装搭建
一.需要下载安装的东西 1. 文件下载网上也有挺多安装教程的,这里我提供我的安装方法.Win10 64位.一些文件我在后面打包. 2016.9.12号本人安装记录. SDK: 由于我是搞Androi ...
zabbix触发器标签提取监控项子字符串功能实现对应告警恢复
0 实验环境 zabbix 6.0 1 监控项 1.1 监控项设置通过zabbix agent自定义监控项,读取某文件内容模拟日志/trap告警,测试获取触发器标签中提取子字符串功能,以及相同标签的 ...
微服务项目使用RabbitMQ
微服务项目使用RabbitMQ 很久未用RabbitMQ了,根据网上的Demo,大多数是一个服务包含所有的生产者和消费者和配置,当自己去搭建服务的时候,还需要一些思考各种包的划分.无法无脑CV大法,所 ...
nflsoj 5926 素数环
题目非常简单,只需要判断相邻两个数的和是不是素数,素数的判断参考数论不过要注意的一点是题目说的是一个环,所以首尾两个数的和也要是素数我在输出的时候加上了 is_prime(path[n-1]+1) ...

记录ElasticSearch分片被锁定导致无法分配处理过程