k8s线上某些特殊情况强制删除 StatefulSet 的 Pod 要考虑什么隐患? 考点之什么情况下,需要强制删除 StatefulSet 的 Pod? 考点之如果 StatefulSet 操作不当可能会引发什么很严重的后果? 考点之如果遇到Pod 长时间处于 'Terminating' 或者 'Unknown' 状态情况,有什么安全一些的处理手段吗? 囧么肥事-胡说八道 线上某些特殊情况下可能需要强制删除 StatefulSet 的 Pod? 什么情况下,需要强制删除 StatefulSet…
一,文章简述 大家好,本篇是个人的第 2 篇文章.是关于在之前项目中,k8s 线上集群中 Node 节点状态变成 NotReady 状态,导致整个 Node 节点中容器停止服务后的问题排查. 文章中所描述的是本人在项目中线上环境实际解决的,那除了如何解决该问题,更重要的是如何去排查这个问题的起因. 关于 Node 节点不可用的 NotReady 状态,当时也是花了挺久的时间去排查的. 二,Pod 状态 在分析 NotReady 状态之前,我们首先需要了解在 k8s 中 Pod 的状态都有哪些.并…
不知道什么情况 在线创建模块,DLL被删除了,但是模块的相关数据无法删除.可以按照下面的方法临时用一下. 产生这个的原因,好像是Config里面的NeedInit一直都是true,没有改为false,空了再测试一下这个问题 位置:Rookey.Frame.Operate.Base\CommonOperate.cs 方法:在“查询记录”里面的第二个Count方法 具体修改:在CommonOperate类的方法Count里面加上try catch,临时可以使用一下. errMsg = string.…
kafka升级方案 为什么进行kafka升级 一.修改unclean.leader.election.enabled默认值Kafka社区终于下定决心要把这个参数的默认值改成false,即不再允许出现unclean leader选举的情况,在正确性和高可用性之间选择了前者.如果依然要启用它,用户需要显式地在server.properties中设置这个参数=true 二.确保offsets.topic.replication.factor参数被正确应用__consumer_offsets这个topi…
场景描述: 我们采用git去管理代码分支,本地开发环境,线上服务器多数情况下也会使用git去管理程序代码,那么新的一台服务器,如果指定了目标路径作为代码存放路径,该如何配置git环境, 以达到跟远程服务器通信的目的.本文以ubuntu系统为例. 操作步骤: 1. 安装git Ubuntu系统为例 apt-get install git 2. 切换到系统存放代码的路径. (这里需要进入你实际服务器计划用来存放代码的目录下) 初始化git本地环境 git init 3. 配置git服务器远程分支 (…
本文主要内容来自MongoDB官方文档http://docs.mongodb.org/manual/administration/production-notes/.并结合了实际工作情况进行分享. 1)软件包的选择 确保使用最新的稳定版本.目前我们线上使用的版本是2.4.6.MongoDB软件包下载页面http://www.mongodb.org/downloads. 确保线上环境总是使用64位版本.32位版本只能用于测试和开发使用,因为32位版本最大只能存储2GB的数据.启动MongoDB的时…
- 假设我们要上线一个两年内不会宕机的先进架构.在上线前,免不了单元测试,功能测试,还有使用ab,webbench等等进行压力测试. 但这些步骤非生产环境下正式用户的行为.或许你会想到灰度上线,但毕竟可能会影响到部分用户,这怎么对得起我们两年内不宕机的承诺呢? 好在网易的 王斌 开发了tcpcopy, 可以导入线上流量进行功能和压力测试. tcpcopy介绍 tcpcopy是一种请求复制工具.可以将线上流量拷贝到测试机器,实时的模拟线上环境.在不影响线上用户的情况下,使用线上流量进行测试,以尽早…
这一阵子在面试,连续遇到好几家(大小厂都有)问我的项目线上qps的情况了,说实话,我作为一个大头兵,本来没关注过这个数据,只能含混地给个"大概.也许"的回答. 回来之后,我决定对业务线上请求进行一下qps统计. 统计用到的基本命令: sed 切分出关键词 awk 按统计要求的维度组织数据,并计数 sort 对统计结果进行排序 统计要求: 精确到秒(或分钟) 区分不同接口 找出前n个请求量最高的 日志格式 [20210525 17:00:00 733149][INFO][xxx.xxx.…
TTL 机制排毒,线上k8s的Job已经通过API 增加了Job的TTL 时长,且成功响应,为什么系统还是清理了Job? 面试官:"已完成 Job 的 TTL 机制了解嘛?简单说说TTL存在的时间偏差问题?" 面试官:"能简单描述一下什么是TTL-after-finished 控制器嘛?" 面试官:"我明明已经通过API 增加了Job的TTL 时长,且得到了成功的响应,为什么系统还是清理了Job?" 面试官:"如何更加准确的跟踪 Job…
从一个线上服务器警告谈谈backlog https://wangxiangnan.cc/?p=105 缘起 双十一如期而至,此时的我因为在处理客户的一个问题已经陷入了忙碌.突然,不断接到驻场实施发来的反馈,都是相同的反馈--"客户端操作缓慢". 我现在负责的服务器是一台接口服务器,所有的卖家都要通过这台服务器连接到自己的数据库上,不得小觑.于是我立马放下手头的话,打开了我事先安装好的服务器监控软件(netdata),便看到了下面的警告: 其实,作为一个服务器端新手,我并不知道什么意思.…