ceph在增加osd的时候会触发backfill,让数据得到平均,触发数据的迁移

ceph在移除osd的时候需要在节点上进行数据的恢复,也有数据的迁移和生成

只要是集群里面有数据的变动就会有网卡流量,cpu,内存等资源的占用,并且最重要的是还有磁盘的占用,这个客户端也是需要对磁盘进行访问的,当请求出现碰撞的时候,肯定会比正常的情况下要慢很多,而且还有可能因为资源方面的原因而引起机器down机等异常状况的出现

主要引起的问题可能:

  • 在peering的时候 block 了IO请求
  • 在backfill的引起了slow requests
  • 上面的两个情况会引起客户端的降速和出现soft lockup

这个在一般情况下会出现不同的需求:

  1. 慢点可以一定不能出问题,不能中断业务
  2. 越快迁移完越好,早点结束维护服务
  3. 需要又快又不能影响业务

这个需要根据自己可以掌控的程度来进行控制,首先环境的不同,影响不同,迁移数据量,网卡的带宽都是重要的影响因素,从整体上可以根据自己的环境按照上面的三个要求中的一个进行控制

上面的三种情况:

第一个慢点迁移不能出问题,这个处理方式比较简单,直接将相关参数控制到最低的值,这个能保证业务的影响最低,但是带来的影响就是迁移需要很久的时间,可能长达几十个小时

第二个越快越好就是用默认的参数或者加大参数,然后观察这个迁移过程中的资源的占用情况

第三个就是需要在自己的环境下进行多测试验证这个参数,本篇主要就是根据思科的测试出来的参数进行分析

下面的参数是思科测试出来的值:

osd recovery max active = 3 (default : 15)


osd recovery op priority = 3 (default : 10)


osd max backfills = 1 (default : 10)

测试过程的数据图

这个图开始的时候我也没太明白,后来多看下就理解了,实际上在很多情况下,一个因素的变化是会引起其他两个因素的变化,而这两个因素是一个正面的因素和一个负面的因素,而找到这个平衡值就是最优的情况,在这里的因素包括:

  • max-backfill和max-recovery :迁移相关参数
  • MTTR(mean time to recovery):失效恢复时间,也就是迁移完成
  • Soft Lockup:前面虚拟机出现的soft lockup,也可以理解为对前端的影响

测试环境一致,都是 down 掉10%的osd进行恢复:

在迁移参数最低的时候,没有出现soft lockup ,也就是最低迁移参数的时候,影响最小,恢复使用了45分钟

随着迁移相关参数调大的时候,迁移的时间的曲线是先降低,在到达一定的值后又开始增加(这个地方可能是迁移过大出现了前端io锁住,然后影响了迁移速度)

随着迁移相关参数的调大,出现soft lockup的情况是增加的

从测试的曲线来看,在2-6之间是出现的最优值,也就是出现异常的情况概率最低,并且迁移速度最快,最终选择了一组最优的值 :

osd recovery max active = 3 (default : 15)


osd recovery op priority = 3 (default : 10)


osd max backfills = 1 (default : 10)

这个值是思科的测试出来的值,这个值可以根据自己的需要进行取用,大概的情况是这样

  • 完全无法把控就把参数调整到最低
  • 使用思科的推荐值
  • 根据自己的环境测出自己环境的最优值

很多参数是别人根据自己的环境测试出来的,很多情况并不是通用的,得到别人测试的思路是最重要的,然后消化后自己根据自己的需要得出自己的值

说点自己最近的感想

根据自己的观察和自己的经验,所有的知识都是需要自己主动去获取主动的去消化,然后去实践的,在任何地方没有说通过传授知识,你就能学会了,公司的程序员的技术也是自己主动的去学习的,所谓的经验也只能是告诉你一些方法,而且你也没办法要求任何人与你一样的努力,一样的对你所做的东西感兴趣,认同你的观点,很多时候需要的是技术的碰撞,在一家公司需要的是员工能够完成你的事情,所以我们要尊重努力的员工,这类员工非常努力,但是可能无法达到你的要求,这个需要鼓励,还有一种是效率非常高的员工,这类员工能够轻松的完成任何事情,这类员工可以给与充分的自由,最终以时间以及结果双向评估员工对公司的贡献

最近tinyfool老师在进行ios开发的一个分享的时候,一堆想获取的干活的人去听,而tinyfool老师在这个分享会上通知了自己公司破产解散的事情,宣告再次的失败,而一些来想获取干货的人却开喷了,说没有获取到任何干货,这些人想获取的干货就是拿来直接干的货,而tinyfool老师分享的经验,包括在最后宣告解散的时候准备开源自己的东西,极力的推荐自己的员工是多么的优秀,还有其他的一些东西,这些其实都是干货,引用高春辉老师对这件事的看法的一段话:

很多人可能相比之下,觉得代码语言这些硬技能最重要。其实我和我周边的朋友基本都认为,软技能才最重要,其实人的智商都差不多,再笨也不会笨很多,但如何待人接物,如何对待同事和朋友,如何高效利用时间,内心对成功的渴望,还有是否有责任心和荣誉感还有成就感这些,包括个人兴趣以及性格,这些是很难在进入社会之后再改变的了,除非有重大事情发生,否则很难很难改变。所以多数情况下,十年后的你的境遇,其实是十年前就已经决定的了 --高春辉

任何公司任何员工都不可能十全十美,其实有时候换位思考一下,站在企业角度想一下,公司需要什么样的员工,站在员工的角度想一下,想要公司怎么的为自己保证最大利益,如果能够做到相互的价值观一致,就能处于一个和谐的状态了

backfill和recovery的最优值的更多相关文章

  1. ceph network introduce

    网络结构 Ceph 使用以太网连接内部各存储节点以及连接 client 和集群.Ceph 推荐使用两个网络: 前端(北向)网络( a public (front-side) network):连接客户 ...

  2. Ceph源码解析:概念

    Peering:一个PG内的所有副本通过PG日志来达成数据一致的过程.(某PG如果处于Peering将不能对外提供读写服务) Recovery:根据Peering的过程中产生的.依据PG日志推算出的不 ...

  3. BlueStore-先进的用户态文件系统《一》

    https://zhuanlan.zhihu.com/p/45084771 分布式存储系统通过将数据分散到多台机器上来充分利用多台机器的资源提高系统的存储能力,每台机器上的数据存放都需要本地的单机存储 ...

  4. 分布式存储Ceph之PG状态详解

    https://www.jianshu.com/p/36c2d5682d87 1. PG介绍 继上次分享的<Ceph介绍及原理架构分享>,这次主要来分享Ceph中的PG各种状态详解,PG是 ...

  5. CEPH-5:ceph集群基本概念与管理

    ceph集群基本概念与管理 ceph集群基本概念 ceph集群整体结构图 名称 作用 osd 全称Object Storage Device,主要功能是存储数据.复制数据.平衡数据.恢复数据等.每个O ...

  6. 记录一次ceph recovery经历

    一次ceph recovery经历 背景 这是一个測试环境. 该环境中是cephfs 一共12个节点, 2个client.2个mds.8个osd mds: 2颗CPU,每一个4核.一共是8核. 128 ...

  7. POJ 2255. Tree Recovery

    Tree Recovery Time Limit: 1000MS   Memory Limit: 65536K Total Submissions: 11939   Accepted: 7493 De ...

  8. Android手机刷recovery

    以前觉得android刷机是件很麻烦的事,现在倒不觉得了.  只要手机刷入第三方的recovery,一切都好办了,无论是root还是刷google play.  recovery开源的有两大阵营,tw ...

  9. Change the Target Recovery Time of a Database (SQL Server) 间接-checkpoints flushcache flushcache-message

    Change the Target Recovery Time of a Database (SQL Server) 间接checkpoints   flushcache flushcache-mes ...

随机推荐

  1. DFS深度优先搜索算法

    Lake Counting(POJ No.2386) 有一个大小为N*M的园子,雨后积起了水.八连通的积水被认为是在一起的.请求出园子里共有多少个水洼?(八连通是指下图中相对w的*部分) * * * ...

  2. 【暑假集训】HZOI2019 水站 多种解法

    题目内容 已知有一个\(n\)层的水站: \(W_i\)表示未操作之前第\(i\)层的已有水量: \(L_i\)表示第\(i\)个水站能够维持或者储存的水的重量: 表示在第\(P_i\)层进行减压放水 ...

  3. CTSC2010

    星际旅行 https://www.luogu.com.cn/problem/P4189 题目:且每个星球的\(H_i\)大于等于与该星球直接相连的星球数(即度数). 想到先从根到所有点都走一遍,然后贪 ...

  4. git merge 与 git rebase的区别?

    一,git merge 与 git rebase的区别 1,git merge 例如: master分支合并dev分支,git将两个分支dev和master上的所有commit , 按照提交时间的先后 ...

  5. c++ 获取文件创建时间、修改时间、访问时间、文件内容长度

    int GetFileInfo(string& strPath, int& iCreateTime, int& iModifyTime, int& iAccessTim ...

  6. 为C量身定制的Matrix库

    Matrix库的诞生让矩阵操作在C中也可以玩的很溜! 项目地址:https://github.com/SJ2050SJ/Matrix 文章目录 Matrix的设计框架 Matrix的上手简历 Matr ...

  7. 第1天|12天搞定Python网络爬虫,吃里爬外?

    人力资源部漂亮的小MM,跑来问我:老陈,数据分析和爬虫究竟是关系呀?说实在的,我真不想理她,因为我一直认为这个跟她的工作关系不大,可一想到她负责我负责部门的招聘工作,我只好勉为其难地跟她说:数据分析, ...

  8. NB-IoT的同步信号解析

    NB-IoT的小区搜索和LTE的小区搜索是类似的,每个UE都是通过对同步信号的检测,来实现与小区时间和频率上的同步,以此来获取小区的ID.NB-IoT的同步信号包括NPSS和NSSS. NPSS用于完 ...

  9. numpy的统计分析

    一.排序 间接排序(argsort,lexsort) 根据一个或多个数据集进行排序 1.Sort() --对数值直接进行排序 a.一维排序 b.二维排序 c.axis的认知 2.argsort() - ...

  10. rabbitmq(一)-基础入门

    原文地址:https://www.jianshu.com/p/e186a7fce8cc 在学东西之前,我们先有一个方法论,知道如何学习.学习一个东西一般都遵循以下几个环节: xxx是什么,诞生的原因, ...