调整PG分多次调整和一次到位的迁移差别分析
前言
这个问题来源于我们研发的一个问题,在进行pg调整的时候,是一次调整到位好,还是分多次调整比较好,分多次调整的时候会不会出现某个pg反复挪动的问题,造成整体迁移量大于一次调整的
最近自己的项目上也有pg调整的需求,这个需求一般来源于pg规划好了,后期出现节点扩容的情况,需要对pg进行增加的调整
本篇用具体的数据来分析两种方式的差别
因为本篇的篇幅较长,直接先把结论拿出来
数据结论
调整pg | 迁移pg | 迁移对象 |
---|---|---|
1200->1440 | 460 | 27933 |
1440->1680 | 458 | 27730 |
1680->1920 | 465 | 27946 |
1920->2160 | 457 | 21141 |
2160->2400 | 458 | 13938 |
总和 | 2305 | 132696 |
调整pg | 迁移pg | 迁移对象 |
---|---|---|
1200->2400 | 2299 | 115361 |
结论:
分多次调整的时候,PG迁移量比一次调整多了6个,多了0.2%,对象的迁移量多了17335,多了15%
从数据上看pg迁移的数目基本一样,但是数据量是多了15%,这个是因为分多次迁移的时候,在pg基数比较小的时候,迁移一个pg里面的对象要比后期分裂以后的对象要多,就产生了这个数据量的差别
从整体上来看二者需要迁移的pg基本差不多,数据量上面会增加15%,分多次的时候是可以进行周期性调整的,拆分到不同的时间段来做,所以各有好处
实践
环境准备
本次测试采用的是开发环境,使用开发环境可以很快的部署一个需要的环境,本次分析采用的就是一台机器模拟的4台机器48个 4T osd的环境
环境搭建
生成集群
./vstart.sh -n --mon_num 1 --osd_num 48 --mds_num 1 --short -d
后续操作都在源码的src目录下面执行
设置存储池副本为2
修改crush weight 为3.7模拟4T盘
seq 0 47| xargs -i ./ceph -c ceph.conf osd crush reweight osd.{} 3.8
模拟主机分组
seq 0 11 |xargs -i ./ceph -c ceph.conf osd crush set osd.{} 3.8 host=lab8106 root=default
seq 12 23 |xargs -i ./ceph -c ceph.conf osd crush set osd.{} 3.8 host=lab8107 root=default
seq 24 35 |xargs -i ./ceph -c ceph.conf osd crush set osd.{} 3.8 host=lab8108 root=default
seq 36 47 |xargs -i ./ceph -c ceph.conf osd crush set osd.{} 3.8 host=lab8109 root=default
48个osd设置初始pg为1200,让每个osd上面差不多50个pg左右,做一下均衡操作,后续目标调整为pg为2400
准备120000个小文件准备put进去集群,使每个pg上面对象100个左右
./rados -c ceph.conf -p rbd bench -b 1K 600 write --no-cleanup
一次调整pg到2400
统计一次调整到位的情况下的数据迁移情况
./ceph -c ceph.conf osd pool set rbd pg_num 2400
记录当前的pg分布的情况
./ceph -c ceph.conf pg dump pgs|awk '{print $1,$2,$15,$17}' > pgmappg_1200_pgp_2400
调整存储池的pgp为2400
./ceph -c ceph.conf osd pool set rbd pgp_num 2400
等迁移完成以后,统计最终的pg分布情况
./ceph -c ceph.conf pg dump pgs|awk '{print $1,$2,$15,$17}' > pgmappg2400_pgp2400
这里说明一下,调整pg的时候只会触发pg的分裂,并不会影响集群的分布,也就是不会出现pg迁移的情况,调整pgp以后才会去改变pg的分布,所以本次数据分析统计的是pgp变动后的迁移的数据量,这个量才是集群的真正的迁移量
用比较的脚本来进行统计(脚本会在本文文末提供)
[root@lab8106 src]#python compair.py pgmappg_1200_pgp_2400 pgmappg2400_pgp2400
| pgs | objects |
-----------------
[2299, 115361]
也就是整个环境有2299次pg的变动,总共迁移的对象数目为115361个
分五次调整到2400PG
初始pg为1200个第一次调整,1200PG调整到1440PG
./ceph -c ceph.conf osd pool set rbd pg_num 1440
调整pg为1440,当前pgp为1200
记录当前的pg分布数据
./ceph -c ceph.conf pg dump pgs|awk '{print $1,$2,$15,$17}' > pgmappaira1
调整pgp为1440,当前pg为1440
记录当前的pg分布数据
./ceph -c ceph.conf pg dump pgs|awk '{print $1,$2,$15,$17}' > pgmappaira2
统计第一次调整后的迁移量
[root@lab8106 pgdata]# python compair.py pgmappaira1 pgmappaira2
| pgs | objects |
-----------------
[460, 27933]
第二次调整,1440PG调整到1680PG
./ceph -c ceph.conf osd pool set rbd pg_num 1680
调整pg为1680,当前pgp为1440
记录当前的pg分布数据
./ceph -c ceph.conf pg dump pgs|awk '{print $1,$2,$15,$17}' > pgmappairb1
调整pgp为1680,当前pg为1680
记录当前的pg分布数据
./ceph -c ceph.conf pg dump pgs|awk '{print $1,$2,$15,$17}' > pgmappairb2
统计第二次调整后的迁移量
[root@lab8106 pgdata]# python compair.py pgmappairb1 pgmappairb2
| pgs | objects |
-----------------
[458, 27730]
第三次调整,1680PG调整到1920PG
./ceph -c ceph.conf osd pool set rbd pg_num 1920
调整pg为1920,当前pgp为1680
记录当前的pg分布数据
./ceph -c ceph.conf pg dump pgs|awk '{print $1,$2,$15,$17}' > pgmappairc1
调整pgp为1920,当前pg为1920
记录当前的pg分布数据
./ceph -c ceph.conf pg dump pgs|awk '{print $1,$2,$15,$17}' > pgmappairc2
统计第三次调整后的迁移量
[root@lab8106 pgdata]# python compair.py pgmappairc1 pgmappairc2
| pgs | objects |
-----------------
[465, 27946]
第四次调整,1920PG调整到2160PG
./ceph -c ceph.conf osd pool set rbd pg_num 2160
调整pg为2160,当前pgp为1920
记录当前的pg分布数据
./ceph -c ceph.conf pg dump pgs|awk '{print $1,$2,$15,$17}' > pgmappaird1
调整pgp为2160,当前pg为2160
记录当前的pg分布数据
./ceph -c ceph.conf pg dump pgs|awk '{print $1,$2,$15,$17}' > pgmappaird2
统计第四次调整后的迁移量
[root@lab8106 pgdata]# python compair.py pgmappaird1 pgmappaird2
| pgs | objects |
-----------------
[457, 21141]
第五次调整,2160PG调整到2400PG
./ceph -c ceph.conf osd pool set rbd pg_num 2400
调整pg为2400,当前pgp为2160
记录当前的pg分布数据
./ceph -c ceph.conf pg dump pgs|awk '{print $1,$2,$15,$17}' > pgmappaire1
调整pgp为2400,当前pg为2400
记录当前的pg分布数据
./ceph -c ceph.conf pg dump pgs|awk '{print $1,$2,$15,$17}' > pgmappaire2
统计第五次调整后的迁移量
[root@lab8106 pgdata]# python compair.py pgmappaire1 pgmappaire2
| pgs | objects |
-----------------
[458, 13938]
上面五次加起来的总量为
2305 PGS 132696 objects
统计的脚本
#!/usr/bin/env python
# -*- coding: utf-8 -*-
__author__ ="zp"
import os,sys
class filetojson(object):
def __init__(self,orin,new):
self.origin=orin
self.new=new
def tojson(self,filename):
data={}
pginfo={}
for line in open(filename):
if "pg_stat" in line:
continue
lines=line.split()
pg=lines[0]
objects=lines[1]
withosd=lines[2]
data[pg]={'objects':objects,'osd':list(eval(withosd))}
return data
def compare(self):
movepg=0
allmovepg=0
allmoveobject=0
moveobject=0
oringinmap=self.tojson(self.origin)
newmap=self.tojson(self.new)
for key in oringinmap:
amapn=set(oringinmap[key]['osd'])
bmapn=set(newmap[key]['osd'])
movepg=len(list(amapn.difference(bmapn)))
if movepg != 0:
moveobject=int(oringinmap[key]['objects']) * int(movepg)
allmovepg=allmovepg+movepg
allmoveobject=allmoveobject+moveobject
return [allmovepg,allmoveobject]
mycom=filetojson(sys.argv[1],sys.argv[2])
print "| pgs | objects |"
print "-----------------"
print mycom.compare()
总结
本篇是对集群进行pg调整的这个场景下迁移的数据进行分析的,对于一个集群来说,还是要用数据来进行问题的说明会比较有说服力,凭感觉还是没有那么强的说服力,本篇因为环境所限,所以在模拟的时候采用的是单个pg100个对象的样本,如果需要更精确的数据可以采用多次测试,并且加大这个单个pg的对象数目
变更记录
Why | Who | When |
---|---|---|
创建 | 武汉-运维-磨渣 | 2017-06-14 |
调整PG分多次调整和一次到位的迁移差别分析的更多相关文章
- ceph PG数量调整/PG的状态说明
优化: PG Number PG和PGP数量一定要根据OSD的数量进行调整,计算公式如下,但是最后算出的结果一定要接近或者等于一个2的指数.调整PGP不会引起PG内的对象的分裂,但是会引起PG的分布的 ...
- k3 cloud成本调整单提示期末余额不存在调整单分录的维度,请先出库核算确认是否存在核算维度的数据
成本调整单提示期末余额不存在调整单分录的维度,请先出库核算确认是否存在核算维度的数据,如下图所示: 解决办法:先做出库核算,然后做成本调整单,再做出库核算(出库成本核算)
- CFormView动态调整对话框的尺寸和调整比例控制的部署
基于单个文件CFormView动态调整对话框的尺寸和调整比例控制的部署 假设你正在开发一个程序基于单个文件,使用CFormView基类来实现多种形式展示,那么,这个文件可能会给你一点帮助. 一.实现对 ...
- #调整随机森林的参数(调整n_estimators随机森林中树的数量默认10个树,精度递增显著,但并不是越多越好),加上verbose=True,显示进程使用信息
#调整随机森林的参数(调整n_estimators随机森林中树的数量默认10个树,精度递增显著) from sklearn import datasets X, y = datasets.make_c ...
- #调整随机森林的参数(调整max_features,结果未见明显差异)
#调整随机森林的参数(调整max_features,结果未见明显差异) from sklearn import datasets X, y = datasets.make_classification ...
- 调整 全局jvm 大小 tomcat 调整jvm大小
z最近公司换了一个线上的windows服务器,原来的内存48g,现在2g.项目启动报内存不足.又重新安装jre 安装jre 教程链接:(谢谢各位博友) https://www.genban.org/t ...
- rem布局,在用户调整手机字体大小/用户调整浏览器字体大小后,布局错乱问题
一.用户调整浏览器字体大小,影响的是从浏览器打开的web页. 浏览器设置字体大小,影响浏览器打开的页面.通过js可控制用户修改字体大小,使页面不受影响. (function(doc, win) { / ...
- 微服务、分库分表、分布式事务管理、APM链路跟踪性能分析演示项目
好多年没发博,最近有时间整理些东西,分享给大家. 所有内容都在github项目liuzhibin-cn/my-demo中,基于SpringBoot,演示Dubbo微服务 + Mycat, Shardi ...
- Crush 算法以及PG和PGP调整经验
PG和PGP调整经验调整前准备为了降低对业务的影响,需要调整以下参数ceph tell osd.* injectargs ‘–osd-max-backfills 1’ceph tell osd.* i ...
随机推荐
- 互不侵犯(洛谷P1896)
题目:在N*N的棋盘里面放k个国王,使他们互不攻击,共有多少种摆放方案.国王能攻击到它上下左右,以及左上左下右上右下八个方向上附近的各一个格子,共8个格子. 输入输出:输入N,K,输出有几种放置方法. ...
- BUUCTF-[极客大挑战 2019]HardSQL 1详解
来到sql注入骚姿势,我们一点一点开始学 我们来到这道题,然后尝试注入,结果发现 拼接'or '1'='1 'or '1'='2如果是字符型注入则会报错,然而并没有而是显示的页面一样, 通过常规注入, ...
- go 下载图片
package main import ( "net/http" "fmt" "io/ioutil" "strings" ...
- 【Azure Redis 缓存 Azure Cache For Redis】在创建高级层Redis(P1)集成虚拟网络(VNET)后,如何测试VNET中资源如何成功访问及配置白名单的效果
当使用Azure Redis高级版时候,为了能更好的保护Redis的安全,启用了虚拟网路,把Redis集成在Azure中的虚拟网络,只能通过虚拟网络VENT中的资源进行访问,而公网是不可以访问的.但是 ...
- MySQL 主从复制原理不再难
上篇我们分析过 Binlog 日志的作用以及存储原理,感兴趣的可以翻阅: 一文带你了解 Binlog 日志 Binlog 日志主要作用是数据恢复和主从复制.本身就是二进制格式的日志文件,网络传输无需进 ...
- 解决Mac下AndroidStudio内容时卡顿
Mac下AndroidStudio在写代码的时候出现卡顿,小圆圈会一直转,此时我们应该检查下AndroidStudio的内存使用情况了. 1.点击左上角 AndroidStudio -- Prefer ...
- ORACL-重做日志详解
作用:oracle重做日志主要目的是数据恢复及数据修改效率提升 前言:oracle重做日志主相关视图: 1.v$log记录当前数据库重做日志组 2.v$logfie记录当前数据库重做日志组状态.类型等 ...
- ASP.NET CORE 开发微信公众号(一、测试号管理)
一.注册账号 百度微信公众平台,点击进入. 二.公众平台测试账号 点击进入平台后居然是小程序,我也很费解.以前是找到开发->开发者工具->公众平台测试账号,现在毛都没有了. 不过可以点击这 ...
- react-native 签名
完成项目时,我们需要将项目打包成一个apk,方便测试以及发布版本. 这时,需要把js代码和图片资源都放进apk中, 并且发布版本还需要签名,今天把这一系列操作记录下来. 一.生成离线bundle包 离 ...
- 通过Python提取10000份log中的产品数据
一.背景 协助产品部门在10000份产品log信息中提取产品的SN号.IMEI号.ICCID号到Excel表格中. 1.l原始的og内容: 2.提取后的Excel表格: 二.实现 1.思路 a.for ...