随着越来越多的用户将生产系统迁移到 Azure 平台的虚拟机服务中,Azure 虚拟机的性能愈发被关注。传统的数据中心中,我们通常使用 CPU,内存,存储和网络的性能来衡量生产压力。特别是对于 IO 密集型工作负荷,比如虚拟机内部运行的 SQL 服务,存储系统的吞吐容量,往往成为生产系统的瓶颈所在。

Azure 提供了标准存储和高级存储两种存储服务。针对于生产环境中的 IO 密集型负荷,我们推荐使用高级存储。标准存储仅推荐在开发测试环境中使用。针对于具体的高级存储的介绍,以及虚拟机存储的最佳实践等信息,建议完成以下阅读:

然而在现实环境中,由于种种条件所限,很多用户暂时无法使用高级存储来达到最佳的存储性能。本文的目的在于帮助目前仍然使用标准存储的用户如何准确理解虚拟机的存储性能,从而在发生存储性能问题时快速有效的从支持部门得到帮助。

首先,由于虚拟机运行在 Azure 平台,我们需要了解 Azure 存储空间可伸缩性和性能目标

  • 单个标准存储帐户总请求率上限为 20,000 IOPS,所有虚拟机磁盘的 IOPS 总数不应超过此限制。
  • 标准层虚拟机的单个磁盘 IOPS 上限约为 500。
  • 单个标准存储帐户中用于生产应用的磁盘不应超过 40 个

其次,针对于虚拟机操作内部,不同的应用也有不同的磁盘系统优化方案。例如,对于 Windows 平台,我们通常使用 Storage Space 来尽可能分散 IO 请求到不同的硬件设备来提升存储带宽:

  • 使用虚拟机允许的最大磁盘数和最大磁盘容量构建存储空间
  • 使用合理的 interleave 避免 Split IO
  • 根据实际生产的单个 IO 数据大小规划文件系统簇的大小,例如 SQL 服务,建议使用 64K 的簇

在理解了存储系统的一些基本概念之后,下一步我们需要通过合理的方法衡量虚拟机的磁盘性能。

在 Windows 平台,用户常常选择通过文件管理器直接进行文件拷贝来观察磁盘性能。这种测试往往很容易进行。同时,在用户界面上也有图形化的吞吐量显示。然而,文件拷贝并不是一个测试存储性能的合理的方法:

  • 文件拷贝,特别是 Windows 图形界面的拷贝过程并没有针对磁盘系统本省进行优化。为了达到磁盘系统的最佳性能,我们需要在存储系统中积累足够的 IO 请求来促使磁盘始终处于一个忙碌状态。
  • 当我们使用 Windows 文件拷贝引擎拷贝大文件时,缺省情况下,系统会发起 8 个 1MB 的异步 IO 请求。而在进行小文件拷贝时,除非通过多线程拷贝的方式,否则很难在存储系统中产生足够的 IO 积压。
  • 多数的文件拷贝操作是顺序操作。通常只有在一个文件拷贝完成后,才会处理下一个文件。这种顺序化的处理会导致文件拷贝的性能远远低于实际存储系统的处理能力。
  • 为了加快文件处理,在进行文件拷贝时,Windows 会尝试使用内核的文件缓存机制进行 buffered IO 处理。这一方面无法正常反应物理存储的处理能力,同时也会收到操作系统的内存和 Cache 管理的影响。文件拷贝时,如果使用 Perfmon 等工具收集到的实际磁盘的压力数据,和图形中的拷贝速率曲线比较时,往往有较大的差异。
  • 文件拷贝是一个端对端的操作。任何一端的限制都会导致拷贝的速率受影响。因此,很难隔离瓶颈出现的具体位置。

为方便说明,我在中国东区的数据中心创建了一个服务器,具体的参数为:

  • 服务器大小: Standard_D4
  • 标准存储账户,该账户中仅存储该测试服务器的磁盘以排除干扰
  • 该服务器未运行任何生产业务。闲置时没有 CPU ,内存和磁盘 IO 的压力
  • 虚拟机加载的 D 盘为本地 SSD 磁盘。
  • 服务器加载 8 块 1TB 数据盘,使用其中 4 块创建存储池并建立 Simple 的虚拟磁盘。
  • 在此虚拟磁盘上创建两个简单卷,E 卷的簇大小为 4K,G 卷的簇为 64K
  • 另外使用一个简单磁盘创立 N 卷,簇大小为 4K。

为进行文件拷贝测试,我们创建了 3 种不同类型的数据文件:

  • 文件夹 MixFiles 中含有各种随机大小的文件
  • 文件夹 SingleFile 中含有一个 6GB 大小的文件
  • 文件夹 SmallFiles 中含有 200,000 个小文件,每个文件大小为 3KB

从下图中可以看到根据文件的类型不同,整个过程分为三个阶段,

  • 系统在处理随机大小文件时,拷贝的性能在 10MB/s 到 25MB/s 之间变化。
  • 处理单个大文件的拷贝,性能上升到 40MB/s 以上,但是即便是对单个文件,拷贝性能也不稳定。
  • 处理 200000 个 3KB 大小的小文件时,拷贝性能急剧下降到 500KB/s 左右。

    如果我们多次重复文件的拷贝过程,随着文件系统碎片状态的变化,服务器 Cache 的使用情况变化等等,同样的文件拷贝性能的差异性很大。

抛开用户界面上的性能指示,当我们使用 Perfmon 来具体分析单个磁盘的性能时,很明显,无论处理那种类型的文件拷贝,磁盘仍然未处于完全忙碌的状态。而磁盘的数据吞吐量和 IOPS 都处于不稳定状态

根据以上的分析和测试我们可以确定,使用文件拷贝的方式无法科学地衡量磁盘的性能。

在现实中,为了得到稳定的磁盘数据,通常建议使用 DiskSPD 或是 IOMeter 等工具。

这些工具大多数都是使用服务器的 CPU 资源产生多个工作线程,每个线程根据设定的 IO 读或写的比例,IO 请求的大小,顺序读写或随机读写等,产生大量的并发请求,直接作用于目标存储设备。

以同一个测试服务器为例,通过以下命令分别对于 D,E,F 和 N 卷进行 4K,8K,64K 大小的随机读写 IO 压力测试(80% 读操作,20% 写操作)

 
diskspd -c50G -d300 -F16 -w20 -r -b4k -o4 [X]:\DiskSpd.dat
diskspd -c50G -d300 -F16 -w20 -r -b8k -o4 [X]:\DiskSpd.dat
diskspd -c50G -d300 -F16 -w20 -r -b64k -o4 [X]:\DiskSpd.dat

由于篇幅所限,仅仅将 4K 大小的结果总结如下:

同时,根据测试时生成的 Perfmon 日志,我们可以清晰地看到单个磁盘在进行测试时基本上保持在完全忙碌的状态,并体现出一致的 IO 性能指标(第一个测试为 4K 读写,第二个为 8K 读写,第三个为 64K 读写,每个测试区间前者为 E 卷,后者为 G 卷)

  • 当 IO 为 4K 时,单个磁盘吞吐量(Disk Bytes/sec),D 卷和 G 卷在 2MB 左右,IOPS(Disk Transfer/sec)约为 480
  • 当 IO 为 8K 时,单个磁盘吞吐量(Disk Bytes/sec),D 卷在 3.4MB 左右,G 卷约为 4MB,IOPS(Disk Transfer/sec)约为 440
  • 当 IO 为 64K 时,单个磁盘吞吐量(Disk Bytes/sec),D 卷在 24MB 左右,G 卷约为 31MB,IOPS(Disk Transfer/sec)约为 450
  • 对于同一类测试,G 卷的性能要稍好于 E 卷。

需要指出的是,尽管 DiskSPD 和 IOMeter 等工具都可以模拟不同的类型的 IO 请求,但他们同真实的生产环境中的 IO 模型还是有一定区别的。如果可能,尽可能使用生产环境的真实 IO 来判断当前的存储系统是否满足需求。

  1. 如果用户环境中的虚拟机出现类似存储瓶颈的问题,建议您可以通过以下步骤快速排查:
  2. 通过 Perfmon 等性能监控工具收集生产环境下的服务器数据,包括内存,CPU,磁盘,网络等等方面。
  3. 暂停所有的生产压力,使用 DiskSPD 或 IOMeter 等工具进行单纯存储压力测试
  4. 使用 Microsoft Automated Troubleshooting Services,来快速自动排查虚拟机内部可能影响磁盘性能的问题
  5. 检查存储账户容量,虚拟大小等配置信息,避免由于并发 IO 或是容量配置导致的问题。

如果以上步骤没有发现明显问题,但是压力测试得到的磁盘数据比本文中的数据相差明显,建议您可以联系 Azure 支持部门,我们很愿意协助您快速定位问题。

立即访问http://market.azure.cn

理解及快速测定 Azure 虚拟机的磁盘性能的更多相关文章

  1. 【虚拟机-磁盘管理】理解及快速测定 Azure 虚拟机的磁盘性能

    随着越来越多的用户将生产系统迁移到 Azure 平台的虚拟机服务中,Azure 虚拟机的性能愈发被关注.传统的数据中心中,我们通常使用 CPU,内存,存储和网络的性能来衡量生产压力.特别是对于 IO ...

  2. [AWS vs Azure] 云计算里AWS和Azure的探究(5) ——EC2和Azure VM磁盘性能分析

    云计算里AWS和Azure的探究(5) ——EC2和Azure VM磁盘性能分析 在虚拟机创建完成之后,CPU和内存的配置等等基本上是一目了然的.如果不考虑显卡性能,一台机器最重要的性能瓶颈就是硬盘. ...

  3. Windows Azure Virtual Machine (29) 修改Azure VM 数据磁盘容量

    <Windows Azure Platform 系列文章目录> 当我们使用Windows Azure管理界面,创建Azure虚拟机的时候,默认挂载的磁盘是固定大小的 1.比如我创建1个Wi ...

  4. 如何对Azure磁盘性能进行测试

    Azure的云存储一直是Azure比较自豪的东西,想到AWS的LSA后面有若干个9,搞得大家都以为它的存储最优秀,其实不然,Azure存储到现在没有丢过客户1bit的数据,但是Azure不会去说我们的 ...

  5. Windows Azure Virtual Machine (38) 跨租户迁移使用托管磁盘的Azure虚拟机

    <Windows Azure Platform 系列文章目录> 背景介绍: (1)我们建议使用Azure Manage Disk托管磁盘来创建Azure虚拟机 (2)使用托管磁盘的好处是, ...

  6. 在 Windows Azure 虚拟机中如何备份和还原 Windows 系统磁盘

    备份和还原对于操作真实的系统来说至关重要.对于 Windows Azure 虚拟机环境中的 Windows Server,可以根据自身的需求选择多种不同的工具或将这些工具结合使用来实现备份.下面将对这 ...

  7. 使用mysqlslap对mysql进行压测,观察Azure虚拟机cpu使用率

    一直想做这个测试,原因很简单,很多人一直比较怀疑Azure的虚拟机性能,说相同的配置凭啥比阿里的虚拟机贵那么多,其实,我自己以前也怀疑过,但是接触Azure的几个月,确实发现Azure的虚拟机性能真的 ...

  8. 在 Azure 虚拟机中配置 Always On 可用性组(经典)

    在开始之前,请先假设现在可以在 Azure Resource Manager 模型中完成此任务. 我们建议使用 Azure Resource Manager 模型来进行新的部署. 请参阅 Azure ...

  9. 微软Azure虚拟机备份服务在中国发布

    近期,Azure虚拟机备份服务在微软智能云上发布. 相关功能阐述: Azure IaaS虚拟机备份服务针对Windows操作系统,提供了应用一致性的备份技术:同时针对Linux操作系统,提供了文件系统 ...

随机推荐

  1. SQL 随手记

    SQL 学习片段: 建立一个简单的联系数据表, mobile_number char(11).mobile_province nvarchar(50).mobile_area nvarchar(200 ...

  2. POJ_1019 Number Sequence 【递推】

    题目: A single positive integer i is given. Write a program to find the digit located in the position ...

  3. UESTC - 1610 递推方程+矩阵快速幂

    感觉像是HDU Keyboard的加强版,先推出3张牌时的所有组合,然后递推出n张牌 看到n=1e18时吓尿了 最后24那里还是推错了.. (5行1列 dp[1][n],dp[2][n],dp[3][ ...

  4. asp.net mvc 静态化

    静态化的基本理解就是,常用的资源以文本形式保存,客户端访问时无需经过程序处理,直接下载 但是不存在的文件需要经过程序处理,文件内容如果需要有更动或删除,则直接删除文件本身 1.IIS Express ...

  5. 1085 PAT单位排行 (25 分

    每次 PAT 考试结束后,考试中心都会发布一个考生单位排行榜.本题就请你实现这个功能. 输入格式: 输入第一行给出一个正整数 N(≤),即考生人数.随后 N 行,每行按下列格式给出一个考生的信息: 准 ...

  6. python 可迭代对象,迭代器和生成器,lambda表达式

    分页查找 #5.随意写一个20行以上的文件(divmod) # 运行程序,先将内容读到内存中,用列表存储. # l = [] # 提示:一共有多少页 # 接收用户输入页码,每页5条,仅输出当页的内容 ...

  7. java se系列(三) 顺序语句、if...else、switch、While、do-while、for、break、continue

    1 顺序语句 语句:使用分号分隔的代码称作为一个语句. 注意:没有写任何代码只是一个分号的时候,也是一条语句,称作空语句. 顺序语句就是按照从上往下的顺序执行的语句. 2 判断(if…else) 什么 ...

  8. C语言两种方式实现矩阵的转置

    #include"stdio.h" typedef struct{ int i,j; int v; }Triple; typedef struct{ Triple date[]; ...

  9. oracle执行update语句卡住不动

    一.问题探究 开发的时候debug到一条update的sql语句时程序就不动了,然后我就在plsql上试了一下,发现plsql一直在显示正在执行,等了好久也不出结果.但是奇怪的是执行其他的select ...

  10. 学习javscript函数笔记(二)

    定义: 函数包含一组语句,他们是JavaScript的基础模块单元,用于代码复用.信息隐藏和组合调用.函数用于指定对象的行为. 1.函数对象 JavaScript中的函数就是对象,函数对象连接到Fun ...