随着越来越多的用户将生产系统迁移到 Azure 平台的虚拟机服务中,Azure 虚拟机的性能愈发被关注。传统的数据中心中,我们通常使用 CPU,内存,存储和网络的性能来衡量生产压力。特别是对于 IO 密集型工作负荷,比如虚拟机内部运行的 SQL 服务,存储系统的吞吐容量,往往成为生产系统的瓶颈所在。

Azure 提供了标准存储和高级存储两种存储服务。针对于生产环境中的 IO 密集型负荷,我们推荐使用高级存储。标准存储仅推荐在开发测试环境中使用。针对于具体的高级存储的介绍,以及虚拟机存储的最佳实践等信息,建议完成以下阅读:

然而在现实环境中,由于种种条件所限,很多用户暂时无法使用高级存储来达到最佳的存储性能。本文的目的在于帮助目前仍然使用标准存储的用户如何准确理解虚拟机的存储性能,从而在发生存储性能问题时快速有效的从支持部门得到帮助。

首先,由于虚拟机运行在 Azure 平台,我们需要了解 Azure 存储空间可伸缩性和性能目标

  • 单个标准存储帐户总请求率上限为 20,000 IOPS,所有虚拟机磁盘的 IOPS 总数不应超过此限制。
  • 标准层虚拟机的单个磁盘 IOPS 上限约为 500。
  • 单个标准存储帐户中用于生产应用的磁盘不应超过 40 个

其次,针对于虚拟机操作内部,不同的应用也有不同的磁盘系统优化方案。例如,对于 Windows 平台,我们通常使用 Storage Space 来尽可能分散 IO 请求到不同的硬件设备来提升存储带宽:

  • 使用虚拟机允许的最大磁盘数和最大磁盘容量构建存储空间
  • 使用合理的 interleave 避免 Split IO
  • 根据实际生产的单个 IO 数据大小规划文件系统簇的大小,例如 SQL 服务,建议使用 64K 的簇

在理解了存储系统的一些基本概念之后,下一步我们需要通过合理的方法衡量虚拟机的磁盘性能。

在 Windows 平台,用户常常选择通过文件管理器直接进行文件拷贝来观察磁盘性能。这种测试往往很容易进行。同时,在用户界面上也有图形化的吞吐量显示。然而,文件拷贝并不是一个测试存储性能的合理的方法:

  • 文件拷贝,特别是 Windows 图形界面的拷贝过程并没有针对磁盘系统本省进行优化。为了达到磁盘系统的最佳性能,我们需要在存储系统中积累足够的 IO 请求来促使磁盘始终处于一个忙碌状态。
  • 当我们使用 Windows 文件拷贝引擎拷贝大文件时,缺省情况下,系统会发起 8 个 1MB 的异步 IO 请求。而在进行小文件拷贝时,除非通过多线程拷贝的方式,否则很难在存储系统中产生足够的 IO 积压。
  • 多数的文件拷贝操作是顺序操作。通常只有在一个文件拷贝完成后,才会处理下一个文件。这种顺序化的处理会导致文件拷贝的性能远远低于实际存储系统的处理能力。
  • 为了加快文件处理,在进行文件拷贝时,Windows 会尝试使用内核的文件缓存机制进行 buffered IO 处理。这一方面无法正常反应物理存储的处理能力,同时也会收到操作系统的内存和 Cache 管理的影响。文件拷贝时,如果使用 Perfmon 等工具收集到的实际磁盘的压力数据,和图形中的拷贝速率曲线比较时,往往有较大的差异。
  • 文件拷贝是一个端对端的操作。任何一端的限制都会导致拷贝的速率受影响。因此,很难隔离瓶颈出现的具体位置。

为方便说明,我在中国东区的数据中心创建了一个服务器,具体的参数为:

  • 服务器大小: Standard_D4
  • 标准存储账户,该账户中仅存储该测试服务器的磁盘以排除干扰
  • 该服务器未运行任何生产业务。闲置时没有 CPU ,内存和磁盘 IO 的压力
  • 虚拟机加载的 D 盘为本地 SSD 磁盘。
  • 服务器加载 8 块 1TB 数据盘,使用其中 4 块创建存储池并建立 Simple 的虚拟磁盘。
  • 在此虚拟磁盘上创建两个简单卷,E 卷的簇大小为 4K,G 卷的簇为 64K
  • 另外使用一个简单磁盘创立 N 卷,簇大小为 4K。

为进行文件拷贝测试,我们创建了 3 种不同类型的数据文件:

  • 文件夹 MixFiles 中含有各种随机大小的文件
  • 文件夹 SingleFile 中含有一个 6GB 大小的文件
  • 文件夹 SmallFiles 中含有 200,000 个小文件,每个文件大小为 3KB

从下图中可以看到根据文件的类型不同,整个过程分为三个阶段,

  • 系统在处理随机大小文件时,拷贝的性能在 10MB/s 到 25MB/s 之间变化。
  • 处理单个大文件的拷贝,性能上升到 40MB/s 以上,但是即便是对单个文件,拷贝性能也不稳定。
  • 处理 200000 个 3KB 大小的小文件时,拷贝性能急剧下降到 500KB/s 左右。

    如果我们多次重复文件的拷贝过程,随着文件系统碎片状态的变化,服务器 Cache 的使用情况变化等等,同样的文件拷贝性能的差异性很大。

抛开用户界面上的性能指示,当我们使用 Perfmon 来具体分析单个磁盘的性能时,很明显,无论处理那种类型的文件拷贝,磁盘仍然未处于完全忙碌的状态。而磁盘的数据吞吐量和 IOPS 都处于不稳定状态

根据以上的分析和测试我们可以确定,使用文件拷贝的方式无法科学地衡量磁盘的性能。

在现实中,为了得到稳定的磁盘数据,通常建议使用 DiskSPD 或是 IOMeter 等工具。

这些工具大多数都是使用服务器的 CPU 资源产生多个工作线程,每个线程根据设定的 IO 读或写的比例,IO 请求的大小,顺序读写或随机读写等,产生大量的并发请求,直接作用于目标存储设备。

以同一个测试服务器为例,通过以下命令分别对于 D,E,F 和 N 卷进行 4K,8K,64K 大小的随机读写 IO 压力测试(80% 读操作,20% 写操作)

 
diskspd -c50G -d300 -F16 -w20 -r -b4k -o4 [X]:\DiskSpd.dat
diskspd -c50G -d300 -F16 -w20 -r -b8k -o4 [X]:\DiskSpd.dat
diskspd -c50G -d300 -F16 -w20 -r -b64k -o4 [X]:\DiskSpd.dat

由于篇幅所限,仅仅将 4K 大小的结果总结如下:

同时,根据测试时生成的 Perfmon 日志,我们可以清晰地看到单个磁盘在进行测试时基本上保持在完全忙碌的状态,并体现出一致的 IO 性能指标(第一个测试为 4K 读写,第二个为 8K 读写,第三个为 64K 读写,每个测试区间前者为 E 卷,后者为 G 卷)

  • 当 IO 为 4K 时,单个磁盘吞吐量(Disk Bytes/sec),D 卷和 G 卷在 2MB 左右,IOPS(Disk Transfer/sec)约为 480
  • 当 IO 为 8K 时,单个磁盘吞吐量(Disk Bytes/sec),D 卷在 3.4MB 左右,G 卷约为 4MB,IOPS(Disk Transfer/sec)约为 440
  • 当 IO 为 64K 时,单个磁盘吞吐量(Disk Bytes/sec),D 卷在 24MB 左右,G 卷约为 31MB,IOPS(Disk Transfer/sec)约为 450
  • 对于同一类测试,G 卷的性能要稍好于 E 卷。

需要指出的是,尽管 DiskSPD 和 IOMeter 等工具都可以模拟不同的类型的 IO 请求,但他们同真实的生产环境中的 IO 模型还是有一定区别的。如果可能,尽可能使用生产环境的真实 IO 来判断当前的存储系统是否满足需求。

  1. 如果用户环境中的虚拟机出现类似存储瓶颈的问题,建议您可以通过以下步骤快速排查:
  2. 通过 Perfmon 等性能监控工具收集生产环境下的服务器数据,包括内存,CPU,磁盘,网络等等方面。
  3. 暂停所有的生产压力,使用 DiskSPD 或 IOMeter 等工具进行单纯存储压力测试
  4. 使用 Microsoft Automated Troubleshooting Services,来快速自动排查虚拟机内部可能影响磁盘性能的问题
  5. 检查存储账户容量,虚拟大小等配置信息,避免由于并发 IO 或是容量配置导致的问题。

如果以上步骤没有发现明显问题,但是压力测试得到的磁盘数据比本文中的数据相差明显,建议您可以联系 Azure 支持部门,我们很愿意协助您快速定位问题。

立即访问http://market.azure.cn

理解及快速测定 Azure 虚拟机的磁盘性能的更多相关文章

  1. 【虚拟机-磁盘管理】理解及快速测定 Azure 虚拟机的磁盘性能

    随着越来越多的用户将生产系统迁移到 Azure 平台的虚拟机服务中,Azure 虚拟机的性能愈发被关注.传统的数据中心中,我们通常使用 CPU,内存,存储和网络的性能来衡量生产压力.特别是对于 IO ...

  2. [AWS vs Azure] 云计算里AWS和Azure的探究(5) ——EC2和Azure VM磁盘性能分析

    云计算里AWS和Azure的探究(5) ——EC2和Azure VM磁盘性能分析 在虚拟机创建完成之后,CPU和内存的配置等等基本上是一目了然的.如果不考虑显卡性能,一台机器最重要的性能瓶颈就是硬盘. ...

  3. Windows Azure Virtual Machine (29) 修改Azure VM 数据磁盘容量

    <Windows Azure Platform 系列文章目录> 当我们使用Windows Azure管理界面,创建Azure虚拟机的时候,默认挂载的磁盘是固定大小的 1.比如我创建1个Wi ...

  4. 如何对Azure磁盘性能进行测试

    Azure的云存储一直是Azure比较自豪的东西,想到AWS的LSA后面有若干个9,搞得大家都以为它的存储最优秀,其实不然,Azure存储到现在没有丢过客户1bit的数据,但是Azure不会去说我们的 ...

  5. Windows Azure Virtual Machine (38) 跨租户迁移使用托管磁盘的Azure虚拟机

    <Windows Azure Platform 系列文章目录> 背景介绍: (1)我们建议使用Azure Manage Disk托管磁盘来创建Azure虚拟机 (2)使用托管磁盘的好处是, ...

  6. 在 Windows Azure 虚拟机中如何备份和还原 Windows 系统磁盘

    备份和还原对于操作真实的系统来说至关重要.对于 Windows Azure 虚拟机环境中的 Windows Server,可以根据自身的需求选择多种不同的工具或将这些工具结合使用来实现备份.下面将对这 ...

  7. 使用mysqlslap对mysql进行压测,观察Azure虚拟机cpu使用率

    一直想做这个测试,原因很简单,很多人一直比较怀疑Azure的虚拟机性能,说相同的配置凭啥比阿里的虚拟机贵那么多,其实,我自己以前也怀疑过,但是接触Azure的几个月,确实发现Azure的虚拟机性能真的 ...

  8. 在 Azure 虚拟机中配置 Always On 可用性组(经典)

    在开始之前,请先假设现在可以在 Azure Resource Manager 模型中完成此任务. 我们建议使用 Azure Resource Manager 模型来进行新的部署. 请参阅 Azure ...

  9. 微软Azure虚拟机备份服务在中国发布

    近期,Azure虚拟机备份服务在微软智能云上发布. 相关功能阐述: Azure IaaS虚拟机备份服务针对Windows操作系统,提供了应用一致性的备份技术:同时针对Linux操作系统,提供了文件系统 ...

随机推荐

  1. ggplot你不知道的细节

    例一 Michaelis-Menten动力学方程 这个例子中采用出自文献中的一组有关于浮萍氮摄取的数据,共2两个变量8个观测值,其中底物浓度与浮萍的氮取速率之间可以通过M-M动力学方程来进行描述.在这 ...

  2. R语言学习笔记(四)

    6. 数据转换 本章主要讲述apply系列函数:apply.lapply.sapply.tapply.mapply,以及姊妹函数by.split.适用于批量处理数据,而不许循环. 6.1 向量分组 用 ...

  3. paraview显示指定时间段的时均图(两种方法)

    方法一: 首先计算以后会得到每个时刻的网格数据,如下图: 但是我们只想要比如最后2s的数据,如果直接导入,paraview会把从0s时刻的数据全部加载,做时均图的时候也就是对整个时间段做时均,不是我们 ...

  4. CSL 的字符串(思维+STL操作)

    链接:https://ac.nowcoder.com/acm/contest/551/D 来源:牛客网 时间限制:C/C++ 1秒,其他语言2秒 空间限制:C/C++ 524288K,其他语言1048 ...

  5. HDU 6321 (状压dp)

    题目大意:: 为给你n个点(n<=10,nn<=10,n) 初始时没有边相连 然后有m个操作(m<=30000m<=30000) 每次可以添加一条边或删除一条边 允许有重边 要 ...

  6. no git binary found in $path(已解决,但是还有疑问)

    跟同行研究个项目代码,他把代码打包发我后,我解压到本地,路径和我本地个人项目路径基本相同, 但是当执行npm install时,就报了 no git binary found in $path ,这个 ...

  7. 【Python】ACL限制结果检测

    最近帮客户做ACL的限制检测,也就是客户对一些站点做了acl限制,只有省内或内网可以访问,然后让我 去验证acl做的是否正确,简单写了个粗略的脚本,分享下,不足之处日后改进(如多线程等),脚本如下: ...

  8. [V1-Team] WEDO创意论坛技术规格说明书

    WEDO 创意论坛技术规格说明书 0x0 文档版本 版本号 说明 v1.0 初步确定技术路线 附Github仓库:WEDO 0x1 技术说明 1. 前端框架   在主流的前端框架中,我们调研了Vue. ...

  9. C语言中的输入方式

    在c语言中,有gets().scanf().getchar()等输入方式,但是不同的方式处理的方式不同. scanf()读取时遇见tab.space.enter时会结束读取,不会舍弃最后的回车符(即回 ...

  10. Python+Selenium之通过batch跑脚本

    例如在执行路径C:\Portal_Scripts\Scripts下的脚本CreateIndicativeBOP.py,可以在notepad里面编写如下: @echo off cd  C:\Portal ...