简介:SLS团队联合EBS团队发布了EBS Lens,针对块存储提供数据分析、资源监控的功能,可以帮助用户获取云上块存储资源信息与性能监控数据、提升云上块存储资源的管理效率、高效分析业务波动与资源性能消耗情况。

EBS监控现状

块存储是阿里云为云服务器ECS提供的块设备产品,具有高性能和低时延的特点。临近双十一,在大促的时候,磁盘IO往往是运维的重点,如果磁盘被打爆了,那么关键的业务可能会停滞甚至崩溃。EBS监控目前存在几个问题

  1. 块存储提供的原生监控仅限制在单实例级别,只能查看单个云盘的性能监控,缺少对全局云盘状态的监控,如果云盘数量很多,那么云盘状态的监控就非常麻烦

  1. 通过SLS Logtail, Telegraf或者云监控agent等,可以实现对单个ECS实例所有云盘的状态的监控。但是这些监控方式都是侵入式的,agent的安装、监控大盘的维护、云盘实例监控精细化控制、以及跨ECS实例的监控,对于用户来说,都有很大的学习成本和代价
  2. 分析维度单一,以上场景下,对云盘的监控和分析还是基于云盘id的,而云盘资产本身的属性也包含很多信息。比如用户想看到一个自己所有云盘资产的大图、各个地域的云盘分布、各个云盘类型的比例等信息,都是很难做到的。

正是考虑到用户对EBS监控的使用有如上的痛点,SLS团队联合EBS团队发布了EBS Lens(Lens, 透镜的意思,取名为Lens意味着洞察云产品细微的变化),针对块存储提供数据分析、资源监控的功能,可以帮助用户获取云上块存储资源信息与性能监控数据、提升云上块存储资源的管理效率、高效分析业务波动与资源性能消耗情况。

EBS Lens产品特点

自动化数据采集

EBS Lens开启后,SLS会自动从用户的EBS资产中拉取云盘列表。进入APP后首先展示的就是接入管理页面,在这个页面,可以看到EBS云盘全局的一个管理视图,包含以下信息:

  • 展示当前接入的云盘总量、数据采集的云盘数量、云盘的地域和目标存储库的数量。
  • 展示EBS实例信息。例如,实例ID、标签、云盘种类、云盘类型、可用区信息、采集状态、采集操作等信息。如果用户在开启EBS Lens之后,对EBS云盘有新建、更新和删除操作的话,SLS会自动更新这里的云盘列表

采集配置

EBS云盘资产同步过来之后,需要用户开启云盘资产的监控数据采集。在这里,我们提供两种采集方式,一种是供用户进行精细化管理的手动采集,还有一种是在EBS云盘数量过多的情况下,方便用户全局管理的自动化采集。

手动采集

  • 支持对单个实例的采集状态进行管理
  • 考虑到EBS实例数量会比较多,这里支持在单个分页下面进行批量开启/批量关闭操作

自动化采集

当用户云盘有几百甚至上千个的时候,手动采集的管理方式显然不能满足需求,因此我们还提供了一个自动化采集的功能。自动化采集提供了图形化的配置界面:

  • 可以使用地域、实例ID、付费类型、磁盘类型、标签等属性设置采集条件。
  • 标准模式下各个条件之间为且关系。高级模式下,您可以灵活组合与嵌套条件。

配置保存之后,自动化采集立刻开启。所有满足条件的云盘,都会自动打开日志采集,从而省去了手动操作的步骤,另外当实例有所增减的时候,自动化采集也能够感知实例的变化,进行相应的调整。

存储库信息展示

开启云盘监控数据采集之后,SLS会从EBS云盘上拉取监控数据,然后投递到用户配置的目标存储库里,以时序数据的形式进行存储,在目标存储库这个tab里,支持的功能有:

  • 支持查看存储目标库的地域、数据保存时间
  • 支持数据保存时间的调整

  • 点击目标库,可以进入SLS的project页面,查看原始监控数据

EBS云盘资产同步、日志采集开启之后,EBS Lens就有了EBS云盘资产和云盘的监控数据了,基于这两个数据,EBS Lens做了两个监控大盘,资源概览和性能分析页面。

多维度数据聚合与丰富的数据指标类型

  • 资源概览页面,提供一个全局的资产大盘,默认按照用户维度,提供用户账号下所有云盘的统计信息,包括:
  • 云盘总数量
  • 云盘总容量
  • 云盘实例所属地域个数
  • 云盘实例所属可用区个数
  • 启用快照云盘占比
  • 加密云盘占比
  • Top10容量的区域
  • Top10容量的可用区
  • 云盘类型容量分布
  • 付费类型容量分布

  • 除了账号的维度外,还支持对地域、付费类型、磁盘类型进行筛选,充分满足用户的各种统计需求

高精度的数据监控粒度

  • 性能分析页面提供了一个全局的云盘监控大盘,默认会统计用户账号下所有磁盘关键指标的监控,包括
  • 吞吐量
  • 总的吞吐量变化曲线
  • 读/写吞吐存储Top100的实例,以及吞吐变化曲线
  • IOPS
  • 总的IOPS变化曲线
  • 读写IOPS Top100的实例,以及IOPS变化曲线
  • 性能分析页面还支持对地域、付费类型、云盘类型、云盘id进行筛选,满足用户精细化监控的需求
  • 云盘监控粒度为10s,监控延迟为10s内,对于抖动类场景可以有效进行监控

使用场景

EBS Lens有这么便捷的管理方式以及丰富、多维度的监控指标,下面我们列举了几个常用的场景,来详细说明下EBS Lens的功能:

监控场景

下面我们模拟日常常见的磁盘IO异常的场景,展示下EBS Lens的在监控场景下的应用。

环境准备

  1. 首先我们创建一个云盘,或者使用已有的云盘,挂载到ECS实例上。挂载云盘的操作参见:挂载数据盘 - 云服务器 ECS - 阿里云,注意云盘挂载到ECS实例后,必须创建分区和文件系统,使云盘变为可用。
  2. 将账号下所有云盘通过自动化采集配置,打开监控数据采集

  1. 打开性能分析页面,确认云盘监控数据已接入进来

异常模拟

我们进入ECS实例中,使用dd来模拟一个对磁盘的异常写入的操作:

EBS Lens监控结果

在EBS Lens性能分析页面,从大盘里,我们发现有一块磁盘的吞吐量和IOPS迅速提升到TOP1。为了查看磁盘的详细指标,我们在过滤框内输入磁盘id,可以看到这个磁盘在选定时间范围内吞吐量和IOPS的变化。而该实例id,正是我们模拟的写入异常的磁盘。在线上,如果出现类似的问题,那么接下来我们就该去进行详细的问题定位,比如异常的服务日志打印、不合理的数据落盘等。通过调整时间范围,对于设置ttl范围内的数据,EBS Lens都支持在该页面进行展示,对于故障的复盘和分析也是有非常大的帮助的。

配合SLS的告警功能告警(新版) - 日志服务 - 阿里云,用户完全可以自动化的监控云盘的性能,准确定位异常云盘。

服务压测和性能调优

除了监控场景,EBS Lens在服务压测和性能调优的场景,同样有非常大的作用。所有关于性能方面的测试,最关键的基础设施就是监控指标。EBS Lens性能分析大盘就可以提供云盘实时的性能指标,这可以有效的帮助用户快速定位云盘是否存在性能瓶颈。我们模拟一个简单的写入场景:大量级的数据要以最快的速度写到磁盘上。

环境准备

  1. 我们采用跟上面环境一样的ECS环境,在这个场景下我们指定一个固定的云盘做测试

  1. 在EBS Lens的页面打开该云盘的监控数据采集

场景模拟

第一版本,这里使用FIO模拟性能比较差的一个随机写的实现场景:

fio -filename=/mnt/test1 -direct=1 -iodepth 1 -thread -rw=randwrite -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=mytest

通过EBS Lens的监控,我们发现云盘的吞吐和IO比较低,远远没有达到云盘的性能上限,分别为15MB/s,900。参考块存储性能指标文档:参考块存储性能 - 云服务器 ECS - 阿里云

因此我们再对写入脚本进行优化,把随机写的实现改成了比较好的顺序写的实现:

fio -filename=/mnt/test2 -direct=1 -iodepth 1 -thread -rw=write -ioengine=psync -bs=16k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=mytest

通过EBS Lens的监控,吞吐达到了47MB/s,而IOPS达到了3000左右。

通过块存储性能指标文档我们得知,SSD云盘的性能因数据块大小而异,数据块越小,吞吐量越小,IOPS越高。因此为了提高吞吐量,我们考虑提高单次写入的数据块大小:

fio -filename=/mnt/test2 -direct=1 -iodepth 1 -thread -rw=write -ioengine=psync -bs=64k -size=2G -numjobs=10 -runtime=60 -group_reporting -name=mytest

通过EBS Lens的监控,吞吐达到了143MB/s,而IOPS下降到了2300左右。由此可以看到有了EBS Lens之后,对于磁盘IO的性能测试和调优,是多么的方便。

附录

说明

  1. EBS Lens目前处于公测期灰度开放中,如果有兴趣要试用,可以通过工单联系我们阿里云登录 - 欢迎登录阿里云,安全稳定的云计算服务平台,试用过程中有任何问题也可以直接联系到我们
  2. EBS Lens公测期相关功能全部免费,公测期结束前会提前进行公示,公测结束后,费用计算可以参考产品计费 - 日志服务 - 阿里云

参考文档

原文链接

本文为阿里云原创内容,未经允许不得转载。

块存储监控与服务压测调优利器-EBS Lens发布的更多相关文章

  1. 基于Dubbo的压测调优实例

    不久前参与开发了一个基于dubbo分布式框架的底层账单系统,并实现了其中的一部分业务接口,目前需对这些接口进行压测,以评估生产环境所能承受的最大吞吐量.笔者以其中一个查询接口为例来回顾此次压测的整体流 ...

  2. 常用的HTTP服务压测工具介绍

    常用的HTTP服务压测工具介绍 在项目正式上线之前,我们通常需要通过压测来评估当前系统能够支撑的请求量.排查可能存在的隐藏bug,同时了解了程序的实际处理能力能够帮我们更好的匹配项目的实际需求,节约资 ...

  3. jvm系列(六):Java服务GC参数调优案例

    本文介绍了一次生产环境的JVM GC相关参数的调优过程,通过参数的调整避免了GC卡顿对JAVA服务成功率的影响. 这段时间在整理jvm系列的文章,无意中发现本文,作者思路清晰通过步步分析最终解决问题. ...

  4. Nginx下载服务生产服务器调优

    一.内存调优 内核关于内存的选项都在/proc/sys/vm目录下.   1.pdflush,用于回写内存中的脏数据到硬盘.可以通过 /proc/sys/vm/vm.dirty_background_ ...

  5. 大数据技术之_08_Hive学习_04_压缩和存储(Hive高级)+ 企业级调优(Hive优化)

    第8章 压缩和存储(Hive高级)8.1 Hadoop源码编译支持Snappy压缩8.1.1 资源准备8.1.2 jar包安装8.1.3 编译源码8.2 Hadoop压缩配置8.2.1 MR支持的压缩 ...

  6. 高性能 Java 计算服务的性能调优实战

    作者:vivo 互联网服务器团队- Chen Dongxing.Li Haoxuan.Chen Jinxia 随着业务的日渐复杂,性能优化俨然成为了每一位技术人的必修课.性能优化从何着手?如何从问题表 ...

  7. 记一次Web服务的性能调优

    前言 一个项目在经历开发.测试.上线后,当时的用户规模还比较小,所以刚刚上线的项目一般会表现稳定.但是随着时间的推移,用户数量的增加,qps的增加等因素会造成项目慢慢表现出网页半天无响应的状况.在之前 ...

  8. (转)Mysql技术内幕InnoDB存储引擎-事务&备份&性能调优

    事务 原文:http://yingminxing.com/mysql%E6%8A%80%E6%9C%AF%E5%86%85%E5%B9%95innodb%E5%AD%98%E5%82%A8%E5%BC ...

  9. 数据库实例性能调优利器:Performance Insights

    Performance Insights是什么 阿里云RDS Performance Insights是RDS CloudDBA产品一项专注于用户数据库实例性能调优.负载监控和关联分析的利器,以简单直 ...

  10. 一目了然 | 数据库实例性能调优利器:Performance Insights

    Performance Insights是什么 阿里云RDS Performance Insights是RDS CloudDBA产品一项专注于用户数据库实例性能调优.负载监控和关联分析的利器,以简单直 ...

随机推荐

  1. Snackbar源码分析

    目录介绍 1.最简单创造方法 1.1 Snackbar作用 1.2 最简单的创建 1.3 Snackbar消失的几种方式 2.源码分析 2.1 Snackbar的make方法源码分析 2.2 对Sna ...

  2. ES6常用数组方法及模拟实现

    这里给大家分享下我搜索到的几个ES6常用数组方法及模拟实现,废话不多说,上代码 Array.from 可以将一个类数组转换成数组 在出现Array.from这个方法之前,我们转换类数组的方法: Arr ...

  3. 数字集成电路设计之CMOS

    数字集成电路设计理论 1.基本的理论结构 现在主流的集成电路器件还是CMOS,所以理论的结构还是基于CMOS.CMOS有N和P两种MOS组合组合在一起.CMOS最简单的器件就是反相器.然后是标准的逻辑 ...

  4. cadence软件画版图操作

    cadence软件操作 1.原理图设计 电路的原理图设计和许多的电路设计软件是类似的,这里大致介绍一下基本的操作. 首先是新建一个cell的原理图: library manager>file&g ...

  5. 表的唯一约束的作用 KingbaseES VS Oracle

    背景 演示唯一约束怎样创建.删除.禁用和使用唯一性约束,已经多种数据库的差异. 什么是唯一约束 唯一性约束指表中一个字段或者多个字段联合起来可以唯一标识一条记录的约束, 字段中,可以包括空值. 唯一性 ...

  6. hadoop集群查看所有主机的jps进程情况脚本文件

    jpsall代码 #!/bin/bash for host in hadoop102 hadoop103 hadoop104 do echo =============== $host ======= ...

  7. VK2C21A:抗干扰/抗噪/高稳定性LCD屏显示驱动,抗干扰LCD驱动段码屏芯片

    产品型号:VK2C21A/B/C/D 产品品牌:VINKA/永嘉微/永嘉微电 封装形式:SOP28/24/20/16 产品年份:新年份 原厂直销,工程服务,技术支持,价格最具优势! VK2C21A/B ...

  8. k-均值聚类算法 Primary

    目录 案例--区分好坏苹果(有Key) 案例--自动聚类(无Key) k-均值聚类算法(英文:k-means clustering) 定义: k-均值聚类算法的目的是:把n个点(可以是样本的一次观察或 ...

  9. Jetty的console-capture模块

    console-capture模块用于记录Jetty运行时向标准输出和标准错误写出的信息. Java的标准输出流,即System.out. Java的标准错误流,即System.err. consol ...

  10. OpenHarmony创新赛|赋能直播第五期

     OpenHarmony创新赛赋能直播课程即将再次与大家见面!本期基于之前的青蛙影院的UI界面设计的课程,介绍综合性APP的需求介绍和技术栈整合等内容.此外,课程同步赋能OpenHarmony创新赛, ...