摘要:阿里云CloudDBA主要分为离线分析和在线分析两种功能。帮助用户节省成本,定位问题,分析原因并推荐解决方法。CloudDBA可以做到实时诊断,离线诊断和SQL优化。并且通过MySQL的参数调优,检测参数的不合理或者准备的延迟的情况。
 
演讲嘉宾简介:
勋臣,阿里云RDS内核团队技术专家,目前阿里云CloudDBA专家系统开发。有着丰富的数据库开发管理和优化的经验。
 
以下内容根据演讲嘉宾视频分享以及PPT整理而成。
 
本次的分享主要围绕以下三个方面:
 
一、CloudDBA提供了什么
二、核心能力
三、典型实践应用
 
一、CloudDBA提供了什么
CloudDBA主要提供了两个功能,一个是离线分析,另一个是在线分析。我们知道DBA主要日常工作分为两块,一个是群检,还有就是做线上的响应,比如说我的数据库突然一下应用被卡住了,或者数据库出现性能抖动,这些问题都是需要DBA实时响应的。Oracle包括两个报告,一个是AWR报告,还有一个叫ASH报告,我们从功能上来说和Oracle有些类似。离线的分析主要是AWR报告,然后在线响应是ACTIVE SESS HISTORY。
CloudDBA在云上是SASS化的一块,是基于PaaS平台的增值服务。云上的SASS需要去解决性能的问题,问题的诊断,以及提供一些辅助的工具。云上的数据库跟自建的数据库有一点不同,如果数据库上云了之后,PaaS这层的工作云都帮忙解决了。比如,性能监控,HA等都已经做了。DBA真正要做的是上面这一层,就是怎么让数据库运行的更好,让用户用好数据库。
不管是云上的还是自建的数据库,它本身的成本实际上是看得见的,是很低的。对做DBA的同学来说,从准备到数据库上线花费的精力实际上是有限的。而真正的难点是如何把数据库管理好?因为我们为做产品的平台应用提供支撑,如果用户的使用习惯不好,很容易将我们的数据库搞坏掉,整个业务都会受到影响。所以从下图可以看到我们的数据库会有大量的维护成本,大概大于80%。当然DBA主要是解决应用中的一些问题,节省时间成本。比如说,用户反馈说应用卡住了,对DBA来说需要登录到数据库中,到控制台看动画,看看到底发生了什么?这些动作实际上是很重复,很机械的、如果有CloudDBA,它会有自己的一些小的脚本,比如定位问题,很快的可以输入用户名密码,把状态抓出来,基于状态做一些判断。这种方式是可以的,但是还有更好的解决方式,如果作为一个产品,把这样的行为产品化和服务化,交付出来。在应用卡住的时候,用户只需要点一个按钮,产品就可以把状态抓出来,并且分析出数据库卡住的点,并给出下一步的解决建议。甚至绝大部分场景,命令都会给生成出来,用户直接复制执行就可以了。
 
二、核心能力
1.实时诊断
我们会把DBA积累的经验产品化,编成程序,录入到资料库中去。将诊断的结果进行输出。我们在日常工作当中会经常发现同样的问题对不同的DBA来说解决的方式也不同。甚至说一位同学在当值班的时候遇到问题,知道怎么解决了,换另一位同学指班没有遇到问题,过了很长的时间再一次发生时大家可能都忘了如何解决这个问题。所以这时就需要将工作经验进行沉淀,产品化,服务化,再把它输入出来。我们把解决问题的方法。技巧,经验录入到资料库(Knowledge Base)中,它就是一个诊断程序,经过不断的录入经验,Knowledge Base会变得越来越丰富。结果格式会分为现象描述,原因描述和相关诊断建议。
 
2.离线诊断
离线诊断是基于状态,做深层次的分析,挖掘Top SQL,看哪些SQL执行次数最多,最长,消耗时间最长。另外还有事物分析,看事物是否合理,以及SQL Review。因为我们做DBA,如果没有一个很强大的工具去规范开发人员行为的话,这个工具迟早会被拖垮。在早期的时候,出一份规范发给开发人员,要求搜索语句只能按照规范写,否则会出事。但是如果没有一个工具约束和规范,每个开发团队都不可能看每一条规范语句。还有就是死锁的分析。
 
3.SQL优化
MySQL的优化器当然没有Qracle那么优秀,我们经常会听到它的执行效果不是很好,表的连接顺序不是那么的最优。比如表上面有索引,但是索引失效了,大家都知道索引失效的情况是字段不匹配。我们的工具会帮助我们在字段后面加个函数。比如说有一个交易表,交易表上有一个字段用时间去get,因为目前时间都至少精确到秒。很多开发人员会把日期函数直接加在get上面,等于具体某一天就可以了。但是如果用Oracle或者SQL Server3的数据库是没有问题的,DBA会给你加一个函数索引。但是如果用的是MySQL,而且是5.7之前的版本是没有办法的,真正的写法是大于等于这一天的开始和小于等于这一天的结束,应该是这一天24小时的范围之内都可以识别出来。还有一个是计算代价的重写,我们会到备库动态的采样,比如说一个查询,上面没有索引,带有多个字段,要建一个混合索引,那么这个字段的顺序应该怎么放?我们会到备库中动态采样,看这些列上的数据分布,然后生成最优的字段顺序,最优的索引。因为不可能看几个字段有的所有索引顺序,所以采取动态采样。这一块的内容可以到阿里云的官网搜,有很多非常详细的资料和视频。
 
三、最佳实践
我们经常遇到用户把规格升级,然后进行压测,发现升级规格后性能反而下降。比如4C32G生级成了8C62G,发现吞吐下降。通过诊断报告TOP SQL定位性能下降原因。发现truncate的执行时间变慢了,为什么变慢?因为表的内存变多了,内存的张页变多了,MySQL truncate之前是要把张页落入文件里面去,利用我们的工具可以很快的定位原因语句,下一步应该把MySQL的 Max present的参数调小,把张块控制在一定的范围里面。
另外一个问题是用户说每隔半小时就会出现压力抖动,查明什么原因。因为用户提出这个问题时,抖动发生的时间是在前几天或者过了几个小时。所以我们会建议用户开启CloudDBA,这样才方便我们跟踪,具体的数据用户在自己的的控制台就可以看到了。如下图是通过TOP SQL得到的诊断报告,知道哪个时间发生了抖动。
连接满了也分为不同的场景。第一种是出现锁了,这种是最常见的,这是把锁会话KILL掉。第二种就是在业务高空的时候执行了ddl的操作,这时也很好解决,我们都会帮助用户定位出来。还有一种是应用程序的连接使用有问题,没有关掉。比如Java的JDBC开了之后没有关掉,这时我们也可以识别出来。我们会建议用户使用连接池,及时的把连接关掉。还有一个,既不是MySQL堆积也不是锁,也正常使用连接池,这时就可能是规格太小,压力太大。如果不能升级规格,那么应用程序就要做限流。
连接满了之后,CloudDBA可以帮助识别并终止会话。
CPU达到100%之后,CloudDBA可以帮忙识别出来,同时进行优化
除了上述的几种场景,阿里还做了一些参数优化。MySQL有非常多的参数,参数的不合理或者准备的延迟都可以通过CloudDBA检测出来。
CloudDBA是一个动态净化的产品,我们是在不断的更新。我们会和阿里云的工单系统联系,他们处理的工单会扭转到我们这边,我们会吸收消化掉一部分,看哪些可以通过程序集成起来,RDBA会嵌在RDS数据库的控制台上面,用户可以免费使用。
 
​本文作者:mongolguier

数据库智能管理助手-CloudDBA的更多相关文章

  1. 基于SpringBoot+SSM实现的Dota2资料库智能管理平台

    Dota2资料库智能管理平台的设计与实现 摘    要 当今社会,游戏产业蓬勃发展,如PC端的绝地求生.坦克世界.英雄联盟,再到移动端的王者荣耀.荒野行动的火爆.都离不开科学的游戏管理系统,游戏管理系 ...

  2. 数据库顶会VLDB论文解读:阿里数据库智能参数优化的创新与实践

    前言 一年一度的数据库领域顶级会议VLDB 2019于美国当地时间8月26日-8月30日在洛杉矶召开.在本届大会上,阿里云数据库产品团队多篇论文入选Research Track和Industrial ...

  3. 宝塔服务器管理助手Linux面版-使用教程

    在顺利安装宝塔服务器linux面板之后,我们打开这个面板,UI界面设计的很简介,所有命令一看就知道是干什么用的,和我们以前用过的虚拟主机管理后台是很像的. 方法/步骤 1 使用方法如下: 面板地址:h ...

  4. Chrome扩展开发(Gmail附件管理助手)系列之〇——概述

    目录: 0.Chrome扩展开发(Gmail附件管理助手)系列之〇——概述 1.Chrome扩展开发之一——Chrome扩展的文件结构 2.Chrome扩展开发之二——Chrome扩展中脚本的运行机制 ...

  5. Oracle 数据库用户管理

    Oracle 数据库用户管理 Oracle 权限设置      一.权限分类: 系统权限:系统规定用户使用数据库的权限.(系统权限是对用户而言). 实体权限:某种权限用户对其它用户的表或视图的存取权限 ...

  6. 20181218-PostgreSQL数据库Extension管理

    20181218-PostgreSQL数据库Extension管理 注意:在集群的一个数据库中安装扩展,在集群的另一个数据库要使用的话,仍需安装 1. 查看当前已安装Extension postgre ...

  7. mysql用户授权、数据库权限管理、sql语法详解

    mysql用户授权.数据库权限管理.sql语法详解 —— NiceCui 某个数据库所有的权限 ALL 后面+ PRIVILEGES SQL 某个数据库 特定的权限SQL mysql 授权语法 SQL ...

  8. XMatch: 您的部门管理助手

    本博客为XMatch项目宣传博客. XMatch: 您的部门管理助手 目录 一.产品概述 二.产品功能 三.产品的创新特色 四.推广方案 五.宣传图 一.产品概述 当前社团的各方面管理工作主要都由手工 ...

  9. 小学生都能写智能语音助手了,我这颗转战AI的心要何去何从?

    前言——我是不是老了 前天看了一个关于AI类的综艺节目我感觉整个人都不好了.这个综艺的名字叫<智造将来>上面那个小屁孩自己写了一个智能语音助手,这个小屁孩叫袁翊闳是2018年百度AI开发者 ...

随机推荐

  1. 解决Nginx反向代理不会自动对特殊字符进行编码的问题 如gitblit中的~波浪线

    问题起因是利用Nginx做反向代理的时候,需要访问如下链接http://192.168.14.141/iserver/services/3D-0524hd/rest/realspace/datas/0 ...

  2. APlayer 媒体播放引擎

    APlayer媒体播放引擎 Windows平台的播放内核 封闭式 DirectShow 架构,不受系统解码环境干扰 全媒体文件格式支持 丰富的媒体文件传输协议(http/https/ftp/mms/r ...

  3. create-react-app 创建react应用环境变量(env)配置

    参考:https://facebook.github.io/create-react-app/docs/adding-custom-environment-variables What other . ...

  4. log4net 配置文件配置方法

    转自:http://www.dozer.cc/2013/06/log4net-config-file-order/ 最近把项目中所有的日志都改成了 log4net ,同事也蠢蠢欲动,用起了 log4n ...

  5. 什么是HIS、PACS、LIS、RIS

    什么是HIS?医院信息系统的定义(HIS)医院信息系统(Hospital Information System,HIS)在国际学术界已公认为新兴的医学信息学(Medical Informatics)的 ...

  6. Vue 基础 day01

    什么是Vue.js Vue.js 是目前最火的一个前端框架,React是最流行的一个前端框架(React除了开发网站,还可以开发手机App, Vue语法也是可以用于进行手机App开发的,需要借助于We ...

  7. Java 类在 Tomcat 中是如何加载的?

    作者 :xingoo https://www.cnblogs.com/xing901022/p/4574961.html 说到本篇的Tomcat类加载机制,不得不说翻译学习Tomcat的初衷. 之前实 ...

  8. dfs(枚举)

    http://codeforces.com/gym/100989/problem/L L. Plus or Minus (A) time limit per test 1.0 s memory lim ...

  9. [SP3267]DQUERY - D query

    题目传送门 维护一个区间内不同数的个数,最直观的想法是直接排序后用树状数组维护即可.但是我们发现n只有3e4,于是我们想到了可以拿一个$O(n\sqrt{n})$的莫队维护.关于莫队算法如果有不知道的 ...

  10. Appium+Python之元素定位和操作

    一.常用识别元素的工具 uiautomatorviewer:Android SDK自带的一个工具,在tools目录下     二.元素定位   1.格式:find_element_by_定位方式(va ...