摘要:阿里云CloudDBA主要分为离线分析和在线分析两种功能。帮助用户节省成本,定位问题,分析原因并推荐解决方法。CloudDBA可以做到实时诊断,离线诊断和SQL优化。并且通过MySQL的参数调优,检测参数的不合理或者准备的延迟的情况。
 
演讲嘉宾简介:
勋臣,阿里云RDS内核团队技术专家,目前阿里云CloudDBA专家系统开发。有着丰富的数据库开发管理和优化的经验。
 
以下内容根据演讲嘉宾视频分享以及PPT整理而成。
 
本次的分享主要围绕以下三个方面:
 
一、CloudDBA提供了什么
二、核心能力
三、典型实践应用
 
一、CloudDBA提供了什么
CloudDBA主要提供了两个功能,一个是离线分析,另一个是在线分析。我们知道DBA主要日常工作分为两块,一个是群检,还有就是做线上的响应,比如说我的数据库突然一下应用被卡住了,或者数据库出现性能抖动,这些问题都是需要DBA实时响应的。Oracle包括两个报告,一个是AWR报告,还有一个叫ASH报告,我们从功能上来说和Oracle有些类似。离线的分析主要是AWR报告,然后在线响应是ACTIVE SESS HISTORY。
CloudDBA在云上是SASS化的一块,是基于PaaS平台的增值服务。云上的SASS需要去解决性能的问题,问题的诊断,以及提供一些辅助的工具。云上的数据库跟自建的数据库有一点不同,如果数据库上云了之后,PaaS这层的工作云都帮忙解决了。比如,性能监控,HA等都已经做了。DBA真正要做的是上面这一层,就是怎么让数据库运行的更好,让用户用好数据库。
不管是云上的还是自建的数据库,它本身的成本实际上是看得见的,是很低的。对做DBA的同学来说,从准备到数据库上线花费的精力实际上是有限的。而真正的难点是如何把数据库管理好?因为我们为做产品的平台应用提供支撑,如果用户的使用习惯不好,很容易将我们的数据库搞坏掉,整个业务都会受到影响。所以从下图可以看到我们的数据库会有大量的维护成本,大概大于80%。当然DBA主要是解决应用中的一些问题,节省时间成本。比如说,用户反馈说应用卡住了,对DBA来说需要登录到数据库中,到控制台看动画,看看到底发生了什么?这些动作实际上是很重复,很机械的、如果有CloudDBA,它会有自己的一些小的脚本,比如定位问题,很快的可以输入用户名密码,把状态抓出来,基于状态做一些判断。这种方式是可以的,但是还有更好的解决方式,如果作为一个产品,把这样的行为产品化和服务化,交付出来。在应用卡住的时候,用户只需要点一个按钮,产品就可以把状态抓出来,并且分析出数据库卡住的点,并给出下一步的解决建议。甚至绝大部分场景,命令都会给生成出来,用户直接复制执行就可以了。
 
二、核心能力
1.实时诊断
我们会把DBA积累的经验产品化,编成程序,录入到资料库中去。将诊断的结果进行输出。我们在日常工作当中会经常发现同样的问题对不同的DBA来说解决的方式也不同。甚至说一位同学在当值班的时候遇到问题,知道怎么解决了,换另一位同学指班没有遇到问题,过了很长的时间再一次发生时大家可能都忘了如何解决这个问题。所以这时就需要将工作经验进行沉淀,产品化,服务化,再把它输入出来。我们把解决问题的方法。技巧,经验录入到资料库(Knowledge Base)中,它就是一个诊断程序,经过不断的录入经验,Knowledge Base会变得越来越丰富。结果格式会分为现象描述,原因描述和相关诊断建议。
 
2.离线诊断
离线诊断是基于状态,做深层次的分析,挖掘Top SQL,看哪些SQL执行次数最多,最长,消耗时间最长。另外还有事物分析,看事物是否合理,以及SQL Review。因为我们做DBA,如果没有一个很强大的工具去规范开发人员行为的话,这个工具迟早会被拖垮。在早期的时候,出一份规范发给开发人员,要求搜索语句只能按照规范写,否则会出事。但是如果没有一个工具约束和规范,每个开发团队都不可能看每一条规范语句。还有就是死锁的分析。
 
3.SQL优化
MySQL的优化器当然没有Qracle那么优秀,我们经常会听到它的执行效果不是很好,表的连接顺序不是那么的最优。比如表上面有索引,但是索引失效了,大家都知道索引失效的情况是字段不匹配。我们的工具会帮助我们在字段后面加个函数。比如说有一个交易表,交易表上有一个字段用时间去get,因为目前时间都至少精确到秒。很多开发人员会把日期函数直接加在get上面,等于具体某一天就可以了。但是如果用Oracle或者SQL Server3的数据库是没有问题的,DBA会给你加一个函数索引。但是如果用的是MySQL,而且是5.7之前的版本是没有办法的,真正的写法是大于等于这一天的开始和小于等于这一天的结束,应该是这一天24小时的范围之内都可以识别出来。还有一个是计算代价的重写,我们会到备库动态的采样,比如说一个查询,上面没有索引,带有多个字段,要建一个混合索引,那么这个字段的顺序应该怎么放?我们会到备库中动态采样,看这些列上的数据分布,然后生成最优的字段顺序,最优的索引。因为不可能看几个字段有的所有索引顺序,所以采取动态采样。这一块的内容可以到阿里云的官网搜,有很多非常详细的资料和视频。
 
三、最佳实践
我们经常遇到用户把规格升级,然后进行压测,发现升级规格后性能反而下降。比如4C32G生级成了8C62G,发现吞吐下降。通过诊断报告TOP SQL定位性能下降原因。发现truncate的执行时间变慢了,为什么变慢?因为表的内存变多了,内存的张页变多了,MySQL truncate之前是要把张页落入文件里面去,利用我们的工具可以很快的定位原因语句,下一步应该把MySQL的 Max present的参数调小,把张块控制在一定的范围里面。
另外一个问题是用户说每隔半小时就会出现压力抖动,查明什么原因。因为用户提出这个问题时,抖动发生的时间是在前几天或者过了几个小时。所以我们会建议用户开启CloudDBA,这样才方便我们跟踪,具体的数据用户在自己的的控制台就可以看到了。如下图是通过TOP SQL得到的诊断报告,知道哪个时间发生了抖动。
连接满了也分为不同的场景。第一种是出现锁了,这种是最常见的,这是把锁会话KILL掉。第二种就是在业务高空的时候执行了ddl的操作,这时也很好解决,我们都会帮助用户定位出来。还有一种是应用程序的连接使用有问题,没有关掉。比如Java的JDBC开了之后没有关掉,这时我们也可以识别出来。我们会建议用户使用连接池,及时的把连接关掉。还有一个,既不是MySQL堆积也不是锁,也正常使用连接池,这时就可能是规格太小,压力太大。如果不能升级规格,那么应用程序就要做限流。
连接满了之后,CloudDBA可以帮助识别并终止会话。
CPU达到100%之后,CloudDBA可以帮忙识别出来,同时进行优化
除了上述的几种场景,阿里还做了一些参数优化。MySQL有非常多的参数,参数的不合理或者准备的延迟都可以通过CloudDBA检测出来。
CloudDBA是一个动态净化的产品,我们是在不断的更新。我们会和阿里云的工单系统联系,他们处理的工单会扭转到我们这边,我们会吸收消化掉一部分,看哪些可以通过程序集成起来,RDBA会嵌在RDS数据库的控制台上面,用户可以免费使用。
 
​本文作者:mongolguier

数据库智能管理助手-CloudDBA的更多相关文章

  1. 基于SpringBoot+SSM实现的Dota2资料库智能管理平台

    Dota2资料库智能管理平台的设计与实现 摘    要 当今社会,游戏产业蓬勃发展,如PC端的绝地求生.坦克世界.英雄联盟,再到移动端的王者荣耀.荒野行动的火爆.都离不开科学的游戏管理系统,游戏管理系 ...

  2. 数据库顶会VLDB论文解读:阿里数据库智能参数优化的创新与实践

    前言 一年一度的数据库领域顶级会议VLDB 2019于美国当地时间8月26日-8月30日在洛杉矶召开.在本届大会上,阿里云数据库产品团队多篇论文入选Research Track和Industrial ...

  3. 宝塔服务器管理助手Linux面版-使用教程

    在顺利安装宝塔服务器linux面板之后,我们打开这个面板,UI界面设计的很简介,所有命令一看就知道是干什么用的,和我们以前用过的虚拟主机管理后台是很像的. 方法/步骤 1 使用方法如下: 面板地址:h ...

  4. Chrome扩展开发(Gmail附件管理助手)系列之〇——概述

    目录: 0.Chrome扩展开发(Gmail附件管理助手)系列之〇——概述 1.Chrome扩展开发之一——Chrome扩展的文件结构 2.Chrome扩展开发之二——Chrome扩展中脚本的运行机制 ...

  5. Oracle 数据库用户管理

    Oracle 数据库用户管理 Oracle 权限设置      一.权限分类: 系统权限:系统规定用户使用数据库的权限.(系统权限是对用户而言). 实体权限:某种权限用户对其它用户的表或视图的存取权限 ...

  6. 20181218-PostgreSQL数据库Extension管理

    20181218-PostgreSQL数据库Extension管理 注意:在集群的一个数据库中安装扩展,在集群的另一个数据库要使用的话,仍需安装 1. 查看当前已安装Extension postgre ...

  7. mysql用户授权、数据库权限管理、sql语法详解

    mysql用户授权.数据库权限管理.sql语法详解 —— NiceCui 某个数据库所有的权限 ALL 后面+ PRIVILEGES SQL 某个数据库 特定的权限SQL mysql 授权语法 SQL ...

  8. XMatch: 您的部门管理助手

    本博客为XMatch项目宣传博客. XMatch: 您的部门管理助手 目录 一.产品概述 二.产品功能 三.产品的创新特色 四.推广方案 五.宣传图 一.产品概述 当前社团的各方面管理工作主要都由手工 ...

  9. 小学生都能写智能语音助手了,我这颗转战AI的心要何去何从?

    前言——我是不是老了 前天看了一个关于AI类的综艺节目我感觉整个人都不好了.这个综艺的名字叫<智造将来>上面那个小屁孩自己写了一个智能语音助手,这个小屁孩叫袁翊闳是2018年百度AI开发者 ...

随机推荐

  1. 阶段1 语言基础+高级_1-3-Java语言高级_05-异常与多线程_第2节 线程实现方式_1_并发与并行

    并发,相当于 一个人吃两个馒头,吃一口这个再吃一口另外一个.这里是cpu一会执行任务1,一会又执行任务2 并行,相当于两个人 吃两个馒头,各自吃各自的,这样速度就会快

  2. sudo: pip:找不到命令

    https://blog.csdn.net/fcku_88/article/details/84191288

  3. State Function Approximation: Linear Function

    In the previous posts, we use different techniques to build and keep updating State-Action tables. B ...

  4. 20191105 《Spring5高级编程》笔记-第10章

    第10章 使用类型转换和格式化进行验证 在应用程序开发中,数据验证通常与转换和格式化一起被提及.因为数据源的格式很可能与应用程序中所使用的格式不同. 名词缩写: SPI(Service Provide ...

  5. Node.js实战11:fs模块初探。

    fs模块封装了对文件操作的各种方法,比如同步和异步读写.批量操作.流.监听. 我们还是通常例程学习, 获取目录下的文件清单: var fs =require("fs"); fs.r ...

  6. Java相关面试题总结+答案(九)

    [MySQL] 164. 数据库的三范式是什么? 第一范式:强调的是列的原子性,即数据库表的每一列都是不可分割的原子数据项. 第二范式:属性完全依赖于主键(满足第一范式的前提下),即任意一个字段只依赖 ...

  7. Error querying database. Cause: org.apache.ibatis.reflection.ReflectionException: There is no getter for property named 'ItemsCustom' in 'class com.pojo.OrderDetailCustom

    再用 junit 测试MyBatis时发现的错误: org.apache.ibatis.exceptions.PersistenceException: ### Error querying data ...

  8. JAVA总结--多线程

    一.概念 1.进程:一个具有一定独立功能的程序,关于某些数据集合,一次运行活动. 两点:1.有自己的空间存储数据:2.一个程序. 进程,是系统   进行   资源分配  和 调度  的基础单位.动态性 ...

  9. Sql批量插入时如果遇到相同的数据怎么处理

    测试数据 -- 创建测试表1 CREATE TABLE `testtable1` ( `Id` INT(11) UNSIGNED NOT NULL AUTO_INCREMENT, `UserId` I ...

  10. apache2.4 只允许合法域名访问网站 禁止使用ip、非法域名访问

    1.ip访问禁用ip访问 只能对应端口有效<VirtualHost *:80> ServerName xx.xx.xx.xx ServerAlias * <Location /> ...