教你做一个牛逼的DBA（在大数据下）

一、基本概念

大数据量下，搞mysql，以下概念需要先达成一致

1)单库，不多说了，就是一个库

2）分片（sharding），水平拆分，用于解决扩展性问题，按天拆分表

3）复制（replication）与分组（group），用于解决可用性问题

4）分片+分组，这是大数据量下，架构的实际情况

二、大数据量下，mysql常见问题及解决思路

1）常见问题

如何保证可用性？

各色各异的读写比，怎么办？

如何做无缝倒库，加字段，扩容？

数据量大，怎么解决？

2）解决思路

2.1）可用性解决思路：复制

读库可用性

从库复制多个，例如：1主2从

从库挂了读主库，例如：1主1从

写库可用性

双主模式

“双主”当“主从”用

2.2）读写比解决思路-针对特性做设计

读多些少场景：提升读性能，3种常见方案：

a）新建索引提高读性能，什么小技巧？

b）读写分离，增加从库扩展读性能

c）增加缓存来扩展读性能

a）b）c）方案存在什么问题？

如何解决这些问题？

读写相近场景：不要使用缓存，考虑水平切分

写多读少场景：不要使用缓存，考虑水平切分

2.3）无缝倒库[扩容，增加字段，数据迁移]

追日志方案

a）记录写日志

b）倒库

c）倒库完毕

d）追日志

e）追日志完毕+数据校验

f）切库

双写方案

a）服务双写

b）倒库

c）倒库完毕+数据校验

d）切库

2.4）数据量大解决思路：拆库

三、数据库拆库实战

四类场景覆盖99%拆库业务

a）“单key”场景，用户库如何拆分： user(uid, XXOO)

b）“1对多”场景，帖子库如何拆分： tiezi(tid, uid, XXOO)

c）“多对多”场景，好友库如何拆分： friend(uid, friend_uid, XXOO)

d）“多key”场景，订单库如何拆分：order(oid, buyer_id, seller_id, XXOO)

1）用户库如何拆分

用户库，10亿数据量

user(uid, uname, passwd, age, sex, create_time);

业务需求如下

a）1%登录请求 => where uname=XXX and passwd=XXX

b）99%查询请求 => where uid=XXX

结论：“单key”场景使用“单key”拆库

2）帖子库如何拆分

帖子库，15亿数据量

tiezi(tid, uid, title, content, time);

业务需求如下

a）查询帖子详情（90%请求）

SELECT * FROM tiezi WHERE tid=$tid

b）查询用户所有发帖（10%请求）

SELECT * FROM tiezi WHERE uid=$uid

结论：“1对多”场景使用“1”分库，例如帖子库1个uid对应多个tid，则使用uid分库，tid生成时加入分库标记

3）好友库如何拆分

好友库，1亿数据量

friend(uid, friend_uid, nick, memo, XXOO);

业务需求如下

a）查询我的好友（50%请求） => 用于界面展示

SELECT friend_uid FROM friend WHERE uid=$my_uid

b）查询加我为好友的用户（50%请求） => 用户反向通知

SELECT uid FROM friend WHERE friend_uid=$my_uid

结论：“多对多”场景，使用数据冗余方案，多份数据使用多种分库手段

4）订单库如何拆分

订单库，10亿数据量

order(oid, buyer_id, seller_id, order_info, XXOO);

业务需求如下

a）查询订单信息（80%请求）

SELECT * FROM order WHERE oid=$oid

b）查询我买的东东（19%请求）

SELECT * FROM order WHERE buyer_id=$my_uid

c）查询我卖出的东东（1%请求）

SELECT * FROM order WHERE seller_id=$my_uid

结论：“多key”场景一般有两种方案

a）方案一，使用2和3综合的方案

b）方案二，1%的请求采用多库查询

四、分库后业务实战

分库后出现的问题：单库时mysql的SQL功能不再支持了

1）海量数据下，mysql的SQL怎么玩

不会这么玩

a）各种联合查询

b）子查询

c）触发器

d）用户自定义函数

e）“事务”都用的很少

原因：对数据库性能影响极大

2）分库后，IN查询怎么玩

用户库如何进行uid的IN查询

user(uid, uname, passwd, age, sex, photo, create_time, ...);

Partition key：uid

查询需求：IN查询：WHERE uid IN(1,2,3,4,5,6)

解决方案：服务做MR

方案一：直接分发

方案二：拼装成不同SQL，定位不同的库

3）分库后，非Partition key的查询怎么玩

方案一：业务方不关心数据来自哪个库，可以只定位一个库

例如：有头像的用户查询

方案二：结果集只有一条数据，业务层做分发，只有一条记录返回就返回

例如：用户登录时，使用userName和passwd的查询

4）分库后，夸库分页怎么玩？

问题的提出与抽象：ORDER BY xxx OFFSET xxx LIMIT xxx

a）按时间排序

b）每页100条记录

c）取第100页的记录

单机方案

ORDER BY time OFFSET 10000 LIMIT 100

分库后的难题：如何确认全局偏移量

分库后传统解决方案，查询改写+内存排序

a）ORDER BY time OFFSET 0 LIMIT 10000+100

b）对20200条记录进行排序

c）返回第10000至10100条记录

优化方案一：增加辅助id，以减少查询量

a）技术上，引入特殊id，作为查询条件（或者带入上一页的排序条件）

b）业务上，尽量禁止跨页查询

单库情况

a）第一页，直接查

b）得到第一页的max(id)=123（一般是最后一条记录）

c）第二页，带上id>123查询：WHERE id>123 LIMIT 100

多库情况

a）将WHERE id>xxx LIMIT 100分发

b）将300条结果排序

c）返回前100条

优点：避免了全局排序，只对小量记录进行排序

优化方案二：模糊查询

a）业务上：禁止查询XX页之后的数据

b）业务上：允许模糊返回 => 第100页数据的精确性真这么重要么？

优化方案三：终极方案，查询改写与两段查询

方案一和方案二在业务上都有所折衷，前者不允许跨页查询，后者数据精度有损失，解决夸库分页问题的终极方案是，将order by + offset + limit进行查询改写，分两段查询。

五、总结

《概念》

单库、分片、复制、分组

《常见问题及解决思路》

1）可用性，解决思路是冗余（复制）

2）读写比

2.1）读多些少：用从库，缓存，索引来提高读性能

2.2）业务层控制强制读主来解决从库不一致问题

2.3）双淘汰来解决缓存不一致问题

2.4）读写相近，写多读少：不要使用缓存，该怎么整怎么整

3）无缝导库

3.1）写日志追数据

3.2）双写

4）数据量大，解决思路是分片（拆库）

《四大类拆库思路》

1）用户库，“单key”场景使用“单key”拆库

2）帖子库，“1对多”场景使用“1”分库，例如帖子库1个uid对应多个tid，则使用uid分库，tid生成时加入分库标记

3）好友库，“多对多”场景，使用数据冗余方案，多份数据使用多种分库手段

4）订单库，“多key”场景一般有两种方案

4.1）方案一，使用2和3综合的方案

4.2）方案二，1%的请求采用多库查询

《拆库后业务实战》

1）不这么玩：联合查询、子查询、触发器、用户自定义函数、夸库事务

2）IN查询怎么玩

2.1）分发MR

2.2）拼装成不同SQL语句

3）非partition key查询怎么玩

3.1）定位一个库

3.2）分发MR

4）夸库分页怎么玩

4.1）修改sql语句，服务内排序

4.2）引入特殊id，减少返回数量

4.3）业务优化，禁止跨页查询，允许模糊查询

教你做一个牛逼的DBA（在大数据下）的更多相关文章

【项目总结】：怎样做一个牛逼的Team leader？
随着ITOO高校云平台3.1项目的结束,我们各种各样的总结也被提上了日程. Java版本号的全部开发者和Donet版本号的全部开发者坐在一起进行了关于项目开发管理的头脑风暴,尽管我仅仅是Donet开发 ...
手把手教你做一个python+matplotlib的炫酷的数据可视化动图
1.效果图 2.注意: 上述资料是虚拟的,为了学习制作动图,构建的. 仅供学习, 不是真实数据,请别误传. 当自己需要对真实数据进行可视化时,可进行适当修改. 3.代码: #第1步:导出模块,固定 i ...
做一个牛XX的身份证号验证类（支持15位和18位）
原文:做一个牛XX的身份证号验证类(支持15位和18位) #region 是否合法的中国身份证号码 protected bool IsChineseID() { if (str.Length == 1 ...
3分钟教你做一个iphone手机浏览器
3分钟教你做一个iphone手机浏览器第一步:新建一个Single View工程: 第二步:新建好工程,关闭arc. 第三步:拖放一个Text Field 一个UIButton 和一个 UIWebV ...
如何设计一个牛逼的API接口
在日常开发中,总会接触到各种接口.前后端数据传输接口,第三方业务平台接口.一个平台的前后端数据传输接口一般都会在内网环境下通信,而且会使用安全框架,所以安全性可以得到很好的保护.这篇文章重点讨论一下提 ...
R数据分析：跟随top期刊手把手教你做一个临床预测模型
临床预测模型也是大家比较感兴趣的,今天就带着大家看一篇临床预测模型的文章,并且用一个例子给大家过一遍做法. 这篇文章来自护理领域顶级期刊的文章,文章名在下面 Ballesta-Castillejos ...
csvkit---python一个牛逼到不行的csv处理库
先吐槽一下:不管是百度还是谷歌,查来查去除了官方文档之外就没有任何可以借鉴的例子,虽然官方文档写的挺好的.但是我一直以为是在python语言的方式运行的,结果是以命令行的方式运行的,搞得我还以为这个库 ...
【酷Q插件制作】教大家做一个简单的签到插件
酷Q插件已经有很多了,社区分享一大堆,不过还是自己写才有乐趣,哈哈.不得不吐槽一下,酷Q竟然不更新了,出了个酷Q pro,还收费!!诶.不过这也影响不了咱写插件的心情,今天教大家写一个酷Q签到插件,虽 ...
TTS-零基础入门-10分钟教你做一个语音功能
在本片博客正式開始之前,大家先跟我做一个简单的好玩的小语音. 新建一个文本文档,然后再文档里输入这样一句话 CreateObject("SAPI.SpVoice").Spea ...

随机推荐

关于HierarchyViewer的使用
在学习ViewGroup和Layout时我们可能会有一个疑问,如果我在Xml布局文件中不放置Layout,直接放TextView等组件的时候,它是用什么方式布局的?还有要学习别人优秀的布局怎么办? H ...
tinkerpop（1）地图数据库console科研
原创文章连接: http://blog.csdn.net/freewebsys/article/details/46348975 转载请注明出处. 1,关于图数据库 tinkerpop是apache孵 ...
使用google自带包实现下拉刷新功能
android 实现下拉刷新有非常多开源的源代码能够用比方 :PullToRefreshListView 使用起来也非常方便如今还能够直接使用google libs以下的 android-sup ...
ASP.NET Core Razor 标签助手 - ASP.NET Core 基础教程 - 简单教程，简单编程
原文:ASP.NET Core Razor 标签助手 - ASP.NET Core 基础教程 - 简单教程,简单编程 ASP.NET Core Razor 标签助手上一章节我们介绍了视图导入,学习了 ...
WPF 3D 平移模型+动画（桥梁检测系统）
原文:WPF 3D 平移模型+动画(桥梁检测系统) 关于WPF 3D,网上有很多旋转的例子,但是关于平移的例子并不是太多.本文并非WPF 3D扫盲篇,因此需要对WPF 3D有一定了解,至少知道View ...
WPF中Polyline拐角的bug
原文:WPF中Polyline拐角的bug Polyline绘制折线在小角度(比如几度)的时候会出现不连续的现象,形成拐角的两条线段中有一段会超出,角度越小越明显. 问题如下图 ...
DOM解析xml实现读、写、增、删、改
qt提供了三种方式解析xml,不过如果想实现对xml文件进行增.删.改等操作,还是DOM方式最方便. 项目配置 pro文件里面添加QT+=xml include <QtXml>,也可以in ...
mariadb 允许远程访问
进入MariaDB服务器,将mysql.user的host字段的值改为%就表示在任何客户端机器上能以root用户登录到mysql服务器,建议在开发时设为%. 1 MariaDB [(none)]> ...
Linux命令扫盲之 sar
今天在读<大规模Web服务开发技术>一书的时候,书中提到了sar这个命令,感觉很有用,有必要整理学习一下.(对于一位Linux初学者,不能放过任何一个学习机会 :P) 打开自己的CentO ...
Python杂谈: __init__.py的作用
我们经常在python的模块目录中会看到 "__init__.py" 这个文件,那么它到底有什么作用呢? 1. 标识该目录是一个python的模块包(module package ...

教你做一个牛逼的DBA（在大数据下）

教你做一个牛逼的DBA（在大数据下）的更多相关文章

随机推荐

热门专题