浅析mydumper

Ⅰ、背景

mysqldump单线程备份,很慢
恢复慢,一张表一张表恢复,
如果备份了100G的数据,想恢复其中一个表,做不到(所有的表都在一个文件里)

所以推荐使用mydumper备份

备份并行,基于行,即使一张表也能并行,好强呐
恢复也是并行
恢复的时候可以只恢复指定表

完美(^__)

Ⅱ、安装

yum install -y  glib2-devel mysql-devel zlib-devel pcre-devel openssl-devel cmake gcc gcc-c++

cd /usr/local/src

git clone https://github.com/maxbube/mydumper

cd mydumper

cmake .

make -j 4

make install

export LD_LIBRARY_PATH="/usr/local/mysql/lib:$LD_LIBRARY_PATH"

Ⅲ、参数介绍

参数和mysqldump很多一样

-G --triggers

-E --events

-R --routines

--trx-consistency-only    等于--single-transaction

-t 开几个线程,默认4个

-o 备份到指定目录

-x 正则匹配

-c 压缩

-B 指定数据库

-T 指定表

-F --chunk-filesize 指定文件大小

--rows 100000   每10w行导出到一个文件

Ⅳ、玩两手

4.1 备份

[root@VM_0_5_centos backup]# mydumper -G -E -R --trx-consistency-only -t 4 -c -B dbt3 -o /mdata/backup

另开一个会话看下show processlist;可以看到四个线程

(root@172.16.0.10) [(none)]> show processlist;

+--------+------+------------------+------+---------+------+-------------------+----------------------------------------------------------+

| Id     | User | Host             | db   | Command | Time | State             | Info                                                     |

+--------+------+------------------+------+---------+------+-------------------+----------------------------------------------------------+

| 137488 | root | 172.16.0.5:53046 | NULL | Query   |    0 | starting          | show processlist                                         |

| 137523 | root | 172.16.0.5:53546 | NULL | Query   |    3 | Sending to client | SELECT /*!40001 SQL_NO_CACHE */ * FROM `dbt3`.`customer` |

| 137524 | root | 172.16.0.5:53548 | NULL | Query   |    3 | Sending to client | SELECT /*!40001 SQL_NO_CACHE */ * FROM `dbt3`.`lineitem` |

| 137525 | root | 172.16.0.5:53550 | NULL | Query   |    1 | Sending to client | SELECT /*!40001 SQL_NO_CACHE */ * FROM `dbt3`.`partsupp` |

| 137526 | root | 172.16.0.5:53552 | NULL | Query   |    3 | Sending to client | SELECT /*!40001 SQL_NO_CACHE */ * FROM `dbt3`.`orders`   |

+--------+------+------------------+------+---------+------+-------------------+----------------------------------------------------------+

5 rows in set (0.00 sec)

tips：

mydumper参数和其所跟的值不能连在一起,不然会报错

option parsing failed: Error parsing option -r, try --help

4.2 分析备份内容

进入备份目录

[root@VM_0_5_centos backup]# ll

total 1200340

ll

total 305044

-rw-r--r-- 1 root root       281 Jan 24 10:41 dbt3.customer-schema.sql.gz

-rw-r--r-- 1 root root   9173713 Jan 24 10:41 dbt3.customer.sql.gz

-rw-r--r-- 1 root root       401 Jan 24 10:41 dbt3.lineitem-schema.sql.gz

-rw-r--r-- 1 root root 221097124 Jan 24 10:42 dbt3.lineitem.sql.gz

-rw-r--r-- 1 root root       228 Jan 24 10:41 dbt3.nation-schema.sql.gz

-rw-r--r-- 1 root root      1055 Jan 24 10:41 dbt3.nation.sql.gz

-rw-r--r-- 1 root root       294 Jan 24 10:41 dbt3.orders-schema.sql.gz

-rw-r--r-- 1 root root  47020810 Jan 24 10:41 dbt3.orders.sql.gz

-rw-r--r-- 1 root root       264 Jan 24 10:41 metadata

篇幅有限未将所有表列出来

发现基于每张表备份并产生压缩文件,所以恢复的时候可以指定某张表恢复

喽一眼

[root@VM_0_5_centos backup]# cat metadata

Started dump at: 2018-01-24 10:35:50

SHOW MASTER STATUS:

	Log: bin.000001

	Pos: 154

	GTID:

Finished dump at: 2018-01-24 10:35:50

metadata文件记录二进制日志位置（master-data=1）

打开压缩文件

[root@VM_0_5_centos backup]# gunzip dbt3.customer-schema.sql.gz dbt3.customer.sql.gz dbt3-schema-create.sql.gz

[root@VM_0_5_centos backup]# cat dbt3-schema-create.sql

CREATE DATABASE `dbt3` /*!40100 DEFAULT CHARACTER SET utf8mb4 */;

[root@VM_0_5_centos backup]# cat dbt3-schema-create.sql

CREATE DATABASE `dbt3` /*!40100 DEFAULT CHARACTER SET utf8mb4 */;

[root@VM_0_5_centos backup]# cat dbt3.customer-schema.sql

/*!40101 SET NAMES binary*/;

/*!40014 SET FOREIGN_KEY_CHECKS=0*/;

CREATE TABLE `customer` (

  `c_custkey` int(11) NOT NULL,

  `c_name` varchar(25) DEFAULT NULL,

  `c_address` varchar(40) DEFAULT NULL,

  `c_nationkey` int(11) DEFAULT NULL,

  `c_phone` char(15) DEFAULT NULL,

  `c_acctbal` double DEFAULT NULL,

  `c_mktsegment` char(10) DEFAULT NULL,

  `c_comment` varchar(117) DEFAULT NULL,

  PRIMARY KEY (`c_custkey`),

  KEY `i_c_nationkey` (`c_nationkey`)

) ENGINE=InnoDB DEFAULT CHARSET=latin1;

[root@VM_0_5_centos backup]# head -5 dbt3.customer.sql

/*!40101 SET NAMES binary*/;

/*!40014 SET FOREIGN_KEY_CHECKS=0*/;

/*!40103 SET TIME_ZONE='+00:00' */;

INSERT INTO `customer` VALUES

(1,"Customer#000000001","j5JsirBM9PsCy0O1m",15,"25-989-741-2988",711.56,"BUILDING","regular, regular platelets are fluffily according to the even attainments. blithely iron"),

综上：

文件	作用
-schema.sql	每张表的表结构
.sql	数据文件
-schema-create.sql.gz	创建库

4.3 恢复

恢复使用myloader命令

-d 恢复文件目录

-t 指定线程数

-B 指定库

-e 记录binlog

[root@VM_0_5_centos mdata]# myloader -d /mdata/backup -t 4 -B test

tips:

SSD上开4线程比source单线程快将近两倍(hdd盘可能性能提升会受一定影响)

Ⅴ、mydumper原理：

这里有了mysqldump的基础就不开glog详细分析了

核心问题：并行怎么做到的？一张表都能并行导出,还要保持一致性

step1：

session1(主线程):

flush tables with read lock; 整个数据库锁成只读,其他线程只能读,不能写,针对myisam做的

start transaction with consistent snapshot 开启一致性快照事务,针对innodb做的

show master status 获取二进制文件位置点

step2：

主线程创建执行备份任务的子线程并切换到事务隔离级别为rr

session2：start transaction with consistent snapshot;

session3：start transaction with consistent snapshot;

session4：start transaction with consistent snapshot;

这样多个线程读到的内容是一致的

step3：

备份no-innodb

step4:

session1：unlock tables;

备份innodb至备份结束

小结：

从整个流程来看,多个线程看到的数据是一致的,所以select各个表,搞出来的数据是一致的,其实就是利用了mvcc的特性(不谈非innodb的话)

问题：

一张表怎么并行？

先看主键,根据主键的第一个字段分区,对表进行分片再进行备份,提前切好,区间先算好(不是每个区间相等),show processlist;中可以看出来
无主键则看唯一索引,根据唯一索引第一个字段分区
最差的情况无主键无唯一索引,则找一个区分度高的索引来切片
但是需要注意,目前这个切分的字段仅支持int型,其他类型切不了

浅析mydumper的更多相关文章

干货 | DRDS 与TiDB浅析
干货 | DRDS 与TiDB浅析北京it爷们儿京东云开发者社区 4月17日在谈论数据库架构和数据库优化的时候,会常听到"分库分表"."分片".&quo ...
SQL Server on Linux 理由浅析
SQL Server on Linux 理由浅析今天的爆炸性新闻<SQL Server on Linux>基本上在各大科技媒体上刷屏了大家看到这个新闻都觉得非常震精,而美股,今天微软开 ...
【深入浅出jQuery】源码浅析--整体架构
最近一直在研读 jQuery 源码,初看源码一头雾水毫无头绪,真正静下心来细看写的真是精妙,让你感叹代码之美. 其结构明晰,高内聚.低耦合,兼具优秀的性能与便利的扩展性,在浏览器的兼容性(功能缺陷.渐 ...
高性能IO模型浅析
高性能IO模型浅析服务器端编程经常需要构造高性能的IO模型,常见的IO模型有四种: (1)同步阻塞IO(Blocking IO):即传统的IO模型. (2)同步非阻塞IO(Non-blocking ...
netty5 HTTP协议栈浅析与实践
一.说在前面的话前段时间,工作上需要做一个针对视频质量的统计分析系统,各端(PC端.移动端和 WEB端)将视频质量数据放在一个 HTTP 请求中上报到服务器,服务器对数据进行解析.分拣后从不同的 ...
Jvm 内存浅析及 GC个人学习总结
从诞生至今,20多年过去,Java至今仍是使用最为广泛的语言.这仰赖于Java提供的各种技术和特性,让开发人员能优雅的编写高效的程序.今天我们就来说说Java的一项基本但非常重要的技术内存管理了解C ...
从源码浅析MVC的MvcRouteHandler、MvcHandler和MvcHttpHandler
熟悉WebForm开发的朋友一定都知道,Page类必须实现一个接口,就是IHttpHandler.HttpHandler是一个HTTP请求的真正处理中心,在HttpHandler容器中,ASP.NET ...
【深入浅出jQuery】源码浅析2--奇技淫巧
最近一直在研读 jQuery 源码,初看源码一头雾水毫无头绪,真正静下心来细看写的真是精妙,让你感叹代码之美. 其结构明晰,高内聚.低耦合,兼具优秀的性能与便利的扩展性,在浏览器的兼容性(功能缺陷.渐 ...
浅析匿名函数、lambda表达式、闭包（closure）区别与作用
浅析匿名函数.lambda表达式.闭包(closure)区别与作用所有的主流编程语言都对函数式编程有支持,比如c++11.python和java中有lambda表达式.lua和JavaScript中 ...

随机推荐

Zip操作的工具类
/** * Copyright 2002-2010 the original author is huanghe. */package com.ucap.web.cm.webapp.util; ...
web报表工具FineReport的SQL编辑框的语法简介
感谢大家捧场,这里继续分享关于SQL编辑框的一些语法心得总结,因为数据集定义的面板,也是FineReport报表中最常用的模块之一. 1.我理解的执行过程. 这里其实是生成一个字符串,FineRepo ...
bulk-load 装载HDFS数据到HBase
bulk-load的作用是用mapreduce的方式将hdfs上的文件装载到hbase中,对于海量数据装载入hbase非常有用,参考http://hbase.apache.org/docs/r0.89 ...
MurmurHash
public int hash(byte[] data, int length, int seed) { int m = 0x5bd1e995; int r = 24; int ...
leetCode之旅（12）-反转二叉树
背景描述 Homebrew 是 OS X 平台上的包管理工具.用其官网的话说就是: the missing package manager for OS X | OS X 平台遗失的包管理器. 相信在 ...
storm中的Scheduler
Scheduler是storm的调度器,负责为topology分配当前集群中可用的资源.Storm分别提供了3中调度器: EvenScheduler:会将系统中的可用资源均匀地分配给当前需要任务分配的 ...
JDK 常用命令
一) 引言: 当我们安装完JDK时,除了必须的编译运行以外,它就已经自带了很多辅助工具.正所谓“工欲善其事,必先利其器.”如果能用好这些工具,它们将大大方便你的开发.它们的实用和方便有时甚至会使 ...
centos6.X安装jdk
1.查看Linux自带的JDK是否已安装(如果安装则卸载CentOS已安装的低版本) [root@localhost soft]# java -version java version "1 ...
AngularJs 学习笔记（四）服务
模型是指$scope上保存的包含瞬时状态数据的JavaScript对象. 服务是一个单例对象,只会被$injector实例化一次,并且是在需要的时候才会被创建,服务提供了把与特定功能相关联的方法集中在 ...
《Servlet与JSP核心编程》读书笔记
这本书实际是我进入JavaWeb开发的入门书籍,而且是日常碰到一些技术问题需要确认时的参考书,前一段时间在解决一个他人的问题时,我突然发现我的第一遍阅读对这本书的内容的理解还不够透彻,所以又开始N多年 ...