如前文概述,MySQL Binlog v3以前版本, 二进制日志文件的第一个事件是START_EVENT_V3, 从v4版本开始第一个事件为FORMAT_DESCRIPTION_EVENT(以下简称FD事件),替代掉START_EVENT_V3。具体到MySQL服务器版本来说,MySQL 5.0以前版本二进制日志的第一个事件是START_EVENT_V3,而后续版本的第一个事件都是FD事件,由于目前大部分MySQL都跑在5.0+,所以这里不讨论START_EVENT_V3事件,FD事件可以看成是START_EVENT_V3的继承和扩展,是相通的,有兴趣可以虫github 克隆(clone)BinlogMiner的源代码下来参考。

FD事件比较简单,顺带介绍一下BinlogMiner的程序实现,本文可能很拖沓。

文件I/O是编程语言的基本功能,也是编程的基本功。具体到Java来说,传统方式是通过I/O流来进行文件的读写,如"BufferedInputStream"。Java 1.4版本的开始引入新的IO访问方式Java NIO (New IO) ,其中的MappedByteBuffer允许将一个文件通过FileChannel.map,映射成一个内存缓存,跟简单的来说,映射成一个字节数组,可以通过直接访问数组的方式访问文件。这大大简化了文件的随机读写,而且相较于流方式,更接近人的思考方式,还有极高的读写效率。总的来说Java还是很全面的,对于底层的开发也支持很好,NO.1 霸榜多年还是有道理的。BinlogMiner基于MappedByteBuffer实现的。下面介绍的并非BinlogMiner的代码(因为实际代码需要处理很多细节,不适合来说原理),下面只是举个简单实现能跑的栗子。

只需要简单的3行就可以创建一个MappedByteBuffer:

String binlogFileName = "D:\\build\\binlogs\\5.7.18\\blog.000016";
RandomAccessFile binlogFile = new RandomAccessFile(binlogFileName, "r");
FileChannel binlogFileChannel = binlogFile.getChannel();
MappedByteBuffer blogFileBuffer = binlogFileChannel.map(MapMode.READ_ONLY, 0, binlogFile.length());

最后一行,创建一个将文件(D:\\build\\binlogs\\5.7.18\\blog.000016)映射到MappedByteBuffer,只读模式,范围从第一个字节开始(0),到文件结束(binlogFile.length())。通过MappedByteBuffer.position()可以获取当前的文件访问的位置,通过MappedByteBuffer.position(int position)可以设置当前文件访问的位置,在概述的时候提到,前4个字节是二进制文件的幻数(magic number),将访问指针直接跳过,就到了FD事件开始了。

blogFileBuffer.position(4);
int starPos = blogFileBuffer.position(); //记录事件开始位置

这里需要注意的是MappedByteBuffer的position是一个整型,最大的值是Integer.MAX_VALUE。也就是2GB,如果超过2GB,那么就需要重新映射,如:

blogFileBuffer = binlogFileChannel.map(MapMode.READ_ONLY, new_start_position , new_end_position);

这时候MappedByteBuffer的position就是一个相对偏移,需要根据new_start_position_position来获得绝对偏移量,当然对于Binlog不需要担心这个问题,因为截至当前的MySQL 8版本,二进制文件的最大限制还是1GB。

1. Common header的解析

根据前文,事件的第一部分是通用头,根据官方文档:
https://dev.mysql.com/doc/internals/en/binlog-event-header.html

Binlog header Payload:
4 timestamp
1 event type
4 server-id
4 event-size
if binlog-version > 1:
4 log pos
2 flags

接下来代码获取文件头的内容:

1.1.timestamp

前4个字节是该事件的时间戳:

byte[] rawTimestamp = new byte[4];
blogFileBuffer.get(rawTimestamp);

根据文档,timestamp是一个无符号的4字节长度的整型,这里需要注意的2个细节是:
  - Java没有unsigned关键字,没有无符号数,这里需要用第三放的库或者直接实现无符号数。
  - 不同平台,使用不同字节序的概念,如,一个数值,1234,litte-endian存储的是4321,而big-endian存储的是1234。
  - 在Java中,通过4个字节记录一个整型,8个字节记录一个长整型,但在binlog中,为节省空间,提高性能,可能是1个字节,2个字节,3个字节,。。。

在BinlogMiner中,是自己写函数实现的无符号数读取,具体可以看PaserHelper这个工具类,这里就不列出来:

ByteOrder order = ByteOrder.LITTLE_ENDIAN;  //little-endian,小字节序,x86平台都是。
long timestampValue = ParserHelper.getUnsignedLong(rawTimestamp, order); //获得了存储的值; //这里获得的timestamp是unix timestamp,是基于秒的,而java的Date是基于毫秒(milliseconds)的,所以这里转换要乘以1000.
Date timestamp = new Date(timestampValue * 1000L);
System.out.println(timestamp.toString()); // 这里就获得了可读的事件日期;

1.2. event type

1个字节的无符号数,说明该事件的类型:

byte[] rawEventType = new byte[1];
blogFileBuffer.get(rawEventType);
int eventTypeValue = ParserHelper.getUnsignedInteger(rawEventType, order);
System.out.print(eventTypeValue);

这里输出的事件类型为15,转换成十六进制为0x0F,根据文档:(https://dev.mysql.com/doc/internals/en/binlog-event-type.html)正好是FD事件。

1.3. server-id

MySQL的服务器id,4字节无符号:

byte[] rawServerId = new byte[4];
blogFileBuffer.get(rawServerId);
long serverId = ParserHelper.getUnsignedInteger(rawServerId, order);

1.4. event-size

该事件的长度(字节数),4字节无符号数;

byte[] rawEventSize = new byte[4];
blogFileBuffer.get(rawEventSize);
long eventSize = ParserHelper.getUnsignedInteger(rawEventSize, order);

1.5. log pos

该事件的结束位置,4字节无符号数,v4版本才包含,v4以前的START_EVENT_V3其实也是可以根据event-size计算得log pos的。

byte[] rawLogPos = new byte[4];
blogFileBuffer.get(rawLogPos);
long logPos = ParserHelper.getUnsignedInteger(rawLogPos, order);

1.6. flags

该事件的标志(https://dev.mysql.com/doc/internals/en/binlog-event-flag.html)

byte[] rawFlags = new byte[2];
blogFileBuffer.get(rawFlags);
long flags = ParserHelper.getUnsignedInteger(rawFlags, order);

至此,事件的通用头分析结束。

2. Event Body

Common Header后就是事件内容(Event Body),先看官方定义:

FORMAT_DESCRIPTION_EVENT:A format description event is the first event of a binlog for binlog-version 4. It describes how the other events are layed out.

Payload:
2 binlog-version
string[50] mysql-server version
4 create timestamp
1 event header length
string[p] event type header lengths

注意:这里的文档写的是Payload,但实际分析的时候会发现,应该理解为前文概述中的post header。实际的playload根据版本不同为1个字节,或者0个字节,用于标识CRC算法,先做个引子,后文会详细说明。

2.1.binlog-version

这里自描述了该二进制日志文件的版本,2个字节无符号数:

byte[] rawBinlogVersion = new byte[2];
blogFileBuffer.get(rawBinlogVersion);
int binlogVersion =ParserHelper.getUnsignedInteger(rawBinlogVersion, order);
System.out.print(binlogVersion); //--> 输出4,v4版本

2.2. mysql-server version

记录了服务器的版本,50个字节,字符串类型。

byte[] rawserverVersion = new byte[50];
blogFileBuffer.get(rawserverVersion);
String serverVersion = new String(rawserverVersion).trim();
System.out.print(serverVersion); //--> 输出 5.7.18-15-log

2.3. create timestamp

二进制文件创建的事件戳。4字节无符号数:

byte[] rawCreateTimestamp = new byte[4];
blogFileBuffer.get(rawCreateTimestamp);
long createTimestampValue = ParserHelper.getUnsignedInteger(rawCreateTimestamp, order);
Date createTimestamp = new Date(createTimestampValue * 1000L);

2.4. event header length

通用头(Common header)的长度, 1个字节,无符号数。

byte[] rawCommonHeaderSize = new byte[1];
blogFileBuffer.get(rawCommonHeaderSize);
int commonHeaderSize = ParserHelper.getUnsignedInteger(rawCommonHeaderSize, order);
System.out.print(commonHeaderSize); //--> 输出是19,除了v1版本,其他版本都是固定的19个字节。

2.5. event type header lengths

这里的是每个事件的post header的长度的字节数组,每一个事件一个字节。
首先这个数组长度不是固定的(每个版本包含的事件数很可能是不同的),还可能包含checksum部分,前文说过,在MySQL 5.6.2版本开始引入Checksum, 这里可能还有Checksum的信息。这部分解析就需要些技巧,首先假设“event type header lengths”一直到事件结束。

int pos = blogFileBuffer.position(); //get current position;
byte[] remainBytes = new byte[logPos - pos]; //根据当前的位置和结束位置,计算出该事件剩余的字节数
blogFileBuffer.get(remainBytes);

那么根据这个数组,FD事件的Post Header的长度是多少?根据官方文档,可以根据(事件的编号-1)作为索引获取:

byte rawFdPostHeaderLength = remainBytes[0x0f - 1]; //FD event = 0x0f
int fdPostHeaderLength = rawFdPostHeaderLength & 0xFF; //这里是byte转无符号int
System.out.println(fdPostHeaderLength); //--> FD的post header长度为95个字节。

可以通过log pos和post header来计算出checksum部分的长度,其中根据官方文档,用1个字节记录checksum类型,剩下的为checksum的值:

long crcSize = logPos - (starPos + 19 + fdPostHeaderLength); // 输出结构--> 5 (1 byte crc type + 4 byte crc value)

所以实际的Post header数组为:

byte[] postHeaderSizeArray = Arrays.copyOfRange(remainBytes, 0, remainBytes.length-5);

2.6. checksum算法

所以checksum的类型,和checksum的值为:

int crcType =remainBytes[postHeaderSizeArray.length] & 0xff;
System.out.println(ParserHelper.getHexString(crcValue)); // --> = 1, 根据文档也就是CRC32
byte[] crcValue = Arrays.copyOfRange(remainBytes, remainBytes.length-(5-1), remainBytes.length);
System.out.println(ParserHelper.getHexString(crcValue));
//--> 本案例的输出为F2FABAC5,可以通过mysqlbinlog比对(0xc5bafaf2), 注意,因为是little-endian平台,这里需要倒过来。

至此,第一个事件分析完毕。最后附上完整代码(注意:ParserHelper来自于BinlogMiner):

import java.io.IOException;
import java.io.RandomAccessFile;
import java.nio.ByteOrder;
import java.nio.MappedByteBuffer;
import java.nio.channels.FileChannel;
import java.nio.channels.FileChannel.MapMode;
import java.util.Arrays;
import java.util.Date; import org.littlestar.mysql.binlog.parser.ParserHelper; public class T2 {
public static void main(String[] args) throws IOException {
String binlogFileName = "D:\\build\\binlogs\\5.7.18\\blog.000020";
RandomAccessFile binlogFile = new RandomAccessFile(binlogFileName, "r");
FileChannel binlogFileChannel = binlogFile.getChannel();
MappedByteBuffer blogFileBuffer = binlogFileChannel.map(MapMode.READ_ONLY, 0, binlogFile.length()); //skip 4 bytes image number;
blogFileBuffer.position(4);
int starPos = blogFileBuffer.position();
//Common Header..
byte[] rawTimestamp = new byte[4];
blogFileBuffer.get(rawTimestamp); ByteOrder order = ByteOrder.LITTLE_ENDIAN;
long timestampValue = ParserHelper.getUnsignedLong(rawTimestamp, order);
Date timestamp = new Date(timestampValue * 1000L); byte[] rawEventType = new byte[1];
blogFileBuffer.get(rawEventType);
int eventTypeValue = ParserHelper.getUnsignedInteger(rawEventType, order); byte[] rawServerId = new byte[4];
blogFileBuffer.get(rawServerId);
long serverId = ParserHelper.getUnsignedInteger(rawServerId, order); byte[] rawEventSize = new byte[4];
blogFileBuffer.get(rawEventSize);
long eventSize = ParserHelper.getUnsignedInteger(rawEventSize, order); byte[] rawLogPos = new byte[4];
blogFileBuffer.get(rawLogPos);
int logPos = ParserHelper.getUnsignedInteger(rawLogPos, order); byte[] rawFlags = new byte[2];
blogFileBuffer.get(rawFlags);
int flags = ParserHelper.getUnsignedInteger(rawFlags, order); //Event Body byte[] rawBinlogVersion = new byte[2];
blogFileBuffer.get(rawBinlogVersion);
int binlogVersion = ParserHelper.getUnsignedInteger(rawBinlogVersion, order); byte[] rawserverVersion = new byte[50];
blogFileBuffer.get(rawserverVersion);
String serverVersion = new String(rawserverVersion).trim(); byte[] rawCreateTimestamp = new byte[4];
blogFileBuffer.get(rawCreateTimestamp);
long createTimestampValue = ParserHelper.getUnsignedInteger(rawCreateTimestamp, order);
Date createTimestamp = new Date(createTimestampValue * 1000L); byte[] rawCommonHeaderSize = new byte[1];
blogFileBuffer.get(rawCommonHeaderSize);
int commonHeaderSize = ParserHelper.getUnsignedInteger(rawCommonHeaderSize, order); int pos = blogFileBuffer.position(); //get current position;
byte[] remainBytes = new byte[logPos - pos];
blogFileBuffer.get(remainBytes); byte rawFdPostHeaderLength = remainBytes[0x0f - 1]; //FD event = 0x0f
int fdPostHeaderLength = rawFdPostHeaderLength & 0xFF; //
System.out.println(fdPostHeaderLength);
long crcSize = logPos - (starPos + 19 + fdPostHeaderLength); // --> 5 (1 byte crc type + crc value)
byte[] postHeaderSizeArray = Arrays.copyOfRange(remainBytes, 0, remainBytes.length-5);
int crcType =remainBytes[postHeaderSizeArray.length] & 0xff;
byte[] crcValue = Arrays.copyOfRange(remainBytes, remainBytes.length-4, remainBytes.length);
System.out.println(ParserHelper.getHexString(crcValue)); binlogFileChannel.close();
binlogFile.close(); }
}

MySQL二进制日志分析-代码实现(FORMAT_DESCRIPTION_EVENT)的更多相关文章

  1. MySQL二进制日志分析-概述篇

    MySQL从3.23版本开始引入了二进制日志,用于的数据复制, 二进制日志根据MySQL的版本不同,目前有4个版本: https://dev.mysql.com/doc/internals/en/bi ...

  2. MySQL二进制日志总结

    二进制日志简单介绍 MySQL的二进制日志(binary log)是一个二进制文件,主要用于记录修改数据或有可能引起数据变更的MySQL语句.二进制日志(binary log)中记录了对MySQL数据 ...

  3. MySQL二进制日志功能介绍

    二进制日志记录所有更新数据的SQL语句,其中也包含可能更新数据的SQL语句,例如DELETE语句执行过程中无匹配的行.二进制日志中还包含了与执行SQL语句相关的内容,例如SQL语句执行的时间.错误代码 ...

  4. MySQl Study学习之--MySQl二进制日志管理

    MySQl Study学习之--MySQl二进制日志管理 MySQL二进制日志(Binary Log)   a.它包括的内容及作用例如以下:     包括了全部更新了数据或者已经潜在更新了数据(比方没 ...

  5. mysql 二进制日志后缀数字最大为多少

    之前看到mysql二进制日志后面会加一个以数字递增为结尾的后缀,一直在想当尾数到达999999后会发生什么情况,先查了一下官网,对后缀有这样一句介绍:The server creates binary ...

  6. MySQL二进制日志的备份和恢复

    二进制日志:记录数据库修改的相关操作,作用是即时点回复,主从复制 可以按时间滚动,也可以按大小滚动 server-id:服务器身份标识 一.二进制文件的删除方法,千万不要手动删除 PURGE BINA ...

  7. 删除MySQL二进制日志

    服务器上的120G SSD硬盘空间用了92%,检查后发现,原来是 MySQL的二进制日志没有及时清除,占用了大量的空间, 于是直接用命令:reset master 一把删干净了. 1 reset ma ...

  8. MySQL二进制日志(binary log)总结

    本文出处:http://www.cnblogs.com/wy123/p/7182356.html (保留出处并非什么原创作品权利,本人拙作还远远达不到,仅仅是为了链接到原文,因为后续对可能存在的一些错 ...

  9. 查看mysql二进制日志报错问题

    在排查网站被黑时想通过Mysql二进制日志找出修改字段时间,但是使用mysqlbinlog报错: [root@zfszsw1 bin]# ./mysqlbinlog /opt/mysql-bin.00 ...

随机推荐

  1. C语言编程入门之--第五章C语言基本运算和表达式-part3

    5.3  挑几个运算符来讲 常用的运算符除了加减乘除(+-*/)外,还有如下: 注意:以下运算符之间用逗号隔开,C语言中也有逗号运算符,这里不讲逗号运算符. 1. 赋值运算符 =,+=,*= 2. 一 ...

  2. C# - 协变、逆变 看完这篇就懂了

    1. 基本概念 官方:协变和逆变都是术语,前者指能够使用比原始指定的派生类型的派生程度更大(更具体的)的类型,后者指能够使用比原始指定的派生类型的派生程度更小(不太具体的)的类型.[MSDN] 公式: ...

  3. 新手学习FFmpeg - 调用API完成录屏

    调用FFMPEG Device API完成Mac录屏功能. 调用FFMPEG提供的API来完成录屏功能,大致的思路是: 打开输入设备. 打开输出设备. 从输入设备读取视频流,然后经过解码->编码 ...

  4. nginx有哪些作用

    Nginx应该是现在最火的web和反向代理服务器,没有之一.她是一款诞生于俄罗斯的高性能web服务器,尤其在高并发情况下,相较Apache,有优异的表现. 那除了负载均衡,她还有什么其他的用途呢,下面 ...

  5. C#开发BIMFACE系列3 服务端API之获取应用访问凭证AccessToken

    系列目录     [已更新最新开发文章,点击查看详细] BIMFACE 平台为开发者提供了大量的服务器端 API 与 JavaScript API,用于二次开发 BIM 的相关应用. BIMFACE ...

  6. Linux系统简介以及基本操作(一)

    Linux简介(操作系统) Linux发展史(了解) Linux出现于1991年,是由芬兰赫尔辛基大学学生李纳斯·托瓦兹(Linus Torvalds)偶然发现的,他当时是为了方便下载学校网站的一些视 ...

  7. Windows Server 2008 R2

    Windows Server 2008 R2 Windows Server Core 微软因为向往 Linux 的纯命令行, 提出了 Windows Server Core 只能使用命令, 但是只要配 ...

  8. HAOI2006 (洛谷P2341)受欢迎的牛 题解

    HAOI2006 (洛谷P2341)受欢迎的牛 题解 题目描述 友情链接原题 每头奶牛都梦想成为牛棚里的明星.被所有奶牛喜欢的奶牛就是一头明星奶牛.所有奶 牛都是自恋狂,每头奶牛总是喜欢自己的.奶牛之 ...

  9. P2154 [SDOI2009]虔诚的墓主人 树状数组

    https://www.luogu.org/problemnew/show/P2154 题意 在一个坐标系中,有w(1e5)个点,这个图中空点的权值是正上,正下,正左,正右各取k个的排列组合情况.计算 ...

  10. BZOJ-2743: [HEOI2012]采花 前缀和 树状数组

    BZOJ-2743 LUOGU:https://www.luogu.org/problemnew/show/P4113 题意: 给一个n长度的序列,m次询问区间,问区间中出现两次及以上的数字的个数.n ...