一、序列图

二、源码分析

2.1 Sink

Sink阶段所做的事情，就是根据一定的规则，对binlog数据进行一定的过滤。我们之前跟踪过parser过程的代码，发现在parser完成后，会把数据放到一个环形队列TransactionBuffer中，也就是这个方法：

transactionBuffer.add(entry);

我们具体看下add这个方法。

public void add(CanalEntry.Entry entry) throws InterruptedException {

    switch (entry.getEntryType()) {

        case TRANSACTIONBEGIN:

            flush();// 刷新上一次的数据

            put(entry);

            break;

        case TRANSACTIONEND:

            put(entry);

            flush();

            break;

        case ROWDATA:

            put(entry);

            // 针对非DML的数据，直接输出，不进行buffer控制

            EventType eventType = entry.getHeader().getEventType();

            if (eventType != null && !isDml(eventType)) {

                flush();

            }

            break;

        default:

            break;

    }

}

判断一下事件的类型，如果是事务开头，那么直接刷新之前的数据，然后把当前事件加到队列中；如果是事务的结束，那么先把当前事务放到队列后，刷新到下一个阶段；如果是普通的事件，直接放到队列中，如果事务头类型不为空，且不是DML类型，那么直接刷新队列中数据到下一个阶段。

我们需要理清楚这块的逻辑，什么时候flush，什么时候put，针对不同的事件，采取的策略不一样。

这里我们分析下flush和put两个步骤。

2.1.1 flush队列

这块其实还没有涉及到sink阶段，还在维护一个事件环形队列。这个环形队列，维护了两个指针，一个是flush的指针，一个是put的指针，flush的指针永远是滞后于put指针的。

private void flush() throws InterruptedException {

    long start = this.flushSequence.get() + 1;

    long end = this.putSequence.get();

    if (start <= end) {

        List<CanalEntry.Entry> transaction = new ArrayList<CanalEntry.Entry>();

        for (long next = start; next <= end; next++) {

            transaction.add(this.entries[getIndex(next)]);

        }

        flushCallback.flush(transaction);

        flushSequence.set(end);// flush成功后，更新flush位置

    }

}

start就是flush的指针，end就是put的指针，flush的动作就是把当前flush到put中间的数据，全部刷新到下一个阶段。具体传递到下一个阶段的代码在flushCallback.flush方法中。这块我们下文再分析。

2.1.2 put

private void put(CanalEntry.Entry data) throws InterruptedException {

    // 首先检查是否有空位

    if (checkFreeSlotAt(putSequence.get() + 1)) {

        long current = putSequence.get();

        long next = current + 1;

        // 先写数据，再更新对应的cursor,并发度高的情况，putSequence会被get请求可见，拿出了ringbuffer中的老的Entry值

        entries[getIndex(next)] = data;

        putSequence.set(next);

    } else {

        flush();// buffer区满了，刷新一下

        put(data);// 继续加一下新数据

    }

}

这块的注释都比较清晰了，就不赘述了。

2.1.3 flush到sink

具体的代码在AbstractEventParser中，定义transactionBuffer的地方。

public void flush(List<CanalEntry.Entry> transaction) throws InterruptedException {

    boolean successed = consumeTheEventAndProfilingIfNecessary(transaction);

    if (!running) {

        return;

    }

    if (!successed) {

        throw new CanalParseException("consume failed!");

    }

    LogPosition position = buildLastTransactionPosition(transaction);

    if (position != null) { // 可能position为空

        logPositionManager.persistLogPosition(AbstractEventParser.this.destination, position);

    }

}

主要的处理在consumeTheEventAndProfilingIfNecessary里面。这里面调用了eventSink.sink()方法。

2.1.4 sink

这里面进行了binlog数据的过滤。首先判断是否需要过滤事务头和尾，如果需要过滤的话，直接过滤掉，默认不过滤。

遍历传到这个阶段的binlog列表，根据正则表达式判断，是否需要进行过滤，一般来说是根据表名、库名等进行过滤。这边的过滤类主要是AviaterRegexFilter，根据库名.表名和表达式进行过滤。如果需要进行过滤，那么直接把这个事件过滤。否则，加到binlog列表中，进行二次过滤。第二次过滤的主要内容是HEARTBEAT类型的事件，主要的代码在这里：

protected boolean doSink(List<Event> events) {

    for (CanalEventDownStreamHandler<List<Event>> handler : getHandlers()) {

        events = handler.before(events);//处理heartbeat事件

    }

    int fullTimes = 0;

    do {

        if (eventStore.tryPut(events)) {

            for (CanalEventDownStreamHandler<List<Event>> handler : getHandlers()) {

                events = handler.after(events);

            }

            return true;

        } else {

            applyWait(++fullTimes);

        }

        for (CanalEventDownStreamHandler<List<Event>> handler : getHandlers()) {

            events = handler.retry(events);

        }

    } while (running && !Thread.interrupted());

    return false;

}

这里的CanalEventDownStreamHandler其实只有HeartBeatEntryEventHandler，也就是在before方法中把heartbeat事件从events去掉。这个心跳事件其实是parser过程生成的，我们之前有提到过。after目前是空的方法。

去掉之后，剩余的事件列表就会被调用tryPut()方法，送到下一步骤store中。

这里还有个applyWait方法，防止无限等待。

private void applyWait(int fullTimes) {

    int newFullTimes = fullTimes > maxFullTimes ? maxFullTimes : fullTimes;

    if (fullTimes <= 3) { // 3次以内

        Thread.yield();

    } else { // 超过3次，最多只sleep 10ms

        LockSupport.parkNanos(1000 * 1000L * newFullTimes);

    }

}

2.2 Store

目前只有基于内存模式的Store，这个阶段是真正Server中的落盘阶段。数据经历了mysql master到parser，再到sink，最后终于到了这里。

public boolean tryPut(List<Event> data) throws CanalStoreException {

    if (data == null || data.isEmpty()) {

        return true;

    }

    final ReentrantLock lock = this.lock;

    lock.lock();

    try {

        if (!checkFreeSlotAt(putSequence.get() + data.size())) {

            return false;

        } else {

            doPut(data);

            return true;

        }

    } finally {

        lock.unlock();

    }

}

在进行数据put的时候，加了一把锁。首先计算下是否还有剩余的空间进行数据处理，这里的计算，不光是计算了队列的剩余长度，还计算了剩余空间。队列的长度默认是16*1024，如果空间不足，直接拒绝，返回false，等待空间空余出来后，再进行put操作。否则，直接doPut()。

/**

 * 执行具体的put操作

 */

private void doPut(List<Event> data) {

    long current = putSequence.get();

    long end = current + data.size();

    // 先写数据，再更新对应的cursor,并发度高的情况，putSequence会被get请求可见，拿出了ringbuffer中的老的Entry值

    for (long next = current + 1; next <= end; next++) {

        entries[getIndex(next)] = data.get((int) (next - current - 1));

    }

    putSequence.set(end);

    // 记录一下gets memsize信息，方便快速检索

    if (batchMode.isMemSize()) {

        long size = 0;

        for (Event event : data) {

            size += calculateSize(event);

        }

        putMemSize.getAndAdd(size);

    }

    // tell other threads that store is not empty

    notEmpty.signal();

}

这里主要对put一些指针，还有空间做了重新的计算。放到队列中之后，通知其他等待notEmpty的线程，来进行数据的获取，这时候，client可以进行数据获取了。

【Canal源码分析】Sink及Store工作过程的更多相关文章

【Canal源码分析】Canal Server的启动和停止过程
本文主要解析下canal server的启动过程,希望能有所收获. 一.序列图 1.1 启动 1.2 停止二.源码分析整个server启动的过程比较复杂,看图难以理解,需要辅以文字说明. 首先程序 ...
Spring IOC 容器源码分析 - 余下的初始化工作
1. 简介本篇文章是"Spring IOC 容器源码分析"系列文章的最后一篇文章,本篇文章所分析的对象是 initializeBean 方法,该方法用于对已完成属性填充的 bea ...
SpringBoot源码分析之SpringBoot的启动过程
SpringBoot源码分析之SpringBoot的启动过程发表于 2017-04-30 | 分类于 springboot | 0 Comments | 阅读次数 SpringB ...
Spring源码分析专题 —— IOC容器启动过程（上篇）
声明 1.建议先阅读<Spring源码分析专题 -- 阅读指引> 2.强烈建议阅读过程中要参照调用过程图,每篇都有其对应的调用过程图 3.写文不易,转载请标明出处前言关于 IOC 容器 ...
Envoy 源码分析－－程序启动过程
目录 Envoy 源码分析--程序启动过程初始化 main 入口 MainCommon 初始化服务 InstanceImpl 初始化启动 main 启动入口服务启动流程 LDS 服务启动流程 ...
Spring源码分析之Bean的创建过程详解
前文传送门: Spring源码分析之预启动流程 Spring源码分析之BeanFactory体系结构 Spring源码分析之BeanFactoryPostProcessor调用过程详解本文内容: 在 ...
【Canal源码分析】parser工作过程
本文主要分析的部分是instance启动时,parser的一个启动和工作过程.主要关注的是AbstractEventParser的start()方法中的parseThread. 一.序列图二.源码分 ...
【Canal源码分析】Canal Instance启动和停止
一.序列图 1.1 启动 1.2 停止二.源码分析 2.1 启动这部分代码其实在ServerRunningMonitor的start()方法中.针对不同的destination,启动不同的Cana ...
「从零单排canal 03」 canal源码分析大纲
在前面两篇中,我们从基本概念理解了canal是一个什么项目,能应用于什么场景,然后通过一个demo体验,有了基本的体感和认识. 从这一篇开始,我们将从源码入手,深入学习canal的实现方式.了解can ...

随机推荐

java 多线程例子
java 多线程例子编写具有多线程能力的程序经常会用到的方法有: run(), start(), wait(), notify(), notifyAll(), sleep(), yield(), ...
基于Kurento的WebRTC移动视频群聊技术方案
说在前面的话:视频实时群聊天有三种架构: Mesh架构:终端之间互相连接,没有中心服务器,产生的问题,每个终端都要连接n-1个终端,每个终端的编码和网络压力都很大.群聊人数N不可能太大. Router ...
SOFA 源码分析 — 调用方式
前言 SOFARPC 提供了多种调用方式满足不同的场景. 例如,同步阻塞调用:异步 future 调用,Callback 回调调用,Oneway 调用. 每种调用模式都有对应的场景.类似于单进程中的调 ...
Mysql 查询条件中字符串尾部有空格也能匹配上的问题
一.表结构 TABLE person id name 1 你 2 你(一个空格) 3 你(二个空格) 二.查询与结果 select * from person where `name` = ? 无论 ...
ambari安装集群下安装kafka manager
简介: 不想通过kafka shell来管理kafka已创建的topic信息,想通过管理页面来统一管理和查看kafka集群.所以选择了大部分人使用的kafka manager,我一共有一台主机mast ...
MySQL中的外键约束
Fibonacci数列的解法
Fibonacci数列的解法: 1.递归算法递归的概念,我说不清楚,语文不好.但是核心思想,我认为就是入栈出栈.比方说,你想要求得某个结果,如果一步求解不出来,那么先把最后一步的计算步骤进栈,先不考 ...
连接Access数据遇到的问题总览！
由于要访问一个厂商的access数据,所以要写一个对于access的demo,相对于mysql.sqlserver来说,连接access花费了不少精力,现在将遇到的问题分享出来,以后大家遇到类似问题时 ...
sql中关于存在就不做操作的代码块
前言: 在开发中,经常会对数据库表进行新增修改操作,那么如果表中的属性信息已然存在啦!就没必要去做重复的操作了... 代码块 BEGIN SELECT "COUNT"(*) int ...
语音识别中的CTC算法的基本原理解释
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文作者:罗冬日目前主流的语音识别都大致分为特征提取,声学模型,语音模型几个部分.目前结合神经网络的端到端的声学模型训练方法主要CTC和基 ...

【Canal源码分析】Sink及Store工作过程