本文源码基于flink1.14 平台用户在使用我们的flinkSql时经常会开启minaBatch来优化状态读写 所以从源码的角度具体解读一下miniBatch的原理 先看一下flinksql是如何触发miniBatch的优化的 主要就是这个Calcite的rule了,来具体看一下 在对应的match方法中 会根据miniBatch的类型判断,是否需要添加一个Assigner的节点 这个assigner是干嘛的呢?这个Assinger是一个execNode和窗口的assigner是不一样的,这里…
源码分析基于flink1.14 Join是flink中最常用的操作之一,但是如果滥用的话会有很多的性能问题,了解一下Flink源码的实现原理是非常有必要的 本文的join主要是指flink sql的Regular join 也就是平时我们的双流join中普通的full join ,left join,right join 先找到calcite的relNode转换rule 会将逻辑节点logiceJoin转换成flink的FlinkLogicalJoin 接着看下哪里Rule会转换这个FlinkL…
本文源码基于flink1.14 在帮助用户排查任务的时候,经常会发现部分task处理的慢,在Exactly once语义时需要等待快照的对齐而白白柱塞的情况 在flink1.11版本引入了非对齐的checkpoint,来解决这种柱塞问题,所以来看看这个新特性的源码是如何实现的 先看下官网的图来总的说下实现原理,再来看看源码 flink是基于Chandy-Lamport算法来实现全局快照的,其核心就是在数据中间穿插barrier 当一个task上游同一批次所有的barrier到齐时,就可以触发快照…
昨天在社区群看到有人问,为什么水印取最小的一条?这里分享一下自己的理解 首先水印一般是设置为:(事件时间 - 指定的值)  这里的作用是解决迟到数据的问题,从源码来看一下它如何解决的 先来看下windowOperator.java接收到数据以后做了什么 在processElement方法中 因为这里是事件时间窗口所以会默认注册一个事件时间trigger,这是默认trigger的onElement方法 当返回continue时,也就是说水印还没有达到,这条数据属于的窗口的右边界,也就是说窗口还没有…
上一章<windows下flink示例程序的执行> 简单介绍了一下flink在windows下如何通过flink-webui运行已经打包完成的示例程序(jar),那么我们为什么要使用flink呢? flink的特征 官网给出的特征如下: 1.一切皆为流(All streaming use cases ) 事件驱动应用(Event-driven Applications) 流式 & 批量分析(Stream & Batch Analytics) 数据管道&ETL(Data…
本文源码基于flink1.14 上一篇文章分析了<flink的minibatch微批处理>的源码 乘热打铁分析一下两阶段聚合的源码,因为使用两阶段要先开启minibatch,至于为什么后面会分析到 两阶段聚合的原理,还是简单提一下 如下图,当聚合发生热点的时候,可以在聚合前,先进行一个本地的聚合,先减小数据量,后接正常的数据交换以后聚合,来达到一个解热点的目的, 先来看下两阶段聚合的Calcite优化rule 看下什么情况会匹配上 并且在onmatch方法中会判断开启了minibatch,以及…
前面介绍了批量处理的WorkCount是如何执行的 <从flink-example分析flink组件(1)WordCount batch实战及源码分析> <从flink-example分析flink组件(2)WordCount batch实战及源码分析----flink如何在本地执行的?> 这篇从WordCount的流式处理开始 /** * Implements the "WordCount" program that computes a simple wor…
前几天在社区群上,有人问了一个问题 既然上游最小水印会决定窗口触发,那如果我上游其中一条流突然没有了数据,我的窗口还会继续触发吗? 看到这个问题,我蒙了???? 对哈,因为我是选择上游所有流中水印最小的一条作为当前水印时间,那万一最小水印的那条流突然里面没有数据了 那我的最小水印不就一直不往前走了,一直是那个没有数据流的水印了吗,因为它的水印最小,而且一直不会更新了 ????然后窗口再也不触发???? 思考了一下,发现好像也对,当我有一个上游的水印没来的时候,我就等着呗,谁知道他是不是延迟了 但…
1.简介 一般情况下,开源框架都会提供插件或其他形式的拓展点,供开发者自行拓展.这样的好处是显而易见的,一是增加了框架的灵活性.二是开发者可以结合实际需求,对框架进行拓展,使其能够更好的工作.以 MyBatis 为例,我们可基于 MyBatis 插件机制实现分页.分表,监控等功能.由于插件和业务无关,业务也无法感知插件的存在.因此可以无感植入插件,在无形中增强功能. 开发 MyBatis 插件需要对 MyBatis 比较深了解才行,一般来说最好能够掌握 MyBatis 的源码,门槛相对较高.本篇…