问题描述

近期业务反馈，开启了 mini-batch 之后，出现了数据不准的情况，关掉了 mini-batch 之后，就正常了，因此业务方怀疑，是不是 Flink 的 mini-batch 存在 bug ？

问题排查

初步分析

mini-batch 已经在内部大规模使用，目前没有发现一例和开启 mini-batch 有关，同时 mini-batch 本质只是将数据进行攒批然后计算，并没有修改核心的运算逻辑.
开关 mini-batch 的关键时数据的批量计算，是否在批量计算使得原本存在 bug 的代码暴露问题
业务在 Flink SQL 使用了多个双流 join 和 group window，如果不注意使用，很可能导致乱序，最终的错误结果是某条数据没有被正常更新，和乱序的情况比较类似.

综上考虑，整体排查的方向还是排查 SQL 的业务逻辑是否存在乱序的 case，开启了 mini-batch 后是否加剧了这种乱序的产生

代码逻辑梳理

flowchart LR
join1(join1 \n item_day, item_key) --> join2
join2(join2 \n item_day, item_key) --> join3
join3(join3 \n item_day, item_key) --> group1
group1(group1 \n item_day, item_key) --> group2
group2(group2 \n item_day, item_key, key1, key2, key3) --> sink
sink(sink \n pk: item_day, item_key)

抽象之后的 DAG 如图所示，很明显，前面的 join1, join2, join3, group1 都是基于 item_day 和 item_key 进行 hash，这样数据可以保证不会出现乱序，

但最后的 group2, group by [item_day, item_key, key1， key2， key3]，Flink 会基于这些字段整体进行 hash，因此可能会存在 item_day 和 item_key 相同的数据，由于 key1, key2 不同被 hash 到不同的 subtask，同时最终的 Sink 节点，主键为 item_day 和 item_key ，又会基于 item_day 和 item_key 进行 hash，这种就出现了乱序问题.

修复手段

最后的 group by [item_day, item_key, key1, key2, key3]，核心还是为了聚合相同的 item_day和 item_key， key1, key2, key3 不属于 value 类型数据，也参与聚合，主要为了取最后一条.

-- 原始 SQL

SELECT item_day, item_key, key1, key2, key3, sum(value)

FROM XXX

GROUP BY item_day, item_key, key1, key2, key3

-- 修改为

SELECT item_day, item_key, last_value(key1), last_value(key2), last_value(key3), sum(value)

FROM XXX

GROUP BY item_day, item_key

经过修改之后，保证整个 Flink 处理链路中，相同的主键对应的数据，无论经过多少次 hash，都是在同一个并行处理，这种才能保证最终结果的正确性

结论

修改后，业务的结果恢复正常，因此 Mini-batch 并不是导致作业出现问题的核心原因，核心原因还是乱序，而开启 mini-batch 会加剧这种乱序问题的触发。

开启 mini-batch 之后，具有相同 key 的数据，如果落到了同一个 batch，这样物理上的时间差就更短，因而更容易暴露问题。

Flink mini-batch "引发" 的乱序问题的更多相关文章

tf.train.batch的偶尔乱序问题
tf.train.batch的偶尔乱序问题觉得有用的话,欢迎一起讨论相互学习~Follow Me tf.train.batch的偶尔乱序问题我们在通过tf.Reader读取文件后,都需要用batc ...
Apache Flink 如何正确处理实时计算场景中的乱序数据
一.流式计算的未来在谷歌发表了 GFS.BigTable.Google MapReduce 三篇论文后,大数据技术真正有了第一次飞跃,Hadoop 生态系统逐渐发展起来. Hadoop 在处理大批量 ...
Flink 实践教程-进阶（5）：排序（乱序调整）
作者:腾讯云流计算 Oceanus 团队流计算 Oceanus 简介流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的具备一站开发.无缝连接.亚 ...
mysql in查询结果乱序引发的思考
Mysql in查询结果集乱序 SQL: select * from table where id IN (3,6,9,1,2,5,8,7); 这样的情况取出来后,其实,id还是按1,2,3,4, ...
转载： scikit-learn学习之K-means聚类算法与 Mini Batch K-Means算法
版权声明:<—— 本文为作者呕心沥血打造,若要转载,请注明出处@http://blog.csdn.net/gamer_gyt <—— 目录(?)[+] ================== ...
FlinkSQL 之乱序问题
乱序问题在业务编写 FlinkSQL 时, 非常常见的就是乱序相关问题, 在出现问题时,非常难以排查,且无法稳定复现,这样无论是业务方,还是平台方,都处于一种非常尴尬的地步. 在实时 join 中, ...
由乱序播放说开了去-数组的打乱算法Fisher–Yates Shuffle
之前用HTML5的Audio API写了个音乐频谱效果,再之后又加了个播放列表就成了个简单的播放器,其中弄了个功能是'Shuffle'也就是一般播放器都有的列表打乱功能,或者理解为随机播放. 但我觉得 ...
iOS之数组的排序（升序、降序及乱序）
#pragma mark -- 数组排序方法(升序) - (void)arraySortASC{ //数组排序 //定义一个数字数组 NSArray *array = @[@(3),@(4),@(2) ...
volatile关键字及编译器指令乱序总结
本文简单介绍volatile关键字的使用,进而引出编译期间内存乱序的问题,并介绍了有效防止编译器内存乱序所带来的问题的解决方法,文中简单提了下CPU指令乱序的现象,但并没有深入讨论. 以下是我搭建的博 ...

随机推荐

SpringMVC访问静态资源的问题。
在项目中引用css和js文件一直出错,反复修改文件路径始终访问不到.究其原因原来是应该在web.xml 文件中添加访问静态资源的默认servlet. 如下. <servlet-mapping&g ...
Vue学习之--------组件嵌套以及VueComponent的讲解（代码实现）（2022/7/23）
欢迎加入刚建立的社区:http://t.csdn.cn/Q52km 加入社区的好处: 1.专栏更加明确.便于学习 2.覆盖的知识点更多.便于发散学习 3.大家共同学习进步 3.不定时的发现金红包(不多 ...
resutful的使用和增强版的swagger2
1.REST的特征统一接口:客户和服务器之间通信的方法必须统一,RESUTFUL风格的数据元操作CRUD分别对应HTTP方法----GET用来获取数据源,POST用来新建资源,PUT用来更新资源,, ...
抛砖系列之redis监控命令
前言 redis是一款非常流行的kv数据库,以高性能著称,其高吞吐.低延迟等特性让广大开发者趋之若鹜,每每看到别人发出的redis故障报告都让我产生一种居安思危,以史为鉴的危机感,恰逢今年十一西安烟雨 ...
python渗透测试入门——基础的网络编程工具
<Python黑帽子--黑客与渗透测试编程之道学习>这本书是我在学习安全的过程中发现的在我看来十分优秀的一本书,业内也拥有很高的评价,所以在这里将自己的学习内容分享出来. 1.基础的网络编 ...
6.-Django设计模式及模版层
一.MVC (java等其他语言) MVC代表Model-view-Contorller(模型-视图-控制器)模式 M模型层主要用于对数据库层的封装 V视图层用于向用户展示结果 C控制器用于处理请求. ...
Fidder 抓包工具
fiddler抓包原理如上图本文一些不重要的鸡肋功能自行百度 1. 安装与配置 1. 安装安装地址https://www.telerik.com/download/fiddler可能有点慢 ...
Python基础之模块：4、正则表达式和re模块
目录一.正则表达式 1.正则表达式前戏 2.字符组 3.特殊符号 4.量词 5.贪婪匹配与非贪婪匹配 6.转义符 7.正则表达式实战二.re模块 1.模块导入 2.常见操作方法 1.findall ...
SQLSever视图和存储过程
一.视图(View) 1. 为什么要学习视图? 在没有视图之前,我们都是写各种各样的SQL语句,有点,非常灵活.后面我们学习应用程序开发的时候,通过C#发送过来的SQL语句到达数据库的时候,会执行什 ...
Kubernetes核心技术-Controller
Kubernetes核心技术-Controller 内容什么是Controller Pod和Controller的关系 Deployment控制器应用场景Deployment控制器应用 yaml文件 ...

Flink mini-batch "引发" 的乱序问题