近期接手离职同事项目,突然遇到线上事故,Flink无法正常聚合数据生成指标. 以下是详细的排查过程: 问题复现 清晨,运维报告Flink数据分析模块无法正常生成指标数据. 赶紧登陆Flink所在机器,使用如下语句简单查看Job状态. ./bin/flink list 查看输出,发现故障Job在Running状态. 因为数据分析模块运行时间较久,近期没有更新过,因此怀疑是依赖的中间件问题. 问题根源定位 (1) 查看数据源 数据分析模块依赖于Kafka,因此登陆Kafka所在机器,查看相应topi