最近接手了一个flink作业,另外一个同事断断续续有的没的写了半年的,不着急,也一直没上线,最近突然要上线,扔给我,要调通上线. 现状是: 1.代码跑不动,资源给的不少,但是就是频繁反压. 2.checkpoint经常失败. 3.也是最严重的,跑着跑着,作业就挂了. 接手之后,秉承着代码的业务逻辑是对的原则,开始了调优之旅,后来发现,还是要从最基本的做起,不然都是白扯.总结了如下几条意见,供自己以后反省. 1.遵循一般的编程原则 代码到手之后,业务逻辑部分简直不忍卒读,整个业务逻辑在一个大函数中