flink为了保证线上作业的可用性,提供了ha机制,如果发现线上作业失败,则通过ha中存储的信息来实现作业的重新拉起. 我们在flink的线上环境使用了zk为flink的ha提供服务,但在初期,由于资源紧张,只是对zk进行了standalone的部署,但是在后期的使用中,发现单节点的集群很难提供很高的可用性, 所以就尝试将目前的standalone的zk服务扩展为cluster的zk服务,这其中,也踩了不少坑. 第一次尝试,将standalone的zk扩展为cluster 扩展为cluster很…