Flink akka AskTimeoutException问题排查】的更多相关文章

最近2周开始接手apache flink全链路监控数据的作业,包括指标统计,业务规则匹配等逻辑,计算结果实时写入elasticsearch. 昨天遇到生产环境有作业无法正常重启的问题,我负责对这个问题进行排查跟进. 第一步,基础排查 首先拿到jobmanager和taskmanager的日志,我从taskmanager日志中很快发现2个基础类型的报错,一个是npe,一个是索引找不到的异常 elasticsearch sinker在执行写入数据的前后提供回调接口让作业开发人员对异常或者成功写入进行…
Flink 支持 Standalone 独立部署和 YARN.Kubernetes.Mesos 等集群部署模式,其中 YARN 集群部署模式在国内的应用越来越广泛.Flink 社区将推出 Flink on YARN 应用解读系列文章,分为上.下两篇.上篇分享了基于 FLIP-6 重构后的资源调度模型介绍 Flink on YARN 应用启动全流程,本文将根据社区大群反馈,解答客户端和 Flink Cluster 的常见问题,分享相关问题的排查思路. 客户端常见问题与排查思路 ▼ 应用提交控制台异…
折腾了好几天,终于搞定了Flink run提交参数,记录一下. 背景: 之前一直报错,akka,AskTimeoutException,尝试添加akka.ask.timeout=120000s, 依然显示该错误. 后来在Flink官网找到了该参数的赋值方式,注意这里有个大坑,数字和时间单位之间,必须有个空格. shell脚本如下,具体数值大家可以自己根据实际情况调节: flink run \ -m yarn-cluster \ -ynm applicaiton-name \ -yqu queue…
http://vinoyang.com/ http://wuchong.me Apache Flink源码解析之stream-source https://yq.aliyun.com/articles/259154 Flink - watermark https://yq.aliyun.com/articles/73191 http://wuchong.me/blog/2016/05/04/flink-internal-how-to-build-streamgraph/ http://vinoy…
http://ictlabs-summer-school.sics.se/2015/slides/flink-advanced.pdf http://henning.kropponline.de/2015/10/18/10-resources-for-deep-dive-into-apache-flink/ https://www.slideshare.net/stephanewen1/continuous-processing-with-apache-flink-strata-london-2…
一.问题现象,使用flink on yarn 模式,写入数据到clickhouse,但是在yarn 集群充足的情况下一直报:Deployment took more than 60 seconds. Please check if the requested resources are available in the YARN cluster,表面现象是 yarn 集群资源可能不够,实际yarn 集群资源是够用的. 查看flink jobmanager的日志,发现日志中一直在出现如下报错: C…
报错现象: Exception in thread "main" com.typesafe.config.ConfigException$UnresolvedSubstitution: reference.conf @ jar:file:/bigdata/app/flink-1.0-SNAPSHOT-jar-with-dependencies.jar!/reference.conf: 804: Could not resolve substitution to a value: ${a…
在 Flink 中,状态可靠性保证由 Checkpoint 支持,当作业出现 failover 的情况下,Flink 会从最近成功的 Checkpoint 恢复.在实际情况中,我们可能会遇到 Checkpoint 失败,或者 Checkpoint 慢的情况,本文会统一聊一聊 Flink 中 Checkpoint 异常的情况(包括失败和慢),以及可能的原因和排查思路. 1. Checkpoint 流程简介 首先我们需要了解 Flink 中 Checkpoint 的整个流程是怎样的,在了解整个流程之…
flink中的rpc框架使用的akka.在本节并不详细讲述akka,而是就flink中rpc来讲述akka的部分内容.本节,我从AkkaRpcActor.handleRpcInvocation方法讲起. 看过hadoop.yarn.hive.hbase.presto的rpc框架,感觉flink的通信框架是最容易让人绕晕的.虽然之前也看过一点spark中akka的通信,但现在早已忘得一干二净.如今重拾akka通信,感觉还是挺复杂的.因此,这里特意拿出一节来讲解. 1.这里首先要讲述的是flink中…
Carl Hewitt 在1973年对Actor模型进行了如下定义:"Actor模型是一个把'Actor'作为并发计算的通用原语". Actor是异步驱动,可以并行和分布式部署及运行的最小颗粒.也就是说,它可以被分配,分布,调度到不同的CPU,不同的节点,乃至不同的时间片上运行,而不影响最终的结果.因此Actor在空间(分布式)和时间(异步驱动)上解耦的.而Akka是Lightbend(前身是Typesafe)公司在JVM上的Actor模型的实现.我们在了解actor模型之前,首先来了…