Kafka kafka.common.OffsetOutOfRangeException 问题处理

最近公司的zk的down掉了, storm job 重启的时候报出 kafka.common.OffsetOutOfRangeException 异常

网上查询了一些朋友的做法, 自己也看了一下代码, 最终还是解决了

原因:

zk挂掉的这几天, kafka中之前的数据已经被清掉了, 但是zk中保存的offset还是几天之前的, 导致KafkaSpout要获取的offset超过了当前kafka的offset, 就像ArrayIndexOutOfRangeException一样

解决方案:

KafkaSpout 配置项中可以选择读取的方式, 共有三种, 如果Topology启动的时候未进行配置, 则默认是从Zk中读取, 所以导致了异常

-2: 从最老的开始读

-1: 从最近的开始读

0: 从Zk中读

相关代码如下, storm.kafka.PartitionManager,

public PartitionManager(DynamicPartitionConnections connections, String topologyInstanceId, ZkState state, Map stormConf, SpoutConfig spoutConfig, GlobalPartitionId id) {

        _partition = id;

        _connections = connections;

        _spoutConfig = spoutConfig;

        _topologyInstanceId = topologyInstanceId;

        _consumer = connections.register(id.host, id.partition);

    _state = state;

        _stormConf = stormConf;

        String jsonTopologyId = null;

        Long jsonOffset = null;

        try {

            Map<Object, Object> json = _state.readJSON(committedPath());

            if(json != null) {

                jsonTopologyId = (String)((Map<Object,Object>)json.get("topology")).get("id");

                jsonOffset = (Long)json.get("offset");

            }

        }

        catch(Throwable e) {

            LOG.warn("Error reading and/or parsing at ZkNode: " + committedPath(), e);

        }

        if(!topologyInstanceId.equals(jsonTopologyId) && spoutConfig.forceFromStart) {

            _committedTo = _consumer.getOffsetsBefore(spoutConfig.topic, id.partition, spoutConfig.startOffsetTime, 1)[0];

        LOG.info("Using startOffsetTime to choose last commit offset.");

        } else if(jsonTopologyId == null || jsonOffset == null) { // failed to parse JSON?

            _committedTo = _consumer.getOffsetsBefore(spoutConfig.topic, id.partition, -1, 1)[0];

        LOG.info("Setting last commit offset to HEAD.");

        } else {

            _committedTo = jsonOffset;

        LOG.info("Read last commit offset from zookeeper: " + _committedTo);

        }

        LOG.info("Starting Kafka " + _consumer.host() + ":" + id.partition + " from offset " + _committedTo);

        _emittedToOffset = _committedTo;

}

重点关注红色代码, spoutConfig.forceFromStart 为true的时候, 才会真正去读取自己设置的offset, 否则将会使用Zk中的offset

那么问题来了, 如何设置呢, SpoutConfig很贴心的给我们提供了一个方法

public void forceStartOffsetTime(long millis) {

        startOffsetTime = millis;

        forceFromStart = true;

}

所以我们只需要在我们的Topology中添加如下代码即可

/* -2=最老 -1=最新, 0=zk offset*/

        if (args != null && args[1] != null && Integer.valueOf(args[1]) != 0) {

            if (Integer.valueOf(args[1]) == -2) {

                spoutConfig.forceStartOffsetTime(-2); //从kafka最老的记录读取

            } else if (Integer.valueOf(args[1]) == -1) {

                spoutConfig.forceStartOffsetTime(-1); //从kafka最新的记录读取

            }//其他情况则默认从zk的offset读取

}

发布Topology的时候, 如果需要从最新记录读取, 则像这样 storm jar com.abc.StormTopology stormTopology -1

其他链接: http://blog.csdn.net/baiyangfu_love/article/details/8919699

Kafka kafka.common.OffsetOutOfRangeException 问题处理的更多相关文章

[Kafka] - Kafka Java Consumer实现(一)
Kafka提供了两种Consumer API,分别是:High Level Consumer API 和 Lower Level Consumer API(Simple Consumer API) H ...
[Spark][kafka]kafka 生产者，消费者互动例子
[Spark][kafka]kafka 生产者,消费者互动例子 # pwd/usr/local/kafka_2.11-0.10.0.1/bin 创建topic:# ./kafka-topics.sh ...
[Kafka] - Kafka Java Consumer实现(二)
Kafka提供了两种Consumer API,分别是:High Level Consumer API 和 Lower Level Consumer API(Simple Consumer API) H ...
Zookeeper与Kafka Kafka
Zookeeper与Kafka Kafka Kafka SocketServer是基于Java NIO开发的,采用了Reactor的模式(已被大量实践证明非常高效,在Netty和Mina中广泛使用). ...
Kafka启动遇到ERROR Exiting Kafka due to fatal exception (kafka.Kafka$)
------------恢复内容开始------------ Kafka启动遇到ERROR Exiting Kafka due to fatal exception (kafka.Kafka$) 解决 ...
关于kafka定期清理日志后再消费报错kafka.common.OffsetOutOfRangeException的解决
环境: kafka 0.10 spark 2.1.0 zookeeper 3.4.5-cdh5.14.0 公司阿里云测试机,十月一放假前,没有在继续消费,假期过后回来再使用spark strea ...
Kafka – kafka consumer
ConsumerRecords<String, String> records = consumer.poll(100); /** * Fetch data for the topic ...
[Kafka] - Kafka基本概念介绍
Kafka官方介绍:Kafka是一个分布式的流处理平台(0.10.x版本),在kafka0.8.x版本的时候,kafka主要是作为一个分布式的.可分区的.具有副本数的日志服务系统(Kafka™ is ...
[Kafka] - Kafka 安装介绍
Kafka是由LinkedIn公司开发的,之后贡献给Apache基金会,成为Apache的一个顶级项目,开发语言为Scala.提供了各种不同语言的API,具体参考Kafka的cwiki页面: Kafk ...

随机推荐

[Django]中建立数据库视图
Django中建立数据库视图 Django中没有建立视图的接口.假设要建立一个视图须要一些手动的改变. 这里使用的Django 版本号>1.5, 使用的数据库为mysql 第一步建立视图,比如 ...
115. distinct subsequence leetcode python
Given a string S and a string T, count the number of distinct subsequences of T in S. A subsequence ...
JAVA Eclipse创建Android程序如何实现MainActivity和Fragment相互传递数据
最简单的方法是直接强制生成一个MainActivity的实例,然后可以执行其中的方法,当然也是可以传递参数的更加复杂的用法可以参考: http://blog.csdn.net/huangyabin0 ...
Sublime3破解教程[转载]
sublime text 3 这个IDE相信很多人认识,尤其是python的.相对pycharm ide而言,速度快.界面清爽等优点,下面就分享下各个版本的破解方法用UltraEdit等编辑器打开s ...
Android4.0（Phone）拨号启动过程分析（一）
因为工作的须要.须要改动原生的Phone程序,如今就好好看下来电与拨号是怎样处理的:无论是拨号还是来电,调用的都是Phone程序,因为非常多类都涉及到framework层,比較复杂:先从简单的拨号分析 ...
gitlab服务器邮箱配置
如想用 SMTP 代替 Sendmail 发送email,添加如下相应邮箱服务商的配置到/etc/gitlab/gitlab.rb, 然后运行gitlab-ctl reconfigure使修改生效. ...
Android · 获取网络图片
import java.io.ByteArrayOutputStream; import java.io.File; import java.io.FileOutputStream; import j ...
C# Excel
using System.IO;using System.Text;namespace iLIS.Common{ ///<summary> ///生成Excel文档内容 /// 存入工作流 ...
caffe学习--cifar10学习-ubuntu16.04-gtx650tiboost--1g--03--20171103
classification ./examples/cifar10/cifar10_full.prototxt ./examples/cifar10/cifar10_full_iter_70000.c ...
_DataStructure_C_Impl:Floyd算法求有向网N的各顶点v和w之间的最短路径
#include<stdio.h> #include<stdlib.h> #include<string.h> typedef char VertexType[4] ...

Kafka kafka.common.OffsetOutOfRangeException 问题处理

Kafka kafka.common.OffsetOutOfRangeException 问题处理的更多相关文章

随机推荐

热门专题