Storm-kafka源码分析之Config相关类

要创建一个KafkaSpout对象，必须要传入一个SpoutConfig对象，KafkaSpout的构造函数定义如下：

public KafkaSpout(SpoutConfig spoutConf) {

    _spoutConfig = spoutConf;

}

SpoutConfig继承KafkaConfig，并实现Serializable，由于在KafkaConfig中所有的属性字段都是public的因此在SpoutConfig中可以直接引用，SpoutConfig类的定义如下其中核心字段添加了注释。

public class SpoutConfig extends KafkaConfig implements Serializable {

    //记录zookeeper的地址列表

    public List<String> zkServers = null;

	//zookeeper端口号

    public Integer zkPort = null;

	//该参数是Consumer消费的meta信息，保存在zk的路径，自己指定

    public String zkRoot = null;

	//唯一id

    public String id = null;

	//向zookeeper记录offset的间隔时间

    public long stateUpdateIntervalMs = 2000;

    public SpoutConfig(BrokerHosts hosts, String topic, String zkRoot, String id) {

        super(hosts, topic);

        this.zkRoot = zkRoot;

        this.id = id;

    }

}

KafkaConfig的定义如下：

public class KafkaConfig implements Serializable {

	//用以获取Kafka broker和partition的信息

    public final BrokerHosts hosts;

	//读消息的topic

    public final String topic;

	//消息者所用的client id

    public final String clientId;

	//每次从kafka读取的byte数

    public int fetchSizeBytes = 1024 * 1024;

	//Consumer连接kafka server超时时间

    public int socketTimeoutMs = 10000;

	//当服务器没有新消息时，消费者会等待这些时间

    public int fetchMaxWait = 10000;

	//consumer段的缓冲区大小

    public int bufferSizeBytes = 1024 * 1024;

	//数据发送的序列化和反序列化定义的Scheme

    public MultiScheme scheme = new RawMultiScheme();

	//是否强制从kafka中offset最小开始读数据，和startOffsetTime，一起用，默认情况下，为false，一旦startOffsetTime被设置，就要置为true

    public boolean forceFromStart = false;

	//从何offset时间开始读，默认为最旧的offset

    public long startOffsetTime = kafka.api.OffsetRequest.EarliestTime();

	//每次kafka会读取一批offset存放在list中，当zk offset比当前本地保存的commitOffse相减大于这个值时，重新设置commitOffset为当前zk offset

    public long maxOffsetBehind = Long.MAX_VALUE;

	//如果所请求的offset对应的消息在Kafka中不存在，是否使用startOffsetTime

    public boolean useStartOffsetTimeIfOffsetOutOfRange = true;

	//多长时间统计一次metrics

    public int metricsTimeBucketSizeInSecs = 60;

    public KafkaConfig(BrokerHosts hosts, String topic) {

        this(hosts, topic, kafka.api.OffsetRequest.DefaultClientId());

    }

    public KafkaConfig(BrokerHosts hosts, String topic, String clientId) {

        this.hosts = hosts;

        this.topic = topic;

        this.clientId = clientId;

    }

}

影响初始读取进度的配置

在一个topology上线后，KafkaSpout从何处开始读消息呢，有几个配置影响读消息的位置，先罗列如下：

SpoutConfig中的id字段:如果想让一个topology从另一个topology之前的处理进度处读取数据，他们需要有相同的id
KafkaConfig的forceFromStart字段：如果该字段为true，在topology上线后会忽略之前id相同的topology的进度，重新从最早的消息处读取
KafkaConfig的startOffsetTime字段：默认为kafka.api.OffsetRequest.EarliestTime()开始读，也就是从Kafka中最早的消息开始处理。也可以设成kafka.api.OffsetRequest.LatestOffset,也就是最晚的消息开始读。也可以自己指定具体的值
KafkaConfig的maxOffsetBehind字段：这个字段对于KafkaSpout的多个处理流程都有影响。当提交一个新topology时，如果没有forceFromStart, 当KafkaSpout对某个partition的处理进度落后startOffsetTime对应的offset多于此值时，KafkaSpout会丢弃中间的消息，从而强制赶上目标进度.比如，如果startOffsetTime设成了lastestTime，那么如果进度落后超过maxOffsetBehind，KafkaSpout会直接从latestTime对应的offset开始处理。如果设成了froceFromStart，则在提交新任务时，始终会从EarliestTime开始读。
KafkaSpout的userStartOffsetTimeIfOffsetOutOfRange字段：如果设成true，那么当fetch消息时出错，且FetchResponse显示的出错原因是OFFSET_OUT_OF_RANGE，那么就会尝试从KafkaSpout指定的startOffsetTime对应的消息开始读。例如，如果有一批消息因为超过了保存期限被Kafka删除，并且zk里记录的消息在这批被删除的消息里。如果KafkaSpout试图从zk的记录继续读，那么就会出现OFFSET_OUT_OF_RANGE的错误，从而触发这个配置

Storm-kafka源码分析之Config相关类的更多相关文章

Apache Kafka源码分析 – Broker Server
1. Kafka.scala 在Kafka的main入口中startup KafkaServerStartable, 而KafkaServerStartable这是对KafkaServer的封装 1: ...
Kafka源码分析系列-目录(收藏不迷路)
持续更新中,敬请关注! 目录 <Kafka源码分析>系列文章计划按"数据传递"的顺序写作,即:先分析生产者,其次分析Server端的数据处理,然后分析消费者,最后再补充 ...
Kafka源码分析(一) - 概述
系列文章目录 https://zhuanlan.zhihu.com/p/367683572 目录系列文章目录一. 实际问题二. 什么是Kafka, 如何解决这些问题的三. 基本原理 1. 基本 ...
Kafka源码分析(三) - Server端 - 消息存储
系列文章目录 https://zhuanlan.zhihu.com/p/367683572 目录系列文章目录一. 业务模型 1.1 概念梳理 1.2 文件分析 1.2.1 数据目录 1.2.2 . ...
21 BasicTaskScheduler基本任务调度器（一）——Live555源码阅读(一)任务调度相关类
21_BasicTaskScheduler基本任务调度器(一)——Live555源码阅读(一)任务调度相关类 BasicTaskScheduler基本任务调度器 BasicTaskScheduler基 ...
kafka源码分析之一server启动分析
0. 关键概念关键概念 Concepts Function Topic 用于划分Message的逻辑概念,一个Topic可以分布在多个Broker上. Partition 是Kafka中横向扩展和一 ...
Kafka源码分析(二) - 生产者
系列文章目录 https://zhuanlan.zhihu.com/p/367683572 目录系列文章目录一. 使用方式 step 1: 设置必要参数 step 2: 创建KafkaProduc ...
apache kafka源码分析-Producer分析---转载
原文地址:http://www.aboutyun.com/thread-9938-1-1.html 问题导读1.Kafka提供了Producer类作为java producer的api,此类有几种发送 ...
Kafka源码分析及图解原理之Producer端
一.前言任何消息队列都是万变不离其宗都是3部分,消息生产者(Producer).消息消费者(Consumer)和服务载体(在Kafka中用Broker指代).那么本篇主要讲解Producer端,会有 ...

随机推荐

Java中通过SimpleDateFormat格式化当前时间：/** 输出格式：20060101010101001**/
import java.util.*; import java.text.SimpleDateFormat; int y,m,d,h,mi,s,ms; String cur; Calendar cal ...
WCF数据契约代理和已知类型的使用
using Bll; using System; using System.CodeDom; using System.Collections.Generic; using System.Collec ...
2、C++
2.2定义变量 2.2.1命名规则赋予变量的名称叫做标识符,或者更方便地称之为变量名.变量名可用字母(包括大小写),数字,以及下划线,其他字符不允许.以下划线或者字母开头.在Visual C++20 ...
C++ 面向对象基本释义
public:子类继承,子类亦可以访问.本类函数可以访问,本类对象可以访问. private:子类继承,子类不可访问.本类(所有)函数以及友员函数可以访问,本类对象不可以访问. protect:子类继 ...
Android中webview跟JAVASCRIPT中的交互
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面 ...
MYSQL 问题小总结
mysql 问题小总结 1.MySQL远程连接ERROR 2003(HY000):Can't connect to MySQL server on ‘ip’(111)的问题通常是mysql配置文件中 ...
word-break:break-all; 和 word-wrap:break-word 换行
word-break:break-all; 和 word-wrap:break-word;两种写法都是让英文句子在父级宽度不够的情况下换行. 两个属性都同样是让文字换行,但存在着细微的区别,大部分时候 ...
2018.06.29 洛谷P1505 [国家集训队]旅游（树链剖分）
旅游题目描述 Ray 乐忠于旅游,这次他来到了T 城.T 城是一个水上城市,一共有 N 个景点,有些景点之间会用一座桥连接.为了方便游客到达每个景点但又为了节约成本,T 城的任意两个景点之间有且只有 ...
*C语言的小技巧
计算数组长度 ,,,,}; int Length=sizeof(a)/sizeof(int); 交换a和b的值,不借用辅助变量 a=a+b; b=a-b; a=a-b; 将0-9的字符转化为整数 '; ...
（匹配）Antenna Placement --POJ --3020
链接: http://poj.org/problem?id=3020 http://acm.hust.edu.cn/vjudge/contest/view.action?cid=82834#probl ...

Storm-kafka源码分析之Config相关类

影响初始读取进度的配置

Storm-kafka源码分析之Config相关类的更多相关文章

随机推荐

热门专题