spark-streaming-kafka包源码分析

转载请注明原创地址 http://www.cnblogs.com/dongxiao-yang/p/5443789.html

最近由于使用sparkstreaming的同学需要对接到部门内部的的kafka集群，由于官方的spark-streaming-kafka包和现有公司的kafka集群权限系统无法对接，需要研究下spark-streaming-kafka包原有代码以便改造，本文研究的代码版本为spark在github的tag的v1.6.1版本。

官方给出的JavaKafkaWordCount以及KafkaWordCount代码里产生kafka-streaming消费流数据的调用代码分别如下

 JavaPairReceiverInputDStream<String, String> messages =

            KafkaUtils.createStream(jssc, args[0], args[1], topicMap);

 val lines = KafkaUtils.createStream(ssc, zkQuorum, group, topicMap).map(_._2)

可以看到无论是java还是scala调用的都是KafkaUtils内重载实现的createStream方法。

object KafkaUtils {

  /**

   * Create an input stream that pulls messages from Kafka Brokers.

   * @param ssc       StreamingContext object

   * @param zkQuorum  Zookeeper quorum (hostname:port,hostname:port,..)

   * @param groupId   The group id for this consumer

   * @param topics    Map of (topic_name -> numPartitions) to consume. Each partition is consumed

   *                  in its own thread

   * @param storageLevel  Storage level to use for storing the received objects

   *                      (default: StorageLevel.MEMORY_AND_DISK_SER_2)

   * @return DStream of (Kafka message key, Kafka message value)

   */

  def createStream(

      ssc: StreamingContext,

      zkQuorum: String,

      groupId: String,

      topics: Map[String, Int],

      storageLevel: StorageLevel = StorageLevel.MEMORY_AND_DISK_SER_2

    ): ReceiverInputDStream[(String, String)] = {

    val kafkaParams = Map[String, String](

      "zookeeper.connect" -> zkQuorum, "group.id" -> groupId,

      "zookeeper.connection.timeout.ms" -> "10000")

    createStream[String, String, StringDecoder, StringDecoder](

      ssc, kafkaParams, topics, storageLevel)

  }

  /**

   * Create an input stream that pulls messages from Kafka Brokers.

   * @param ssc         StreamingContext object

   * @param kafkaParams Map of kafka configuration parameters,

   *                    see http://kafka.apache.org/08/configuration.html

   * @param topics      Map of (topic_name -> numPartitions) to consume. Each partition is consumed

   *                    in its own thread.

   * @param storageLevel Storage level to use for storing the received objects

   * @tparam K type of Kafka message key

   * @tparam V type of Kafka message value

   * @tparam U type of Kafka message key decoder

   * @tparam T type of Kafka message value decoder

   * @return DStream of (Kafka message key, Kafka message value)

   */

  def createStream[K: ClassTag, V: ClassTag, U <: Decoder[_]: ClassTag, T <: Decoder[_]: ClassTag](

      ssc: StreamingContext,

      kafkaParams: Map[String, String],

      topics: Map[String, Int],

      storageLevel: StorageLevel

    ): ReceiverInputDStream[(K, V)] = {

    val walEnabled = WriteAheadLogUtils.enableReceiverLog(ssc.conf)

    new KafkaInputDStream[K, V, U, T](ssc, kafkaParams, topics, walEnabled, storageLevel)

  }

  /**

   * Create an input stream that pulls messages from Kafka Brokers.

   * Storage level of the data will be the default StorageLevel.MEMORY_AND_DISK_SER_2.

   * @param jssc      JavaStreamingContext object

   * @param zkQuorum  Zookeeper quorum (hostname:port,hostname:port,..)

   * @param groupId   The group id for this consumer

   * @param topics    Map of (topic_name -> numPartitions) to consume. Each partition is consumed

   *                  in its own thread

   * @return DStream of (Kafka message key, Kafka message value)

   */

  def createStream(

      jssc: JavaStreamingContext,

      zkQuorum: String,

      groupId: String,

      topics: JMap[String, JInt]

    ): JavaPairReceiverInputDStream[String, String] = {

    createStream(jssc.ssc, zkQuorum, groupId, Map(topics.asScala.mapValues(_.intValue()).toSeq: _*))

  }

  /**

   * Create an input stream that pulls messages from Kafka Brokers.

   * @param jssc      JavaStreamingContext object

   * @param zkQuorum  Zookeeper quorum (hostname:port,hostname:port,..).

   * @param groupId   The group id for this consumer.

   * @param topics    Map of (topic_name -> numPartitions) to consume. Each partition is consumed

   *                  in its own thread.

   * @param storageLevel RDD storage level.

   * @return DStream of (Kafka message key, Kafka message value)

   */

  def createStream(

      jssc: JavaStreamingContext,

      zkQuorum: String,

      groupId: String,

      topics: JMap[String, JInt],

      storageLevel: StorageLevel

    ): JavaPairReceiverInputDStream[String, String] = {

    createStream(jssc.ssc, zkQuorum, groupId, Map(topics.asScala.mapValues(_.intValue()).toSeq: _*),

      storageLevel)

  }

  /**

   * Create an input stream that pulls messages from Kafka Brokers.

   * @param jssc      JavaStreamingContext object

   * @param keyTypeClass Key type of DStream

   * @param valueTypeClass value type of Dstream

   * @param keyDecoderClass Type of kafka key decoder

   * @param valueDecoderClass Type of kafka value decoder

   * @param kafkaParams Map of kafka configuration parameters,

   *                    see http://kafka.apache.org/08/configuration.html

   * @param topics  Map of (topic_name -> numPartitions) to consume. Each partition is consumed

   *                in its own thread

   * @param storageLevel RDD storage level.

   * @tparam K type of Kafka message key

   * @tparam V type of Kafka message value

   * @tparam U type of Kafka message key decoder

   * @tparam T type of Kafka message value decoder

   * @return DStream of (Kafka message key, Kafka message value)

   */

  def createStream[K, V, U <: Decoder[_], T <: Decoder[_]](

      jssc: JavaStreamingContext,

      keyTypeClass: Class[K],

      valueTypeClass: Class[V],

      keyDecoderClass: Class[U],

      valueDecoderClass: Class[T],

      kafkaParams: JMap[String, String],

      topics: JMap[String, JInt],

      storageLevel: StorageLevel

    ): JavaPairReceiverInputDStream[K, V] = {

    implicit val keyCmt: ClassTag[K] = ClassTag(keyTypeClass)

    implicit val valueCmt: ClassTag[V] = ClassTag(valueTypeClass)

    implicit val keyCmd: ClassTag[U] = ClassTag(keyDecoderClass)

    implicit val valueCmd: ClassTag[T] = ClassTag(valueDecoderClass)

    createStream[K, V, U, T](

      jssc.ssc,

      kafkaParams.asScala.toMap,

      Map(topics.asScala.mapValues(_.intValue()).toSeq: _*),

      storageLevel)

  }

其中java相关的第三个和第四个createStream调用了第一个createStream，而第一个createStream最后调用的是第二个createStream，所以所有的rdd数据流都是从下面这句代码产生的：

new KafkaInputDStream[K, V, U, T](ssc, kafkaParams, topics, walEnabled, storageLevel)

查看KafkaInputDStream类定义，发现获取receiver有两种类型：KafkaReceiver和ReliableKafkaReceiver。

  def getReceiver(): Receiver[(K, V)] = {

    if (!useReliableReceiver) {

      new KafkaReceiver[K, V, U, T](kafkaParams, topics, storageLevel)

    } else {

      new ReliableKafkaReceiver[K, V, U, T](kafkaParams, topics, storageLevel)

    }

  }

其中，KafkaReceiver实现比较简单，调用的是kafka的high level api产生数据流，产生的每个线程的数据流都被放到一个线程池由单独的线程来消费

val topicMessageStreams = consumerConnector.createMessageStreams(
  topics, keyDecoder, valueDecoder)

　ReliableKafkaReceiver是结合了spark的预写日志（Write Ahead Logs）功能，开启这个功能需要设置sparkconf属性 spark.streaming.receiver.writeAheadLog.enable为真（默认值是假）

这个receiver会把收到的kafka数据首先存储到日志上，然后才会向kafka提交offset，这样保证了在driver程序出现问题的时候不会丢失kafka数据。

参考文章 Spark Streaming容错的改进和零数据丢失

spark-streaming-kafka包源码分析的更多相关文章

spark的存储系统--BlockManager源码分析
spark的存储系统--BlockManager源码分析根据之前的一系列分析,我们对spark作业从创建到调度分发,到执行,最后结果回传driver的过程有了一个大概的了解.但是在分析源码的过程中也 ...
【Spark篇】---Spark中资源和任务调度源码分析与资源配置参数应用
一.前述 Spark中资源调度是一个非常核心的模块,尤其对于我们提交参数来说,需要具体到某些配置,所以提交配置的参数于源码一一对应,掌握此节对于Spark在任务执行过程中的资源分配会更上一层楼.由于源 ...
spark(1.1) mllib 源码分析(二)-相关系数
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/4024733.html 在spark mllib 1.1版本中增加stat包,里面包含了一些统计相关的函数 ...
spark(1.1) mllib 源码分析(一)-卡方检验
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/4019131.html 在spark mllib 1.1版本中增加stat包,里面包含了一些统计相关的函数 ...
Spark MLlib - Decision Tree源码分析
http://spark.apache.org/docs/latest/mllib-decision-tree.html 以决策树作为开始,因为简单,而且也比较容易用到,当前的boosting或ran ...
sklearn包源码分析（一）--neighbors
python如何查看内置函数的用法及其源码? 在anaconda的安装目录下,有一块会放着我们安装的所有包,在里面可以找到所有的包找到scikit learn包,进入这里面又有了多个子包,每个子包 ...
spark(1.1) mllib 源码分析(三)-朴素贝叶斯
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/4042467.html 本文主要以mllib 1.1版本为基础,分析朴素贝叶斯的基本原理与源码一.基本原 ...
Spark 1.6.1 源码分析
由于gitbook网速不好,所以复制自https://zx150842.gitbooks.io/spark-1-6-1-source-code/content/,非原创,纯属搬运工,若作者要求,可删除 ...
spark(1.1) mllib 源码分析(三)-决策树
本文主要以mllib 1.1版本为基础,分析决策树的基本原理与源码一.基本原理二.源码分析 1.决策树构造指定决策树训练数据集与策略(Strategy)通过train函数就能得到决策树模型Dec ...

随机推荐

ios专题－多线程非GCD（1）
iOS多线程初体验是本文要介绍的内容,iPhone中的线程应用并不是无节制的,官方给出的资料显示iPhone OS下的主线程的堆栈大小是1M,第二个线程开始都是512KB.并且该值不能通过编译器开关或 ...
mysql 表操作
创建表简单的方式 CREATE TABLE person ( number INT(11), name VARCHAR(255), birthday DATE ); 或者是 CREATE TABLE ...
linux下安装svn（基于编码的方式）
svn是什么,相信能看到这里的同学应该不会有这个问题了,费话不多说,开始: 1.创建目录 mkdir /home/svn/ 2.获取安装svn所需源文件(svn的官方网址是http://subvers ...
Linux 信号量互斥编程
所谓信号量,其实就是一个数字.内核给这个数字赋予一定的含义,让它等于不同的值时所表示的意义不同.这样就可以用它来标示某种资源是否正被使用.信号的分类其实挺多的,主要还是二值和计数器.这里讨论二值现在 ...
Centos 6.5 RedHat 6 安装mysql
所需文件列表, 这些文件在安装光盘内的Packages文件夹内, 也可以到MySQL官方网站下载其他版本(需要FQ). 将这些文件放在/usr/loca/src文件夹: -.el6.x86_64.rp ...
js学习--浏览器对象计时器setInterval()与setTimeout()的使用与区别
一.setInterval()与setTimeout()的定义: 二.setInterval()与setTimeout()的使用: 1.setInterval()与clearInterval() ...
#Leet Code# Divide Two Integers
描述:不使用 * / % 完成除法操作.O(n)复杂度会超时,需要O(lg(n))复杂度. 代码: class Solution: # @return an integer def dividePos ...
简单学C——第六天
指针指针是c语言中很灵活的一个内容,当然,灵活的都是较难掌握的.不过,只要理解其实质,学习,运用指针还是一件很轻松的事情的. 首先理解,1.什么是指针? 在c语言中,指针也同Int ,doub ...
JS贪吃蛇游戏
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <meta http ...
python关键字
python有多少关键字? >>> import keyword >>> keyword.kwlist ['and', 'as', 'assert', 'break ...

spark-streaming-kafka包源码分析

spark-streaming-kafka包源码分析的更多相关文章

随机推荐

热门专题