spark streaming kafka1.4.1中的低阶api createDirectStream使用总结

转载：http://blog.csdn.net/ligt0610/article/details/47311771

由于目前每天需要从kafka中消费20亿条左右的消息，集群压力有点大，会导致job不同程度的异常退出。原来使用spark1.1.0版本中的createStream函数，但是在数据处理速度跟不上数据消费速度且job异常退出的情况下，可能造成大量的数据丢失。幸好，Spark后续版本对这一情况有了很大的改进，1.2版本加入WAL特性，但是性能应该会受到一些影响（本人未测试），1.3版本可以直接通过低阶API从kafka的topic消费消息，并且不再向zookeeper中更新consumer offsets，使得基于zookeeper的consumer offsets的监控工具都会失效。

官方只是非常简单的描述了可以用以下方法修改zookeeper中的consumer offsets（可以查看http://spark.apache.org/docs/1.4.1/streaming-kafka-integration.html）：

    // Hold a reference to the current offset ranges, so it can be used downstream

     var offsetRanges = Array[OffsetRange]()  

     directKafkaStream.transform { rdd =>

       offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges

       rdd

     }.map {

               ...

     }.foreachRDD { rdd =>

       for (o <- offsetRanges) {

         println(s"${o.topic} ${o.partition} ${o.fromOffset} ${o.untilOffset}")

       }

       ...

     }

所以更新zookeeper中的consumer offsets还需要自己去实现，并且官方提供的两个createDirectStream重载并不能很好的满足我的需求，需要进一步封装。具体看以下KafkaManager类的代码：

    package org.apache.spark.streaming.kafka  

    import kafka.common.TopicAndPartition

    import kafka.message.MessageAndMetadata

    import kafka.serializer.Decoder

    import org.apache.spark.SparkException

    import org.apache.spark.rdd.RDD

    import org.apache.spark.streaming.StreamingContext

    import org.apache.spark.streaming.dstream.InputDStream

    import org.apache.spark.streaming.kafka.KafkaCluster.{LeaderOffset}  

    import scala.reflect.ClassTag  

    /**

     * Created by knowpigxia on 15-8-5.

     */

    class KafkaManager(val kafkaParams: Map[String, String]) extends Serializable {  

      private val kc = new KafkaCluster(kafkaParams)  

      /**

       * 创建数据流

       * @param ssc

       * @param kafkaParams

       * @param topics

       * @tparam K

       * @tparam V

       * @tparam KD

       * @tparam VD

       * @return

       */

      def createDirectStream[K: ClassTag, V: ClassTag, KD <: Decoder[K]: ClassTag, VD <: Decoder[V]: ClassTag](

                                                                                                                ssc: StreamingContext, kafkaParams: Map[String, String], topics: Set[String]): InputDStream[(K, V)] =  {

        val groupId = kafkaParams.get("group.id").get

        // 在zookeeper上读取offsets前先根据实际情况更新offsets

        setOrUpdateOffsets(topics, groupId)  

        //从zookeeper上读取offset开始消费message

        val messages = {

          val partitionsE = kc.getPartitions(topics)

          if (partitionsE.isLeft)

            throw new SparkException(s"get kafka partition failed: ${partitionsE.left.get}")

          val partitions = partitionsE.right.get

          val consumerOffsetsE = kc.getConsumerOffsets(groupId, partitions)

          if (consumerOffsetsE.isLeft)

            throw new SparkException(s"get kafka consumer offsets failed: ${consumerOffsetsE.left.get}")

          val consumerOffsets = consumerOffsetsE.right.get

          KafkaUtils.createDirectStream[K, V, KD, VD, (K, V)](

            ssc, kafkaParams, consumerOffsets, (mmd: MessageAndMetadata[K, V]) => (mmd.key, mmd.message))

        }

        messages

      }  

      /**

       * 创建数据流前，根据实际消费情况更新消费offsets

       * @param topics

       * @param groupId

       */

      private def setOrUpdateOffsets(topics: Set[String], groupId: String): Unit = {

        topics.foreach(topic => {

          var hasConsumed = true

          val partitionsE = kc.getPartitions(Set(topic))

          if (partitionsE.isLeft)

            throw new SparkException(s"get kafka partition failed: ${partitionsE.left.get}")

          val partitions = partitionsE.right.get

          val consumerOffsetsE = kc.getConsumerOffsets(groupId, partitions)

          if (consumerOffsetsE.isLeft) hasConsumed = false

          if (hasConsumed) {// 消费过

            /**

             * 如果streaming程序执行的时候出现kafka.common.OffsetOutOfRangeException，

             * 说明zk上保存的offsets已经过时了，即kafka的定时清理策略已经将包含该offsets的文件删除。

             * 针对这种情况，只要判断一下zk上的consumerOffsets和earliestLeaderOffsets的大小，

             * 如果consumerOffsets比earliestLeaderOffsets还小的话，说明consumerOffsets已过时,

             * 这时把consumerOffsets更新为earliestLeaderOffsets

             */

            val earliestLeaderOffsetsE = kc.getEarliestLeaderOffsets(partitions)

            if (earliestLeaderOffsetsE.isLeft)

              throw new SparkException(s"get earliest leader offsets failed: ${earliestLeaderOffsetsE.left.get}")

            val earliestLeaderOffsets = earliestLeaderOffsetsE.right.get

            val consumerOffsets = consumerOffsetsE.right.get  

            // 可能只是存在部分分区consumerOffsets过时，所以只更新过时分区的consumerOffsets为earliestLeaderOffsets

            var offsets: Map[TopicAndPartition, Long] = Map()

            consumerOffsets.foreach({ case(tp, n) =>

              val earliestLeaderOffset = earliestLeaderOffsets(tp).offset

              if (n < earliestLeaderOffset) {

                println("consumer group:" + groupId + ",topic:" + tp.topic + ",partition:" + tp.partition +

                  " offsets已经过时，更新为" + earliestLeaderOffset)

                offsets += (tp -> earliestLeaderOffset)

              }

            })

            if (!offsets.isEmpty) {

              kc.setConsumerOffsets(groupId, offsets)

            }

          } else {// 没有消费过

          val reset = kafkaParams.get("auto.offset.reset").map(_.toLowerCase)

            var leaderOffsets: Map[TopicAndPartition, LeaderOffset] = null

            if (reset == Some("smallest")) {

              val leaderOffsetsE = kc.getEarliestLeaderOffsets(partitions)

              if (leaderOffsetsE.isLeft)

                throw new SparkException(s"get earliest leader offsets failed: ${leaderOffsetsE.left.get}")

              leaderOffsets = leaderOffsetsE.right.get

            } else {

              val leaderOffsetsE = kc.getLatestLeaderOffsets(partitions)

              if (leaderOffsetsE.isLeft)

                throw new SparkException(s"get latest leader offsets failed: ${leaderOffsetsE.left.get}")

              leaderOffsets = leaderOffsetsE.right.get

            }

            val offsets = leaderOffsets.map {

              case (tp, offset) => (tp, offset.offset)

            }

            kc.setConsumerOffsets(groupId, offsets)

          }

        })

      }  

      /**

       * 更新zookeeper上的消费offsets

       * @param rdd

       */

      def updateZKOffsets(rdd: RDD[(String, String)]) : Unit = {

        val groupId = kafkaParams.get("group.id").get

        val offsetsList = rdd.asInstanceOf[HasOffsetRanges].offsetRanges  

        for (offsets <- offsetsList) {

          val topicAndPartition = TopicAndPartition(offsets.topic, offsets.partition)

          val o = kc.setConsumerOffsets(groupId, Map((topicAndPartition, offsets.untilOffset)))

          if (o.isLeft) {

            println(s"Error updating the offset to Kafka cluster: ${o.left.get}")

          }

        }

      }

    }

接下来再给一个简单的例子：

    import kafka.serializer.StringDecoder

    import org.apache.log4j.{Level, Logger}

    import org.apache.spark.SparkConf

    import org.apache.spark.rdd.RDD

    import org.apache.spark.streaming.kafka._

    import org.apache.spark.streaming.{Seconds, StreamingContext}  

    /**

     * Created by knowpigxia on 15-8-4.

     */

    object DirectKafkaWordCount {  

      def dealLine(line: String): String = {

        val list = AnalysisUtil.dealString(line, ',', '"')// 把dealString函数当做split即可

        list.get().substring(, ) + "-" + list.get()

      }  

      def processRdd(rdd: RDD[(String, String)]): Unit = {

        val lines = rdd.map(_._2)

        val words = lines.map(dealLine(_))

        val wordCounts = words.map(x => (x, 1L)).reduceByKey(_ + _)

        wordCounts.foreach(println)

      }  

      def main(args: Array[String]) {

        if (args.length < ) {

          System.err.println( s"""

            |Usage: DirectKafkaWordCount <brokers> <topics> <groupid>

            |  <brokers> is a list of one or more Kafka brokers

            |  <topics> is a list of one or more kafka topics to consume from

            |  <groupid> is a consume group

            |

            """.stripMargin)

          System.exit()

        }  

        Logger.getLogger("org").setLevel(Level.WARN)  

        val Array(brokers, topics, groupId) = args  

        // Create context with 2 second batch interval

        val sparkConf = new SparkConf().setAppName("DirectKafkaWordCount")

        sparkConf.setMaster("local[*]")

        sparkConf.set("spark.streaming.kafka.maxRatePerPartition", "")

        sparkConf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")  

        val ssc = new StreamingContext(sparkConf, Seconds())  

        // Create direct kafka stream with brokers and topics

        val topicsSet = topics.split(",").toSet

        val kafkaParams = Map[String, String](

          "metadata.broker.list" -> brokers,

          "group.id" -> groupId,

          "auto.offset.reset" -> "smallest"

        )  

        val km = new KafkaManager(kafkaParams)  

        val messages = km.createDirectStream[String, String, StringDecoder, StringDecoder](

          ssc, kafkaParams, topicsSet)  

        messages.foreachRDD(rdd => {

          if (!rdd.isEmpty()) {

            // 先处理消息

            processRdd(rdd)

            // 再更新offsets

            km.updateZKOffsets(rdd)

          }

        })  

        ssc.start()

        ssc.awaitTermination()

      }

    }

spark streaming kafka1.4.1中的低阶api createDirectStream使用总结的更多相关文章

2、 Spark Streaming方式从socket中获取数据进行简单单词统计
Spark 1.5.2 Spark Streaming 学习笔记和编程练习 Overview 概述 Spark Streaming is an extension of the core Spark ...
TensorFlow低阶API（四）—— 图和会话
简介 TensorFlow使用数据流图将计算表示为独立的指令之间的依赖关系.这可生成低级别的编程模型,在该模型中,您首先定义数据流图,然后创建TensorFlow会话,以便在一组本地和远程设备上运行图 ...
TensorFlow低阶API（一）—— 简介
简介本文旨在知道您使用低级别TensorFlow API(TensorFlow Core)开始编程.您可以学习执行以下操作: 管理自己的TensorFlow程序(tf.Graph)和TensorFl ...
TensorFlow低阶API（二）—— 张量
简介正如名字所示,TensorFlow这一框架定义和运行涉及张量的计算.张量是对矢量和矩阵向潜在的更高维度的泛化.TensorFlow在内部将张量表示为基本数据类型的n维数组. 在编写TensorF ...
TebsorFlow低阶API（五）—— 保存和恢复
简介 tf.train.Saver 类提供了保存和恢复模型的方法.通过 tf.saved_model.simple_save 函数可以轻松地保存适合投入使用的模型.Estimator会自动保存和恢复 ...
TensorFlow低阶API（三）—— 变量
简介 TensorFlow变量是表示程序处理的共享持久状态的最佳方法. 我们使用tf.Variable类操作变量.tf.Variable表示可通过其运行操作来改变其值的张量.与tf.Tensor对象不 ...
大数据技术之_27_电商平台数据分析项目_02_预备知识 + Scala + Spark Core + Spark SQL + Spark Streaming + Java 对象池
第0章预备知识0.1 Scala0.1.1 Scala 操作符0.1.2 拉链操作0.2 Spark Core0.2.1 Spark RDD 持久化0.2.2 Spark 共享变量0.3 Spark ...
【转】Spark Streaming 实时计算在甜橙金融监控系统中的应用及优化
系统架构介绍整个实时监控系统的架构是先由 Flume 收集服务器产生的日志 Log 和前端埋点数据, 然后实时把这些信息发送到 Kafka 分布式发布订阅消息系统,接着由 Spark Streami ...
Spark踩坑记——Spark Streaming+Kafka
[TOC] 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...

随机推荐

九度OJ1081
这道题又一次更新了我的世界观与人生观Orz……最开始我是设计了一个O(n)的递推算法,本以为可以轻松AC没想到居然TLE了……然后搜了一下题解,才发现这道题要用矩阵的思想去做. 通过对题目的分析,我们 ...
开一个帖子，等有时间了写写如何用shapelib创建点线面等shp图层
开一个帖子,等有时间了写写如何用shapelib创建点线面等shp图层 C#操作shapelib的实例 http://files.cnblogs.com/yuxuetaoxp/Shapelib--D ...
cwRsync 配置文件详解
GLOBAL PARAMETERS(全局参数) The first parameters in the file (before a [module] header) are the global p ...
php不使用copy()函数复制文件的方法
本文实例讲述了php不使用copy()函数复制文件的方法.分享给大家供大家参考.具体如下:下面的代码不使用php内置的copy函数,直接通过文件读取写入的操作方式复制文件 <?php funct ...
性能测试脚本新玩法---fiddler&&Jmeter
飞测说:最近接触移动项目,测试app,需要做移动app的性能测试,想通过代理来录制,但是jmeter的代理录制效果真心不是很好,自己一个个请求来写代码,太浪时间了,那么有没有其他的办法呢? 我们都知道 ...
（旧）子数涵数·PS——水杯抠图
一.首先老规矩,下载所需要的素材. 二.打开Photoshop,并打开已下载好的素材. 三.使用"钢笔工具",快捷键为P,采用"路径"模式,将水杯抠出(例图左上 ...
PMP考试--挣值如何计算？
如果你对项目管理.系统架构有兴趣,请加微信订阅号"softjg",加入这个PM.架构师的大家庭假设一项工作的工期是10天,预算成本是100元:也就是每天的完成进度是10%左右:每 ...
EXTJS 表单提交
EXTJS框架中,在提交表单时,可有3种方式: 方法一: 普通的 Form 提交方式, 主要使用 form.submit() 方法来将表单提交到后台,在后台是根据表单的 name 属性来获取表单中元素 ...
洛谷P2738 [USACO4.1]篱笆回路Fence Loops
P2738 [USACO4.1]篱笆回路Fence Loops 11通过 21提交题目提供者该用户不存在标签USACO 难度提高+/省选- 提交讨论题解最新讨论暂时没有讨论题目描述 ...
tomcat 页面管理
<role rolename="admin-gui"/> <role rolename="manager-gui"/> <user ...

spark streaming kafka1.4.1中的低阶api createDirectStream使用总结

spark streaming kafka1.4.1中的低阶api createDirectStream使用总结的更多相关文章

随机推荐

热门专题