Spark createDirectStream 维护 Kafka offset（Scala）

createDirectStream方式需要自己维护offset，使程序可以实现中断后从中断处继续消费数据。

KafkaManager.scala

import kafka.common.TopicAndPartition

import kafka.message.MessageAndMetadata

import kafka.serializer.Decoder

import org.apache.spark.SparkException

import org.apache.spark.rdd.RDD

import org.apache.spark.streaming.StreamingContext

import org.apache.spark.streaming.dstream.InputDStream

import org.apache.spark.streaming.kafka.KafkaCluster.LeaderOffset

import scala.reflect.ClassTag

/**

  * Created by knowpigxia on 15-8-5.

  */

class KafkaManager(val kafkaParams: Map[String, String]) extends Serializable {

  private val kc = new KafkaCluster(kafkaParams)

  /**

    * 创建数据流

    * @param ssc

    * @param kafkaParams

    * @param topics

    * @tparam K

    * @tparam V

    * @tparam KD

    * @tparam VD

    * @return

    */

  def createDirectStream[K: ClassTag, V: ClassTag, KD <: Decoder[K]: ClassTag, VD <: Decoder[V]: ClassTag](

                                                                                                            ssc: StreamingContext,

                                                                                                            kafkaParams: Map[String, String],

                                                                                                            topics: Set[String]): InputDStream[(K, V)] =  {

    val groupId = kafkaParams.get("group.id").get

    // 在zookeeper上读取offsets前先根据实际情况更新offsets

    setOrUpdateOffsets(topics, groupId)

    //从zookeeper上读取offset开始消费message

    val messages = {

      val partitionsE = kc.getPartitions(topics)

      if (partitionsE.isLeft)

        throw new SparkException(s"get kafka partition failed: ${partitionsE.left.get}")

      val partitions = partitionsE.right.get

      val consumerOffsetsE = kc.getConsumerOffsets(groupId, partitions)

      if (consumerOffsetsE.isLeft)

        throw new SparkException(s"get kafka consumer offsets failed: ${consumerOffsetsE.left.get}")

      val consumerOffsets = consumerOffsetsE.right.get

      KafkaUtils.createDirectStream[K, V, KD, VD, (K, V)](

        ssc, kafkaParams, consumerOffsets, (mmd: MessageAndMetadata[K, V]) => (mmd.key, mmd.message))

    }

    messages

  }

  /**

    * 创建数据流前，根据实际消费情况更新消费offsets

    * @param topics

    * @param groupId

    */

  private def setOrUpdateOffsets(topics: Set[String], groupId: String): Unit = {

    topics.foreach(topic => {

      var hasConsumed = true

      val partitionsE = kc.getPartitions(Set(topic))

      if (partitionsE.isLeft)

        throw new SparkException(s"get kafka partition failed: ${partitionsE.left.get}")

      val partitions = partitionsE.right.get

      val consumerOffsetsE = kc.getConsumerOffsets(groupId, partitions)

      if (consumerOffsetsE.isLeft) hasConsumed = false

      if (hasConsumed) {// 消费过

        /**

          * 如果streaming程序执行的时候出现kafka.common.OffsetOutOfRangeException，

          * 说明zk上保存的offsets已经过时了，即kafka的定时清理策略已经将包含该offsets的文件删除。

          * 针对这种情况，只要判断一下zk上的consumerOffsets和earliestLeaderOffsets的大小，

          * 如果consumerOffsets比earliestLeaderOffsets还小的话，说明consumerOffsets已过时,

          * 这时把consumerOffsets更新为earliestLeaderOffsets

          */

        val earliestLeaderOffsetsE = kc.getEarliestLeaderOffsets(partitions)

        if (earliestLeaderOffsetsE.isLeft)

          throw new SparkException(s"get earliest leader offsets failed: ${earliestLeaderOffsetsE.left.get}")

        val earliestLeaderOffsets = earliestLeaderOffsetsE.right.get

        val consumerOffsets = consumerOffsetsE.right.get

        // 可能只是存在部分分区consumerOffsets过时，所以只更新过时分区的consumerOffsets为earliestLeaderOffsets

        var offsets: Map[TopicAndPartition, Long] = Map()

        consumerOffsets.foreach({ case(tp, n) =>

          val earliestLeaderOffset = earliestLeaderOffsets(tp).offset

          if (n < earliestLeaderOffset) {

            println("consumer group:" + groupId + ",topic:" + tp.topic + ",partition:" + tp.partition +

              " offsets已经过时，更新为" + earliestLeaderOffset)

            offsets += (tp -> earliestLeaderOffset)

          }

        })

        if (!offsets.isEmpty) {

          kc.setConsumerOffsets(groupId, offsets)

        }

      } else {// 没有消费过

      val reset = kafkaParams.get("auto.offset.reset").map(_.toLowerCase)

        var leaderOffsets: Map[TopicAndPartition, LeaderOffset] = null

        if (reset == Some("smallest")) {

          val leaderOffsetsE = kc.getEarliestLeaderOffsets(partitions)

          if (leaderOffsetsE.isLeft)

            throw new SparkException(s"get earliest leader offsets failed: ${leaderOffsetsE.left.get}")

          leaderOffsets = leaderOffsetsE.right.get

        } else {

          val leaderOffsetsE = kc.getLatestLeaderOffsets(partitions)

          if (leaderOffsetsE.isLeft)

            throw new SparkException(s"get latest leader offsets failed: ${leaderOffsetsE.left.get}")

          leaderOffsets = leaderOffsetsE.right.get

        }

        val offsets = leaderOffsets.map {

          case (tp, offset) => (tp, offset.offset)

        }

        kc.setConsumerOffsets(groupId, offsets)

      }

    })

  }

  /**

    * 更新zookeeper上的消费offsets

    * @param rdd

    */

  def updateZKOffsets(rdd: RDD[(String, String)]) : Unit = {

    val groupId = kafkaParams.get("group.id").get

    val offsetsList = rdd.asInstanceOf[HasOffsetRanges].offsetRanges

    for (offsets <- offsetsList) {

      val topicAndPartition = TopicAndPartition(offsets.topic, offsets.partition)

      val o = kc.setConsumerOffsets(groupId, Map((topicAndPartition, offsets.untilOffset)))

      if (o.isLeft) {

        println(s"Error updating the offset to Kafka cluster: ${o.left.get}")

      }

    }

  }

}

　　主程序中

def initKafkaParams = {

    Map[String, String](

      "metadata.broker.list" -> Constants.KAFKA_BROKERS,

      "group.id " -> Constants.KAFKA_CONSUMER_GROUP,

      "fetch.message.max.bytes" -> "20971520",

      "auto.offset.reset" -> "smallest"

    )

  } 

// kafka参数

val kafkaParams = initKafkaParams

val manager = new KafkaManager(kafkaParams)

val messageDstream = manager.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, Set(topic)) 

// 更新offsets

manager.updateZKOffsets(rdd)

Spark createDirectStream 维护 Kafka offset（Scala）的更多相关文章

Spark自定义维护kafka的offset到zk
import kafka.common.TopicAndPartition import kafka.message.MessageAndMetadata import kafka.serialize ...
spark streaming中维护kafka偏移量到外部介质
spark streaming中维护kafka偏移量到外部介质以kafka偏移量维护到redis为例. redis存储格式使用的数据结构为string,其中key为topic:partition, ...
scala spark-streaming整合kafka （spark 2.3 kafka 0.10）
Maven组件如下: ) { System.err.println() } StreamingExamples.setStreamingLogLevels() )) ) { System.) } )) ...
spark streaming从指定offset处消费Kafka数据
spark streaming从指定offset处消费Kafka数据 -- : 770人阅读评论() 收藏举报分类: spark() 原文地址:http://blog.csdn.net/high ...
Spark Streaming消费Kafka Direct保存offset到Redis，实现数据零丢失和exactly once
一.概述上次写这篇文章文章的时候,Spark还是1.x,kafka还是0.8x版本,转眼间spark到了2.x,kafka也到了2.x,存储offset的方式也发生了改变,笔者根据上篇文章和网上文章 ...
【转】Spark Streaming和Kafka整合开发指南
基于Receivers的方法这个方法使用了Receivers来接收数据.Receivers的实现使用到Kafka高层次的消费者API.对于所有的Receivers,接收到的数据将会保存在Spark ...
基于Spark Streaming + Canal + Kafka对Mysql增量数据实时进行监测分析
Spark Streaming可以用于实时流项目的开发,实时流项目的数据源除了可以来源于日志.文件.网络端口等,常常也有这种需求,那就是实时分析处理MySQL中的增量数据.面对这种需求当然我们可以通过 ...
spark streaming 整合kafka(二)
转载:https://www.iteblog.com/archives/1326.html 和基于Receiver接收数据不一样,这种方式定期地从Kafka的topic+partition中查询最新的 ...
Spark之 Spark Streaming整合kafka(Java实现版本)
pom依赖 <properties> <scala.version>2.11.8</scala.version> <hadoop.version>2.7 ...

随机推荐

【转】使用者角度看bionic pthread_mutex和linux futex实现
使用者角度看bionic pthread_mutex和linux futex实现本文所大篇幅引用的参考文章主要描述针对glibc和pthread实现:而本文的考察代码主要是android的bioni ...
TASK_KILLABLE：Linux 中的新进程状态【转】
转自:https://www.ibm.com/developerworks/cn/linux/l-task-killable/index.html 新的睡眠状态允许 TASK_UNINTERRUPTI ...
SQL Server数据库优化笔记
不定时更新 select DateDiff(month,'2018-06-07',GETDATE()) PACTBEGINDATE ORDER BY PACTBEGINDATE ASC),GETDAT ...
SPOJ - AMR11H
Array Diversity Time Limit: 404MS Memory Limit: 1572864KB 64bit IO Format: %lld & %llu Submi ...
SPOJ-913
Query on a tree II Time Limit: 433MS Memory Limit: 1572864KB 64bit IO Format: %lld & %llu Su ...
使用maven进行Javadoc下载
project -> maven -> Download Sources and Download JavaDocs
Mysql中使用存储过程返回查询多个表的数据信息
-- 测试手机号 call P_Base_CheckLogin('); -- 测试登录名 call P_Base_CheckLogin('sch000001') -- 测试身份证号 call P_Ba ...
springBoot Feign Hystrix Dashboard
1.引入依赖  <dependency> <groupId>org.springframewor ...
ubantu16.04安装配置samba服务（原创）
1.安装samba服务 $ sudo apt-get install samba samba-common$ sudo apt-get install smbclient 如果你开启了防火墙,关闭: ...
C++的Public.lib(Public.dll) : fatal error LNK1112: module machine type 'X86' conflicts with target machine type 'x64'
今天开始编译网游服务器,找前辈借来批处理文件,版本控制上拿下代码,库等一系列资源,尼玛啊,编译出错: Public.lib(Public.dll) : fatal error LNK1112: mod ...

Spark createDirectStream 维护 Kafka offset（Scala）

Spark createDirectStream 维护 Kafka offset（Scala）的更多相关文章

随机推荐

热门专题