sparkStreaming消费kafka-1.0.1方式：direct方式（存储offset到zookeeper）-- 2

参考上篇博文：https://www.cnblogs.com/niutao/p/10547718.html

同样的逻辑，不同的封装

package offsetInZookeeper

/**

  * Created by angel

  */

import java.lang.Object

import kafka.utils.{ZKGroupTopicDirs, ZkUtils}

import org.apache.kafka.clients.consumer.{ConsumerRecord, KafkaConsumer}

import org.apache.kafka.common.TopicPartition

import org.apache.kafka.common.serialization.StringDeserializer

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.rdd.RDD

import org.apache.spark.streaming.{Seconds, StreamingContext}

import org.apache.spark.streaming.dstream.InputDStream

import org.apache.spark.streaming.kafka010.LocationStrategies.PreferConsistent

import org.apache.spark.streaming.kafka010.{ConsumerStrategies, HasOffsetRanges, KafkaUtils}

import org.slf4j.LoggerFactory

import scala.collection.JavaConversions._

import scala.reflect.ClassTag

import scala.util.Try

/**

  * Kafka的连接和Offset管理工具类

  *

  * @param zkHosts     Zookeeper地址

  * @param kafkaParams Kafka启动参数

  */

class KafkaManager(zkHosts: String, kafkaParams: Map[String, Object]) extends Serializable {

  //Logback日志对象，使用slf4j框架

  @transient private lazy val log = LoggerFactory.getLogger(getClass)

  //建立ZkUtils对象所需的参数

  val (zkClient, zkConnection) = ZkUtils.createZkClientAndConnection(zkHosts, 10000, 10000)

  //ZkUtils对象，用于访问Zookeeper

  val zkUtils = new ZkUtils(zkClient, zkConnection, false)

  /**

    * 包装createDirectStream方法，支持Kafka Offset，用于创建Kafka Streaming流

    *

    * @param ssc    Spark Streaming Context

    * @param topics Kafka话题

    * @tparam K Kafka消息Key类型

    * @tparam V Kafka消息Value类型

    * @return Kafka Streaming流

    */

  def createDirectStream[K: ClassTag, V: ClassTag](ssc: StreamingContext, topics: Seq[String]): InputDStream[ConsumerRecord[K, V]] = {

    val groupId = kafkaParams("group.id").toString

    val storedOffsets = readOffsets(topics, groupId)

    log.info("Kafka消息偏移量汇总(格式:(话题,分区号,偏移量)):{}", storedOffsets.map(off => (off._1.topic, off._1.partition(), off._2)))

    val kafkaStream = KafkaUtils.createDirectStream[K, V](ssc, PreferConsistent, ConsumerStrategies.Subscribe[K, V](topics, kafkaParams, storedOffsets))

    kafkaStream

  }

  /**

    * 从Zookeeper读取Kafka消息队列的Offset

    *

    * @param topics  Kafka话题

    * @param groupId Kafka Group ID

    * @return 返回一个Map[TopicPartition, Long]，记录每个话题每个Partition上的offset，如果还没消费，则offset为0

    */

  def readOffsets(topics: Seq[String], groupId: String): Map[TopicPartition, Long] = {

    val topicPartOffsetMap = collection.mutable.HashMap.empty[TopicPartition, Long]

    val partitionMap = zkUtils.getPartitionsForTopics(topics)

    // /consumers/<groupId>/offsets/<topic>/

    partitionMap.foreach(topicPartitions => {

      val zkGroupTopicDirs = new ZKGroupTopicDirs(groupId, topicPartitions._1)

      topicPartitions._2.foreach(partition => {

        val offsetPath = zkGroupTopicDirs.consumerOffsetDir + "/" + partition

        val tryGetKafkaOffset = Try {

          val offsetStatTuple = zkUtils.readData(offsetPath)

          if (offsetStatTuple != null) {

            log.info("查询Kafka消息偏移量详情: 话题:{}, 分区:{}, 偏移量:{}, ZK节点路径:{}", Seq[AnyRef](topicPartitions._1, partition.toString, offsetStatTuple._1, offsetPath): _*)

            topicPartOffsetMap.put(new TopicPartition(topicPartitions._1, Integer.valueOf(partition)), offsetStatTuple._1.toLong)

          }

        }

        if(tryGetKafkaOffset.isFailure){

          //http://kafka.apache.org/0110/javadoc/index.html?org/apache/kafka/clients/consumer/KafkaConsumer.html

          val consumer = new KafkaConsumer[String, Object](kafkaParams)

          val partitionList = List(new TopicPartition(topicPartitions._1, partition))

          consumer.assign(partitionList)

          val minAvailableOffset = consumer.beginningOffsets(partitionList).values.head

          consumer.close()

          log.warn("查询Kafka消息偏移量详情: 没有上一次的ZK节点:{}, 话题:{}, 分区:{}, ZK节点路径:{}, 使用最小可用偏移量:{}", Seq[AnyRef](tryGetKafkaOffset.failed.get.getMessage, topicPartitions._1, partition.toString, offsetPath, minAvailableOffset): _*)

          topicPartOffsetMap.put(new TopicPartition(topicPartitions._1, Integer.valueOf(partition)), minAvailableOffset)

        }

      })

    })

    topicPartOffsetMap.toMap

  }

  /**

    * 保存Kafka消息队列消费的Offset

    *

    * @param rdd            SparkStreaming的Kafka RDD，RDD[ConsumerRecord[K, V]

    * @param storeEndOffset true=保存结束offset， false=保存起始offset

    */

  def persistOffsets[K, V](rdd: RDD[ConsumerRecord[K, V]], storeEndOffset: Boolean = true): Unit = {

    val groupId = kafkaParams("group.id").toString

    val offsetsList = rdd.asInstanceOf[HasOffsetRanges].offsetRanges

    offsetsList.foreach(or => {

      val zkGroupTopicDirs = new ZKGroupTopicDirs(groupId, or.topic)

      val offsetPath = zkGroupTopicDirs.consumerOffsetDir + "/" + or.partition

      val offsetVal = if (storeEndOffset) or.untilOffset else or.fromOffset

      zkUtils.updatePersistentPath(zkGroupTopicDirs.consumerOffsetDir + "/" + or.partition, offsetVal + "" /*, JavaConversions.bufferAsJavaList(acls)*/)

      log.debug("保存Kafka消息偏移量详情: 话题:{}, 分区:{}, 偏移量:{}, ZK节点路径:{}", Seq[AnyRef](or.topic, or.partition.toString, offsetVal.toString, offsetPath): _*)

    })

  }

}

object Manager{

  def main(args: Array[String]): Unit = {

    //5 cdh1:9092,cdh2:9092,cdh3:9092 test2 zk cdh1:2181,cdh2:2181,cdh3:2181

    if (args.length < 5) {

      System.err.println("Usage: KafkaDirectStreamTest " +

        "<batch-duration-in-seconds> " +

        "<kafka-bootstrap-servers> " +

        "<kafka-topics> " +

        "<kafka-consumer-group-id> " +

        "<kafka-zookeeper-quorum>")

      System.exit(1)

    }

    val batchDuration = args(0)

    val bootstrapServers = args(1).toString

    val topicsSet = args(2).toString.split(",").toSet

    val consumerGroupID = args(3)

    val zkQuorum = args(4)

    val sparkConf = new SparkConf().setAppName("Kafka-Offset-Management-Blog")

      .setMaster("local[4]")

    val sc = new SparkContext(sparkConf)

    val ssc = new StreamingContext(sc, Seconds(batchDuration.toLong))

    val topics = topicsSet.toArray

    val kafkaParams = Map[String, Object](

      "bootstrap.servers" -> bootstrapServers,

      "key.deserializer" -> classOf[StringDeserializer],

      "value.deserializer" -> classOf[StringDeserializer],

      "group.id" -> consumerGroupID,

      "auto.offset.reset" -> "latest",

      "enable.auto.commit" -> (false: java.lang.Boolean) //禁用自动提交Offset，否则可能没正常消费完就提交了，造成数据错误

    )

    lazy val kafkaManager = new KafkaManager(zkQuorum , kafkaParams)

    val inputDStream: InputDStream[ConsumerRecord[String, String]] = kafkaManager.createDirectStream(ssc , topics)

    inputDStream.foreachRDD(rdd => {

      val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges

      offsetRanges.foreach(

        offset =>

          println(offset.topic, offset.partition, offset.fromOffset,offset.untilOffset)

      )

      kafkaManager.persistOffsets(rdd)

    })

    ssc.start()

    ssc.awaitTermination()

  }

}

sparkStreaming消费kafka-1.0.1方式：direct方式（存储offset到zookeeper）-- 2的更多相关文章

sparkStreaming消费kafka-1.0.1方式：direct方式（存储offset到zookeeper）
版本声明: kafka:1.0.1 spark:2.1.0 注意:在使用过程中可能会出现servlet版本不兼容的问题,因此在导入maven的pom文件的时候,需要做适当的排除操作 <?xml ...
sparkStreaming消费kafka-0.8方式：direct方式（存储offset到zookeeper）
生产中,为了保证kafka的offset的安全性,并且防止丢失数据现象,会手动维护偏移量(offset) 版本:kafka:0.8 其中需要注意的点: 1:获取zookeeper记录的分区偏移量 2: ...
SparkStreaming消费kafka中数据的方式
有两种:Direct直连方式.Receiver方式 1.Receiver方式: 使用kafka高层次的consumer API来实现,receiver从kafka中获取的数据都保存在spark exc ...
SparkStreaming消费Kafka，手动维护Offset到Mysql
目录说明整体逻辑 offset建表语句代码实现说明当前处理只实现手动维护offset到mysql,只能保证数据不丢失,可能会重复要想实现精准一次性,还需要将数据提交和offset提交维护在 ...
sparkstreaming消费kafka后bulk到es
不使用es-hadoop的saveToES,与scala版本冲突问题太多.不使用bulkprocessor,异步提交,es容易oom,速度反而不快.使用BulkRequestBuilder同步提交. ...
Spark Streaming消费Kafka Direct保存offset到Redis，实现数据零丢失和exactly once
一.概述上次写这篇文章文章的时候,Spark还是1.x,kafka还是0.8x版本,转眼间spark到了2.x,kafka也到了2.x,存储offset的方式也发生了改变,笔者根据上篇文章和网上文章 ...
sparkStreaming读取kafka的两种方式
概述 Spark Streaming 支持多种实时输入源数据的读取,其中包括Kafka.flume.socket流等等.除了Kafka以外的实时输入源,由于我们的业务场景没有涉及,在此将不会讨论.本篇 ...
spark-streaming集成Kafka处理实时数据
在这篇文章里,我们模拟了一个场景,实时分析订单数据,统计实时收益. 场景模拟我试图覆盖工程上最为常用的一个场景: 1)首先,向Kafka里实时的写入订单数据,JSON格式,包含订单ID-订单类型-订 ...
【Spark】Spark Streaming + Kafka direct 的 offset 存入Zookeeper并重用
Spark Streaming + Kafka direct 的 offset 存入Zookeeper并重用 streaming offset设置_百度搜索将 Spark Streaming + K ...

随机推荐

web页面加载、解析、渲染过程
仅做学习参考,侵权删原文链接:风吹De麦浪 https://www.cnblogs.com/CandyManPing/p/6635008.html 一.浏览器浏览器的主要功能是将用户选择的we ...
java8 常用函数式接口
public static void main(String[] args) { // TODO Auto-generated method stub //函数式接口 Function<Inte ...
BeautifulSoup解析器的选择
BeautifulSoup解析器在我们使用BeautifulSoup的时候,选择怎样的解析器是至关重要的.使用不同的解析器有可能会出现不同的结果! 今天遇到一个坑,在解析某html的时候.使用htm ...
在DOS中操作MySQL数据库出现中文乱码
1. 问题:最近使用到MySQL数据库操作,在DOS下使用命令行向mysql中插入/读取中文时出现乱码问题. 2. 原因:由于CMD客户端默认编码为GBK,而本人在安装MySQL时设置编码为UTF-8 ...
Confluence 6 "Duplicate Key" 相关问题解决
如果你遇到了下面的错误信息,例如: could not insert: [bucket.user.propertyset.BucketPropertySetItem#bucket.user.prope ...
基于 Confluence 6 数据中心在你的 Atlassian 应用中配置 SAML 授权
希望在 Confluence 中配置SAML: Go to > 基本配置(General Configuration) > SAMl 授权(SAML Authentication). 选 ...
使用 Kafka 和 Spark Streaming 构建实时数据处理系统
使用 Kafka 和 Spark Streaming 构建实时数据处理系统来源:https://www.ibm.com/developerworks,这篇文章转载自微信里文章,正好解决了我项目中的技 ...
LeetCode（123）：买卖股票的最佳时机 III
Hard! 题目描述: 给定一个数组,它的第 i 个元素是一支给定的股票在第 i 天的价格. 设计一个算法来计算你所能获取的最大利润.你最多可以完成两笔交易. 注意: 你不能同时参与多笔交易(你必 ...
【gearman】gearmand -d 无反应解决
背景:安装了gearman后,用指令gearmand -d启动后.输入ps -ef|grep gearmand 查找不到.说明服务并没有启动. 查看报错: gearmand -d -l gear.lo ...
this作用范围
1. this的指向 var name='window';var obj={ name:'obj', say:function(){ return function(){ return this.na ...

sparkStreaming消费kafka-1.0.1方式：direct方式（存储offset到zookeeper）-- 2

sparkStreaming消费kafka-1.0.1方式：direct方式（存储offset到zookeeper）-- 2的更多相关文章

随机推荐

热门专题