spark streaming中维护kafka偏移量到外部介质

以kafka偏移量维护到redis为例。

redis存储格式

使用的数据结构为string，其中key为topic:partition，value为offset。

例如bobo这个topic下有3个分区，则key-value结构如下：

bobo:0的偏移量为x
bobo:1的偏移量为y
bobo:2的偏移量为z

消费时指定offset

主要是如下两个方法：

createKafkaStream()创建kakfa流
getOffsets()从redis中获取offsets

/**

  * kakfa参数

  */

private val kafkaParams = Map[String, Object](

  "bootstrap.servers" -> "crpprdap25:6667,crpprdap26:6667,crpprdap27:6667",

  "key.deserializer" -> classOf[StringDeserializer],

  "value.deserializer" -> classOf[StringDeserializer],

  "group.id" -> "use_a_separate_group_id_for_each_stream",

  // 注意这里是none。

  "auto.offset.reset" -> "none",

  "enable.auto.commit" -> (false: java.lang.Boolean)

)

// `bobo`topic下有3个分区

private val topicPartitions = Map[String, Int]("bobo" -> 3)

// 从redis中获取offsets

def getOffsets: Map[TopicPartition, Long] = {

  val jedis = InternalRedisClient.getResource

  // 设置每个分区起始的offset

  val offsets = mutable.Map[TopicPartition, Long]()

  topicPartitions.foreach { it =>

    val topic = it._1

    val partitions = it._2

    // 遍历分区，设置每个topic下对应partition的offset

    for (partition <- 0 until partitions) {

      val topicPartitionKey = topic + ":" + partition

      var lastOffset = 0L

      val lastSavedOffset = jedis.get(topicPartitionKey)

      if (null != lastSavedOffset) {

        try {

          lastOffset = lastSavedOffset.toLong

        } catch {

          case e: Exception =>

            log.error("get lastSavedOffset error", e)

            System.exit(1)

        }

      }

      log.info("from redis topic: {}, partition: {}, lastOffset: {}", topic, partition, lastOffset)

      // 添加

      offsets += (new TopicPartition(topic, partition) -> lastOffset)

    }

  }

  InternalRedisClient.returnResource(jedis)

  offsets.toMap

}

/**

  * 创建kakfa流

  *

  * @param ssc StreamingContext

  * @return InputDStream

  */

def createKafkaStream(ssc: StreamingContext): InputDStream[ConsumerRecord[String, String]] = {

  val offsets = getOffsets

  // 创建kafka stream

  val stream = KafkaUtils.createDirectStream[String, String](

    ssc,

    LocationStrategies.PreferConsistent,

    ConsumerStrategies.Assign[String, String](offsets.keys.toList, kafkaParams, offsets)

  )

  stream

}

其中：核心是通过ConsumerStrategies.Assign方法来指定topic下对应partition的offset信息。

更新offset到redis

最后将offset信息维护到redis即可。

/**

  * 消费

  *

  * @param stream InputDStream

  */

def consume(stream: InputDStream[ConsumerRecord[String, String]]): Unit = {

  stream.foreachRDD { rdd =>

    // 获取offset信息

    val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges

    // 计算相关指标，这里就统计下条数了

    val total = rdd.count()

    val jedis = InternalRedisClient.getResource

    val pipeline = jedis.pipelined()

    // 会阻塞redis

    pipeline.multi()

    // 更新相关指标

    pipeline.incrBy("totalRecords", total)

    // 更新offset

    offsetRanges.foreach { offsetRange =>

      log.info("save offsets, topic: {}, partition: {}, offset: {}", offsetRange.topic, offsetRange.partition, offsetRange.untilOffset)

      val topicPartitionKey = offsetRange.topic + ":" + offsetRange.partition

      pipeline.set(topicPartitionKey, offsetRange.untilOffset + "")

    }

    // 执行，释放

    pipeline.exec()

    pipeline.sync()

    pipeline.close()

    InternalRedisClient.returnResource(jedis)

  }

}

参考

实时流计算、Spark Streaming、Kafka、Redis、Exactly-once、实时去重

spark代码

顺便贴一下自己整理的spark相关的代码。

Github地址：spark-programming

主要包括：

RDD的基本使用
SQL
- jdbc（读、写）
- hive（读、写、动态分区）
Streaming
- 消费kafka（手动提交、手动维护offset）
- 写入HBase
- 写入Hive

spark streaming中维护kafka偏移量到外部介质的更多相关文章

Spark Streaming中的操作函数分析
根据Spark官方文档中的描述,在Spark Streaming应用中,一个DStream对象可以调用多种操作,主要分为以下几类 Transformations Window Operations J ...
Spark Streaming中的操作函数讲解
Spark Streaming中的操作函数讲解根据根据Spark官方文档中的描述,在Spark Streaming应用中,一个DStream对象可以调用多种操作,主要分为以下几类 Transform ...
flink⼿手动维护kafka偏移量量
flink对接kafka,官方模式方式是自动维护偏移量但并没有考虑到flink消费kafka过程中,如果出现进程中断后的事情! 如果此时,进程中段: 1:数据可能丢失从获取了了数据,但是在执⾏行行 ...
Spark Streaming中向flume拉取数据
在这里看到的解决方法 https://issues.apache.org/jira/browse/SPARK-1729 请是个人理解,有问题请大家留言. 其实本身flume是不支持像KAFKA一样的发 ...
flink和spark Streaming中的Back Pressure
Spark Streaming的back pressure 在讲flink的back pressure之前,我们先讲讲Spark Streaming的back pressure.Spark Strea ...
Flink与Spark Streaming在与kafka结合的区别！
本文主要是想聊聊flink与kafka结合.当然,单纯的介绍flink与kafka的结合呢,比较单调,也没有可对比性,所以的准备顺便帮大家简单回顾一下Spark Streaming与kafka的结合. ...
Spark Streaming中动态Batch Size实现初探
本期内容 : BatchDuration与 Process Time 动态Batch Size Spark Streaming中有很多算子,是否每一个算子都是预期中的类似线性规律的时间消耗呢? 例如: ...
spark streaming中使用flume数据源
有两种方式,一种是sparkstreaming中的driver起监听,flume来推数据:另一种是sparkstreaming按照时间策略轮训的向flume拉数据. 最开始我以为只有第一种方法,但是尼 ...
Spark Streaming 实现读取Kafka 生产数据
在kafka 目录下执行生产消息命令: ./kafka-console-producer --broker-list nodexx:9092 --topic 201609 在spark bin 目 ...

随机推荐

Image 上传下载Api
1.配置 "UploadConfig": { // 自定义存放位置,无需放到站点内部 "Path": "C:\\Users\\kxy\\Desktop ...
C#创建 WebApi 项目
做web api 可以参考一下网友 C#进阶系列——WebApi 接口参数不再困惑:传参详解 - 懒得安分 - 博客园https://www.cnblogs.com/landeanfen/p/5337 ...
NB学校的NB课程的NB教材——CSAPP
CMU是全美以至全球公认的CS最猛的大学之一,没办法,作为CS的发源地,再加上三位神一样的人先后在此任教:Alan Perlis(CS它祖宗+第一届Turing奖获得者).Allen Newell(A ...
Redis从入门到精通【centos下的安装】
上传redis 到服务器解压并重命名然后yum -y install gcc-c++ zlib zlib-devel pcre pcre-devel openssl openssl-devel 然 ...
Java软件工程的弹幕调试原则
日期:2019.4.25 博客期:054 星期四今天是把很久之前的那个相关程序——一维数组的最大和的子数组的求取信息,我们今天的任务就是把每一步的信息都要进行输出查看! 如下图: package p ...
shell 其他杂项知识点笔记
// 其他杂项知识点对于普通用户,Base shell 默认的提示符是美元符号$:对于超级用户(root 用户),Bash Shell 默认的提示符是井号# ------- \#!是一个约定的标记, ...
C#发送带附件的邮件的代码
如下的代码是关于C#发送带附件的邮件的代码. MailMessage m = new MailMessage();m.Subject = "File attachment!";m. ...
Epson L4158打印机安装与配置
上周购买了一台打印.扫描.复印三合一的Epson L4158喷墨打印机,主要用于打印数学纸版笔记套图.长笛乐谱.常用软件的cheatsheet(例如,GNU/Linux命令.GNU Emacs快捷键. ...
Linux scp 命令卡住的原因
When transferring large files(for example mksysb images) using scp through a firewall, the scp conne ...
postgresql 53300错误
1.查看当前库的最大连接数 show max_connections; 2.查看当前数据库的活动连接数 select datname,application_name,pid,state from p ...

spark streaming中维护kafka偏移量到外部介质

spark streaming中维护kafka偏移量到外部介质

redis存储格式

消费时指定offset

更新offset到redis

参考

spark代码

spark streaming中维护kafka偏移量到外部介质的更多相关文章

随机推荐

热门专题