flink 根据时间消费kafka
经常遇到这样的场景,13点-14点的时候flink程序发生了故障,或者集群崩溃,导致实时程序挂掉1小时,程序恢复的时候想把程序倒回13点或者更前,重新消费kafka中的数据.
下面的代码就是根据指定时间戳(也可以换算成时间)开始消费数据,支持到这样就灵活了,可以在启动命令中加个参数,然后再配个守护程序来控制程序.
flink代码
import java.util.Properties
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer010
import org.apache.flink.streaming.connectors.kafka.internals.KafkaTopicPartition
import org.cdp.kafka.KafkaOffsetFind
object flinkkafka1 {
def main(args: Array[String]): Unit = {
/** ***************************************************************************************************************
* kafka info
*/
val zkCluster = "localhost:2181"
val kafkaCluster = "localhost:9092"
val topic = "cdp20"
val timestamp = 1519804800000L
/** ***************************************************************************************************************
* flink env
*/
val env = StreamExecutionEnvironment.getExecutionEnvironment
/** ***************************************************************************************************************
* create kafka stream
*/
val props = new Properties()
props.setProperty("bootstrap.servers", kafkaCluster)
props.setProperty("zookeeper.connect", zkCluster)
props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer")
props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer")
props.setProperty("group.id", "cdp20-c1")
/* ***********************************************************************************************************
* stream
*/
//找到时间戳对应偏移量
val offsetFinder = new KafkaOffsetFind[String]
val offset = offsetFinder.useTimestamp(timestamp,topic,props)
print(offset)
val kafkaOffsets = new java.util.HashMap[KafkaTopicPartition, java.lang.Long]
for (o <- offset) {
kafkaOffsets.put(new KafkaTopicPartition(topic, o._1), o._2)
}
//创建根据时间消费kafka的数据流
val kafkaTime = env
.addSource {
new FlinkKafkaConsumer010[String](topic,
new KeyedDeserializationSchemaWithKey(new DefaultStringDeserializer),
props)
.setStartFromSpecificOffsets(kafkaOffsets)
}
/** ***************************************************************************************************************
* exec
*/
kafkaTime.print()
/** ***************************************************************************************************************
* flink execute
*/
env.execute("flink-kafka")
}
}
kafka根据时间找偏移量代码
import java.util
import java.util.Properties
import org.apache.kafka.clients.consumer.KafkaConsumer
import org.apache.kafka.common.TopicPartition
import scala.collection.JavaConverters._
/* ***********************************************************************************************************
* 作者:陈大炮
* 时间:2018-02-28
* 内容:根据时间消费kafka
* 使用unix时间戳,查找kafka分区对应的偏移量
*/
class KafkaOffsetFind[T] {
//超时时间
val POLL_TIMEOUT = 2000
//使用时间查询
def useTimestamp(timestamp: Long, topic: String, kafkaProps: Properties): List[(Int, Long)] = {
//创建消费者,获得消费者分区
val consumer = createConsumer(kafkaProps)
consumer.subscribe(util.Arrays.asList(topic))
consumer.poll(POLL_TIMEOUT)
val partitions = consumer.assignment().asScala.toList
//拼出一个查询map
val findMap = new util.HashMap[TopicPartition, java.lang.Long]
partitions
.foreach {
c =>
findMap.put(new TopicPartition(topic, c.partition()), timestamp)
}
//使用查询map去获得偏移量
val offsetMap = consumer.offsetsForTimes(findMap)
//返回前关闭下消费者
consumer.close()
//返回分区号和对应的偏移量
partitions.map {
p =>
(p.partition(), offsetMap.get(new TopicPartition(topic, 0)).offset())
}
}
//创建消费者
protected def createConsumer(kafkaProps: Properties): KafkaConsumer[String, T] = {
val props = kafkaProps.clone().asInstanceOf[Properties]
props.put("enable.auto.commit", "false")
props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer")
props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer")
new KafkaConsumer[String, T](props)
}
}
注意事项(由漂泊的美好提供)
1.使用KafkaConsumer.offsetsForTimes要确认集群已开启log.message.timestamp.type参数
2.client端要使用0.10.*的客户端发送数据,使用低版本会造成数据格式不同问题
参考内容
http://blog.csdn.net/forrest_ou/article/details/78978575
https://github.com/noris-network/KafkaOffsetFinder
flink 根据时间消费kafka的更多相关文章
- Flink(五) 【消费kafka】
目录 0.目的 1.本地测试 2.线上测试 提交作业 0.目的 测试flink消费kafka的几种消费策略 kafkaSource.setStartFromEarliest() //从起始位置 kaf ...
- Flink消费Kafka到HDFS实现及详解
1.概述 最近有同学留言咨询,Flink消费Kafka的一些问题,今天笔者将用一个小案例来为大家介绍如何将Kafka中的数据,通过Flink任务来消费并存储到HDFS上. 2.内容 这里举个消费Kaf ...
- Flink消费Kafka数据并把实时计算的结果导入到Redis
1. 完成的场景 在很多大数据场景下,要求数据形成数据流的形式进行计算和存储.上篇博客介绍了Flink消费Kafka数据实现Wordcount计算,这篇博客需要完成的是将实时计算的结果写到redis. ...
- Flink消费kafka
Flink消费Kafka https://blog.csdn.net/boling_cavalry/article/details/85549434 https://www.cnblogs.com/s ...
- Spark Streaming消费Kafka Direct方式数据零丢失实现
使用场景 Spark Streaming实时消费kafka数据的时候,程序停止或者Kafka节点挂掉会导致数据丢失,Spark Streaming也没有设置CheckPoint(据说比较鸡肋,虽然可以 ...
- 17-Flink消费Kafka写入Mysql
戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Fli ...
- Spark streaming消费Kafka的正确姿势
前言 在游戏项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不 ...
- 《从0到1学习Flink》—— Flink 写入数据到 Kafka
前言 之前文章 <从0到1学习Flink>-- Flink 写入数据到 ElasticSearch 写了如何将 Kafka 中的数据存储到 ElasticSearch 中,里面其实就已经用 ...
- Spark Streaming消费Kafka Direct保存offset到Redis,实现数据零丢失和exactly once
一.概述 上次写这篇文章文章的时候,Spark还是1.x,kafka还是0.8x版本,转眼间spark到了2.x,kafka也到了2.x,存储offset的方式也发生了改变,笔者根据上篇文章和网上文章 ...
随机推荐
- centos yum升级php
centos yum升级php5.3.3到最5.6.3 不要轻易升级,否则后果很严重! 注意事项: 1 升级后之前的php扩展不会丢失 自动会安装对应最新php的扩展2 升级后需重启下apache 才 ...
- August 24th 2017 Week 34th Thursday
If you have choices, choose the best. If you have no choice, do the best. 如果有选择,那就选择最好的:如果没有选择,那就努力做 ...
- 解读ARM成功秘诀:薄利多销推广产品
解读ARM成功秘诀:薄利多销推广产品 2013年07月04日 15:04 新浪科技 微博 我有话说(2人参与) 导语:美国电子杂志Slate周一发表署名 法哈德·曼约奥(Farhad M ...
- vue笔记2
vue项目目录 <pre> ├── build // 构建服务和webpack配置 ├── config // 项目不同环境的配置 ├── dist // 项目build目录 ├── in ...
- MySQL查询时强制区分大写和小写
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/zyb_icanplay7/article/details/24981791 平时非常少会考虑数据存储 ...
- ZTree 使用范例
http://www.treejs.cn/v3/api.php zTree v3.x 入门指南 Api 文档 https://github.com/zTree/zTree_v3 下载ZTree v3 ...
- 【jQuery】Deferred(延迟)对象
本文针对jQuery-todolist项目中使用到的Deferred(延迟)对象进行具体分析 $.Deferred() 是一个构造函数,用来返回一个链式实用对象方法来注册多个回调,并且调用回调队列,传 ...
- 1、Android-活动(下)
1.4.活动的生命周期 对于活动来说生命周期的理解时非常重要的 当对其生命周期有了足够的了解,可以很好的写出程序 1.4.1.返回栈 Android中的活动是可以层叠的 没启动一个新的活动,就会立即覆 ...
- [Python 多线程] Condition (十)
Condition常用于生产者.消费者模型,为了解决生产者消费者速度匹配问题. 构造方法Condition(lock=None),可以传入一个Lock或RLock对象,默认RLock. 方法: acq ...
- SOE 部署错误 ClassFactory cannot supply requested class问题及解决方案
一.问题描述 虽然SOE开发已经老早出来了(ArcGIS 10.1 不再支持DCOM开发,所以以往的基于AO+WebService需要转变思路),不过由于跟工作关联性不是很大,一直未系统学习过.网上下 ...