前言

老刘是一名即将找工作的研二学生，写博客一方面是复习总结大数据开发的知识点，一方面是希望帮助更多自学的小伙伴。由于老刘是自学大数据开发，肯定会存在一些不足，还希望大家能够批评指正，让我们一起进步！

今天讲述的是SparkStreaming与Kafka的整合，这篇文章非常适合刚入门的小伙伴，也欢迎大家前来发表意见，老刘这次会用图片的形式讲述别人技术博客没有的一些细节，这些细节对刚入门的小伙伴是非常有用的！！！

正文

为什么有SparkStreaming与Kafka的整合？

首先我们要知道为什么会有SparkStreaming与Kafka的整合，任何事情的出现都不是无缘无故的！

我们要知道Spark作为实时计算框架，它仅仅涉及到计算，并没有涉及到数据的存储，所以我们后期需要使用spark对接外部的数据源。SparkStreaming作为Spark的一个子模块，它有4个类型的数据源：

socket数据源（测试的时候使用）
HDFS数据源（会用到，但是用得不多）
自定义数据源（不重要，没怎么见过别人会自定义数据源）
扩展的数据源（比如kafka数据源，它非常重要，面试中也会问到）

下面老刘图解SparkStreaming与Kafka的整合，但只讲原理，代码就不贴了，网上太多了，老刘写一些自己理解的东西！

SparkStreaming整合Kafka-0.8

SparkStreaming与Kafka的整合要看Kafka的版本，首先要讲的是SparkStreaming整合Kafka-0.8。

在SparkStreaming整合kafka-0.8中，要想保证数据不丢失，最简单的就是靠checkpoint的机制，但是checkpoint机制有一个毛病，对代码进行升级后，checkpoint机制就失效了。所以如果想实现数据不丢失，那么就需要自己管理offset。

大家对代码升级会不会感到陌生，老刘对它好好解释一下！

我们在日常开发中常常会遇到两个情况，代码一开始有问题，改一下，然后重新打包，重新提交；业务逻辑发生改变，我们也需要重新修改代码！

而我们checkpoint第一次持久化的时候会整个相关的jar给序列化成一个二进制文件，这是一个独一无二的值做目录，如果SparkStreaming想通过checkpoint恢复数据，但如果代码发生改变，哪怕一点点，就找不到之前打包的目录，就会导致数据丢失！

所以我们需要自己管理偏移量！

用ZooKeeper集群管理偏移量，程序启动后，就会读取上一次的偏移量，读取到数据后，SparkStreaming就会根据偏移量从kafka中读取数据，读到数据后，程序会运行。运行完后，就会提交偏移量到ZooKeeper集群，但有一个小问题，程序运行挂了，但偏移量未提交，结果已经部分到HBase，再次重新读取的时候，会有数据重复，但只影响一批次，对大数据来说，影响太小！

但是有个非常严重的问题，当有特别多消费者消费数据的时候，需要读取偏移量，但ZooKeeper作为分布式协调框架，它不适合大量的读写操作，尤其是写操作。所以高并发的请求ZooKeeper是不适合的，它只能作为轻量级的元数据存储，不能负责高并发读写作为数据存储。

根据上述内容，就引出了SparkStreaming整合Kafka-1.0。

SparkStreaming整合Kafka-1.0

直接利用kafka保存offset偏移量，可以避免利用ZooKeeper存储offset偏移量带来的风险，这里也有一个注意的地方，kafka有一个自动提交偏移量的功能，但会导致数据丢失。

因为设置自动提交就会按照一定的频率，比如每隔2秒自动提交一次偏移量。但我截获一个数据后，还没来得及处理，刚好到达2秒就把偏移量提交了，于是就导致数据丢失，所以我们一般手动提交偏移量！

如何设计监控告警方案？

在日常开发工作中，我们需要对实时任务设计一个监控方案，因为实时任务没有监控，程序就在裸奔，任务是否有延迟等情况无法获取，这是非常可怕的情况！

这个只是利用KafkaOffsetmonitor设计的一个方案，利用它对任务进行监控，接着利用爬虫技术获取监控的信息，再把数据导入到openfalcon里面，在openfalcon里根据策略配置告警或者自己研发告警系统，最后把信息利用企业微信或者短信发送给开发人员！

总结

好啦！本篇主要讲解了SparkStreaming和Kafka的整合过程，老刘花了很多心思讲了很多细节，对大数据感兴趣的伙伴记得给老刘点赞关注。最后，如果有疑问联系公众号：努力的老刘，进行愉快的交流！

图解SparkStreaming与Kafka的整合，这些细节大家要注意！的更多相关文章

【Spark】SparkStreaming和Kafka的整合
文章目录 Streaming和Kafka整合概述使用0.8版本下Receiver DStream接收数据进行消费步骤一.启动Kafka集群二.创建maven工程,导入jar包三.创建一个k ...
SparkStreaming和Kafka的整合
当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢失机制.需要满足以下几个先决条件: 1.输入的数据来自可靠的数据源和可靠的接收器: 2.应用 ...
SparkStreaming和Kafka基于Direct Approach如何管理offset实现exactly once
在之前的文章<解析SparkStreaming和Kafka集成的两种方式>中已详细介绍SparkStreaming和Kafka集成主要有Receiver based Approach和Di ...
SparkStreaming与Kafka，SparkStreaming接收Kafka数据的两种方式
SparkStreaming接收Kafka数据的两种方式 SparkStreaming接收数据原理一.SparkStreaming + Kafka Receiver模式二.SparkStreami ...
Flume+Kafka+Storm整合
Flume+Kafka+Storm整合 1. 需求: 有一个客户端Client可以产生日志信息,我们需要通过Flume获取日志信息,再把该日志信息放入到Kafka的一个Topic:flume-to-k ...
spark-streaming集成Kafka处理实时数据
在这篇文章里,我们模拟了一个场景,实时分析订单数据,统计实时收益. 场景模拟我试图覆盖工程上最为常用的一个场景: 1)首先,向Kafka里实时的写入订单数据,JSON格式,包含订单ID-订单类型-订 ...
sparkStreaming 读kafka的数据
目标:sparkStreaming每2s中读取一次kafka中的数据,进行单词计数. topic:topic1 broker list:192.168.1.126:9092,192.168.1.127 ...
SparkStreaming获取kafka数据的两种方式：Receiver与Direct
简介: Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式,可以简单理解成: Receiver方式是通过zookeeper来连接kafka队列, Dire ...
第1节 kafka消息队列：10、flume与kafka的整合使用
11.flume与kafka的整合实现flume监控某个目录下面的所有文件,然后将文件收集发送到kafka消息系统中第一步:flume下载地址 http://archive.cloudera.co ...

随机推荐

第12.4节 Python伪随机数数生成器random模块导览
random模块实现了各种分布的伪随机数生成器,常用功能包括: random.seed(a=None, version=2):初始化随机数生成器,如果 a 被省略或为 None ,则使用当前系统时间. ...
第四章、PyQt中的信号（signal）和槽（slot）机制以及Designer中的使用
老猿Python博文目录专栏:使用PyQt开发图形界面Python应用老猿Python博客地址一.引言前面章节其实已经在使用信号和槽了,但是作为Qt中最重要的机制也是Qt区别与其他开发平台的重 ...
PyQt学习随笔：重写setData方法截获Model/View中视图数据项编辑的注意事项
根据<PyQt学习随笔:Model/View中视图数据项编辑变动实时获取变动数据的方法>可以重写从PyQt的Model类继承的setData方法来实时截获View中对数据的更改,但需要注意 ...
Python3安装且环境配置(三)
1.在Window 平台安装 Python3 以下为在 Window 平台上安装 Python3 的简单步骤: 打开WEB浏览器访问http://www.python.org/download/ 在下 ...
python 数据分析与挖掘实战01
python 数据分析与挖掘实战 day 01 08/02 这种从数据中"淘金",从大量数据包括文本中挖掘出隐含的.未知的.对决策有潜在价值关系.模式或者趋势,并用这些知识和规则建 ...
【HNOI2010】城市建设（对时间分治 & Kruskal）
Description $n$ 个点 $m$ 条边的带边权无向图.$q$ 次操作,每次修改一条边的权值. 求每次修改后的最小生成树的边权和. Hint \(1\le n\le 2\time ...
题解-CF617E XOR and Favorite Number
题面 CF617E XOR and Favorite Number 给定 $n,m,k$ 和 $n$ 个数的序列 $a_i$,$m$ 次求区间 $[l,r]$ 中异或值为 \(k\ ...
nginx配置访问本地资源
参考博客:https://www.cnblogs.com/xy51/p/9973326.html 需要访问路径:http://IP:10013/p1upgrade/picfiles/image73b4 ...
庐山真面目之七微服务架构Consul集群、Ocelot网关集群和IdentityServer4版本实现
庐山真面目之七微服务架构Consul集群.Ocelot网关集群和IdentityServer4版本实现一.简介在上一篇文章<庐山真面目之六微服务架构Consul集群.Ocelot网 ...
vue2中$emit $on $off实现组件之间的联动，绝对有你想了解的
在vue2开发中,你肯定会遇到组件之间联动的问题,现在我们就来说说哪个神奇的指令可以满足我们的需求. 一.先上实例: 需求:点击A组件或者B组件可以使C组件的名称相应发生改变,同样,点击A组件也会使对 ...

图解SparkStreaming与Kafka的整合，这些细节大家要注意！

前言

正文