Spark Streaming和Kafka整合开发指南(二)

在本博客的《Spark Streaming和Kafka整合开发指南(一)》文章中介绍了如何使用基于Receiver的方法使用Spark Streaming从Kafka中接收数据。本文将介绍如何使用Spark 1.3.0引入的Direct API从Kafka中读数据。

　　和基于Receiver接收数据不一样，这种方式定期地从Kafka的topic+partition中查询最新的偏移量，再根据定义的偏移量范围在每个batch里面处理数据。当作业需要处理的数据来临时，spark通过调用Kafka的简单消费者API读取一定范围的数据。这个特性目前还处于试验阶段，而且仅仅在Scala和Java语言中提供相应的API。

　　和基于Receiver方式相比，这种方式主要有一些几个优点：
　　（1）、简化并行。我们不需要创建多个Kafka 输入流，然后union他们。而使用directStream，Spark Streaming将会创建和Kafka分区一样的RDD分区个数，而且会从Kafka并行地读取数据，也就是说Spark分区将会和Kafka分区有一一对应的关系，这对我们来说很容易理解和使用；

　　（2）、高效。第一种实现零数据丢失是通过将数据预先保存在WAL中，这将会复制一遍数据，这种方式实际上很不高效，因为这导致了数据被拷贝两次：一次是被Kafka复制；另一次是写到WAL中。但是本文介绍的方法因为没有Receiver，从而消除了这个问题，所以不需要WAL日志；

　　（3）、恰好一次语义（Exactly-once semantics）。《Spark Streaming和Kafka整合开发指南(一)》文章中通过使用Kafka高层次的API把偏移量写入Zookeeper中，这是读取Kafka中数据的传统方法。虽然这种方法可以保证零数据丢失，但是还是存在一些情况导致数据会丢失，因为在失败情况下通过Spark Streaming读取偏移量和Zookeeper中存储的偏移量可能不一致。而本文提到的方法是通过Kafka低层次的API，并没有使用到Zookeeper，偏移量仅仅被Spark Streaming保存在Checkpoint中。这就消除了Spark Streaming和Zookeeper中偏移量的不一致，而且可以保证每个记录仅仅被Spark Streaming读取一次，即使是出现故障。

　　但是本方法唯一的坏处就是没有更新Zookeeper中的偏移量，所以基于Zookeeper的Kafka监控工具将会无法显示消费的状况。然而你可以通过Spark提供的API手动地将偏移量写入到Zookeeper中。如何使用呢？其实和方法一差不多

　　1、引入依赖。

　　对于Scala和Java项目，你可以在你的pom.xml文件引入以下依赖：

<dependency>

  <groupId>org.apache.spark</groupId>

  <artifactId>spark-streaming-kafka_2.10</artifactId>

  <version>1.3.0</version>

</dependency>

　　2、编程

　　在Streaming应用程序代码中，引入KafkaUtils ，并创建DStream输入流：

import org.apache.spark.streaming.kafka._

val directKafkaStream = KafkaUtils.createDirectStream[

    [key class], [value class], [key decoder class], [value decoder class] ](

    streamingContext, [map of Kafka parameters], [set of topics to consume])

　　在 Kafka parameters参数中，你必须指定 metadata.broker.list或者bootstrap.servers参数。在默认情况下，Spark Streaming将会使用最大的偏移量来读取Kafka每个分区的数据。如果你配置了auto.offset.reset为smallest，那么它将会从最小的偏移量开始消费。

　　当然，你也可以使用KafkaUtils.createDirectStream的另一个版本从任意的位置消费数据。如果你想回去每个batch中Kafka的偏移量，你可以如下操作：

directKafkaStream.foreachRDD { rdd =>

    val offsetRanges = rdd.asInstanceOf[HasOffsetRanges]

    // offsetRanges.length = # of Kafka partitions being consumed

    ...

}

你可以通过这种方式来手动地更新Zookeeper里面的偏移量，使得基于Zookeeper偏移量的Kafka监控工具可以使用。

　　还有一点需要注意，因为这里介绍的方法没有使用到Receiver，所以Spark中关于spark.streaming.receiver.*相关的配置参数将不会对创建DStreams 有影响。我们可以使用spark.streaming.kafka.*参数进行配置。

　　3、部署

　　对应任何的Spark 应用，我们都是用spark-submit来启动你的应用程序，对于Scala和Java用户，如果你使用的是SBT或者是Maven，你可以将spark-streaming-kafka_2.10及其依赖打包进应用程序的Jar文件中，并确保spark-core_2.10和 spark-streaming_2.10标记为provided，因为它们在Spark 安装包中已经存在：\

<dependency>

          <groupId>org.apache.spark</groupId>

          <artifactId>spark-streaming_2.10</artifactId>

          <version>1.3.0</version>

          <scope>provided</scope>

</dependency>

<dependency>

          <groupId>org.apache.spark</groupId>

          <artifactId>spark-core_2.10</artifactId>

          <version>1.3.0</version>

          <scope>provided</scope>

</dependency>

然后使用spark-submit来启动你的应用程序。

Spark Streaming和Kafka整合开发指南(二)的更多相关文章

【转】Spark Streaming和Kafka整合开发指南
基于Receivers的方法这个方法使用了Receivers来接收数据.Receivers的实现使用到Kafka高层次的消费者API.对于所有的Receivers,接收到的数据将会保存在Spark ...
Spark Streaming和Kafka整合开发指南(一)
Apache Kafka是一个分布式的消息发布-订阅系统.可以说,任何实时大数据处理工具缺少与Kafka整合都是不完整的.本文将介绍如何使用Spark Streaming从Kafka中接收数据,这里将 ...
spark streaming基于Kafka的开发
spark streaming使用Kafka数据源进行数据处理,本文侧重讲述实践使用. 一.基于receiver的方式在使用receiver的时候,如果receiver和partition分配不当, ...
Spark Streaming和Kafka整合是如何保证数据零丢失
转载:https://www.iteblog.com/archives/1591.html 当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢 ...
Spark Streaming和Kafka整合保证数据零丢失
当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢失机制.为了体验这个关键的特性,你需要满足以下几个先决条件: 1.输入的数据来自可靠的数据源 ...
Spark Streaming与kafka整合实践之WordCount
本次实践使用kafka console作为消息的生产者,Spark Streaming作为消息的消费者,具体实践代码如下首先启动kafka server .\bin\windows\kafka-se ...
spark streaming集成kafka
Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用.目前越来越多的开源分布式处理系统如Clouder ...
Spark Streaming on Kafka解析和安装实战
本课分2部分讲解: 第一部分,讲解Kafka的概念.架构和用例场景: 第二部分,讲解Kafka的安装和实战. 由于时间关系,今天的课程只讲到如何用官网的例子验证Kafka的安装是否成功.后续课程会接着 ...
Spark streaming消费Kafka的正确姿势
前言在游戏项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不 ...

随机推荐

乌班图中的ssh服务
SSH服务(TCP端口号22):安全的命令解释器为客户机提供安全的Shell 环境,用于远程管理 ...
【linux高级程序设计】（第八章）进程管理与程序开发 5
守候进程启动方式: 在系统启动时由/etc/rd.d目录下的启动脚本启动利用inetd超级服务器启动有cron命令定时启动,以及在终端用nohup命令启动守护进程编程要点 (1)屏蔽有关控制终 ...
JavaScripts广告轮播图以及定时弹出和定时隐藏广告
轮播图: 函数绑定在body标签内采用3张图,1.jpg 2.jpg 3.jpg 利用定时任务执行设置图片属性 src 利用for循环可以完成3秒一次一替换. 定时弹出广告: 由于bod ...
524. Longest Word in Dictionary through Deleting
Given a string and a string dictionary, find the longest string in the dictionary that can be formed ...
(6)centos安装和解压
一.rpm包安装方式步骤:1.找到相应的软件包,比如soft.version.rpm,下载到本机某个目录:2.打开一个终端,su -成root用户:3.cd soft.version.rpm所在的目录 ...
如何证明一个数的数根(digital root)就是它对9的余数？
数根就是不断地求这个数的各位数之和,直到求到个位数为止.所以数根一定和该数模9同余,但是数根又是大于零小于10的,所以数根模9的余数就是它本身,也就是说该数模9之后余数就是数根. 证明: 假设有一个n ...
autolayout先进的自动布局工具箱
原文链接:http://www.objc.io/issue-3/advanced-auto-layout-toolbox.html 在我的上一个项目中,因为是面向公司内部使用的客户端,所以我直接抛弃了 ...
[译]在IB中实现自动布局
有关自动布局的其他文章: Autolayout Visual format language for autolayout Creating individual constraints 可怜的界面编 ...
IOS开发self.的用法总结
如果声明的是retain类型的,然后使用self.的话此时引用计数会加1,变成1,如果同时又使用了alloc,那么引用计数又加一变成了2,那么如果只是release一次的话就会内存泄漏. 这种情况下的 ...
mac python 切换系统默认版本
1 找到所安装python路径/usr/local/Cellar/python/2.7.13/bin2 vim ~/.bash_profile 3 添加如下代码: PATH="/usr/lo ...

Spark Streaming和Kafka整合开发指南(二)

Spark Streaming和Kafka整合开发指南(二)的更多相关文章

随机推荐

热门专题