Spark2.11 两种流操作 + Kafka

Spark2.x 自从引入了 Structured Streaming 后，未来数据操作将逐步转化到 DataFrame/DataSet，以下将介绍 Spark2.x 如何与 Kafka0.10+整合

Structured Streaming + Kafka

引包

groupId = org.apache.spark

artifactId = spark-sql-kafka-0-10_2.11

version = 2.1.1

为了让更直观的展示包的依赖，以下是我的工程 sbt 文件

name := "spark-test"

version := "1.0"

scalaVersion := "2.11.7"

// https://mvnrepository.com/artifact/org.apache.spark/spark-core_2.11

libraryDependencies += "org.apache.spark" % "spark-core_2.11" % "2.1.1" % "provided"

// https://mvnrepository.com/artifact/org.apache.spark/spark-mllib_2.11

libraryDependencies += "org.apache.spark" % "spark-mllib_2.11" % "2.1.1" % "provided"

// https://mvnrepository.com/artifact/org.apache.spark/spark-streaming_2.11

libraryDependencies += "org.apache.spark" % "spark-streaming_2.11" % "2.1.1" % "provided"

// https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-client

libraryDependencies += "org.apache.hadoop" % "hadoop-client" % "2.7.3"

// https://mvnrepository.com/artifact/mysql/mysql-connector-java

libraryDependencies += "mysql" % "mysql-connector-java" % "5.1.38"

// https://mvnrepository.com/artifact/org.apache.kafka/kafka_2.11

libraryDependencies += "org.apache.kafka" % "kafka_2.11" % "0.10.2.1"

//libraryDependencies += "org.apache.spark" % "spark-streaming-kafka-0-10_2.11" % "2.1.1"

libraryDependencies += "org.apache.spark" % "spark-sql-kafka-0-10_2.11" % "2.1.1"

Structured Streaming 连接 Kafka

def main(args: Array[String]): Unit = {

    val spark = SparkSession

      .builder()

      .appName("Spark structured streaming Kafka example")

      //      .master("local[2]")

      .getOrCreate()

    val inputstream = spark.readStream

      .format("kafka")

      .option("kafka.bootstrap.servers", "127.0.0.1:9092")

      .option("subscribe", "testss")

      .load()

    import spark.implicits._

    val query = inputstream.select($"key", $"value")

      .as[(String, String)].map(kv => kv._1 + " " + kv._2).as[String]

      .writeStream

      .outputMode("append")

      .format("console")

      .start()

    query.awaitTermination()

  }

流的元数据如下

Column	Type
key	binary
value	binary
topic	string
partition	int
offset	long
timestamp	long
timestampType	int

可配参数

Option	value	meaning
assign	json string {"topicA":[0,1],"topicB":[2,4]}	用于指定消费的 TopicPartitions，`assign`，`subscribe`，`subscribePattern` 是三种消费方式，只能同时指定一个
subscribe	A comma-separated list of topics	用于指定要消费的 topic
subscribePattern	Java regex string	使用正则表达式匹配消费的 topic
kafka.bootstrap.servers	A comma-separated list of host:port	kafka brokers

不能配置的参数

group.id: 对每个查询，kafka 自动创建一个唯一的 group
auto.offset.reset: 可以通过 startingOffsets 指定，Structured Streaming 会对任何流数据维护 offset, 以保证承诺的 exactly once.
key.deserializer: 在 DataFrame 上指定，默认 ByteArrayDeserializer
value.deserializer: 在 DataFrame 上指定，默认 ByteArrayDeserializer
enable.auto.commit:
interceptor.classes:

Stream + Kafka

从最新offset开始消费

def main(args: Array[String]): Unit = {

	val kafkaParams = Map[String, Object](

	  "bootstrap.servers" -> "localhost:9092",

	  "key.deserializer" -> classOf[StringDeserializer],

	  "value.deserializer" -> classOf[StringDeserializer],

	  "group.id" -> "use_a_separate_group_id_for_each_stream",

	  "auto.offset.reset" -> "latest",

	  "enable.auto.commit" -> (false: java.lang.Boolean)

	)

	val ssc =new StreamingContext(OpContext.sc, Seconds(2))

	val topics = Array("test")

	val stream = KafkaUtils.createDirectStream[String, String](

	  ssc,

	  PreferConsistent,

	  Subscribe[String, String](topics, kafkaParams)

	)

	stream.foreachRDD(rdd=>{

	  val offsetRanges=rdd.asInstanceOf[HasOffsetRanges].offsetRanges

	  rdd.foreachPartition(iter=>{

		val o: OffsetRange = offsetRanges(TaskContext.get.partitionId)

		println(s"${o.topic} ${o.partition} ${o.fromOffset} ${o.untilOffset}")

	  })

	  stream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)

	})

//    stream.map(record => (record.key, record.value)).print(1)

	ssc.start()

	ssc.awaitTermination()

  }

从指定的offset开始消费

def main(args: Array[String]): Unit = {

  val kafkaParams = Map[String, Object](

	"bootstrap.servers" -> "localhost:9092",

	"key.deserializer" -> classOf[StringDeserializer],

	"value.deserializer" -> classOf[StringDeserializer],

	"group.id" -> "use_a_separate_group_id_for_each_stream",

	//      "auto.offset.reset" -> "latest",

	"enable.auto.commit" -> (false: java.lang.Boolean)

  )

  val ssc = new StreamingContext(OpContext.sc, Seconds(2))

  val fromOffsets = Map(new TopicPartition("test", 0) -> 1100449855L)

  val stream = KafkaUtils.createDirectStream[String, String](

	ssc,

	PreferConsistent,

	Assign[String, String](fromOffsets.keys.toList, kafkaParams, fromOffsets)

  )

  stream.foreachRDD(rdd => {

	val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges

	for (o <- offsetRanges) {

	  println(s"${o.topic} ${o.partition} ${o.fromOffset} ${o.untilOffset}")

	}

	stream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)

  })

  //    stream.map(record => (record.key, record.value)).print(1)

  ssc.start()

  ssc.awaitTermination()

}

Streaming结合Kafka的更多相关文章

spark streaming 对接kafka记录
spark streaming 对接kafka 有两种方式: 参考: http://group.jobbole.com/15559/ http://blog.csdn.net/kwu_ganymede ...
Spark Streaming、Kafka结合Spark JDBC External DataSouces处理案例
场景:使用Spark Streaming接收Kafka发送过来的数据与关系型数据库中的表进行相关的查询操作: Kafka发送过来的数据格式为:id.name.cityId,分隔符为tab zhangs ...
【转】Spark Streaming和Kafka整合开发指南
基于Receivers的方法这个方法使用了Receivers来接收数据.Receivers的实现使用到Kafka高层次的消费者API.对于所有的Receivers,接收到的数据将会保存在Spark ...
Structured Streaming从Kafka 0.8中读取数据的问题
众所周知,Structured Streaming默认支持Kafka 0.10,没有提供针对Kafka 0.8的Connector,但这对高手来说不是事儿,于是有个Hortonworks的邵大牛(前段 ...
Spark streaming消费Kafka的正确姿势
前言在游戏项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不 ...
Spark Streaming和Kafka整合保证数据零丢失
当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢失机制.为了体验这个关键的特性,你需要满足以下几个先决条件: 1.输入的数据来自可靠的数据源 ...
spark streaming集成kafka
Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用.目前越来越多的开源分布式处理系统如Clouder ...
spark streaming 整合 kafka(一)
转载:https://www.iteblog.com/archives/1322.html Apache Kafka是一个分布式的消息发布-订阅系统.可以说,任何实时大数据处理工具缺少与Kafka整合 ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十一）定制一个arvo格式文件发送到kafka的topic，通过Structured Streaming读取kafka的数据
将arvo格式数据发送到kafka的topic 第一步:定制avro schema: { "type": "record", "name": ...

随机推荐

RNN的介绍
一.状态和模型在CNN网络中的训练样本的数据为IID数据(独立同分布数据),所解决的问题也是分类问题或者回归问题或者是特征表达问题.但更多的数据是不满足IID的,如语言翻译,自动文本生成.它们是一个 ...
如何在WebGL全景图上做标记
WebGL可以用来做3D效果的全景图呈现,例如故宫的全景图.但有时候我们不仅仅只是呈现全景图,还需要增加互动.故宫里边可以又分了很多区域,例如外朝中路.外朝西路.外朝东路等等.我们需要在3D图上做一些 ...
jquery之属性操作
jQuery之属性操作相信属性这个词对大家都不陌生.今天我就给大家简单地介绍一下JQuery一些属性的操作属性一共分三大类一.基本属性 1.attr 2.removeAttr 3.prop 4. ...
OpenCV探索之路（六）：边缘检测（canny、sobel、laplacian）
边缘检测的一般步骤: 滤波--消除噪声增强--使边界轮廓更加明显检测--选出边缘点 Canny算法 Canny边缘检测算法被很多人推崇为当今最优秀的边缘检测算法,所以我们第一个就介绍他. open ...
Javascript性能优化之节流函数
在我们的工作中往往有这样的需求,下拉上拉加载实现无限加载列表数据这样的一个功能,这个时候小伙伴们可能就觉得这个功能几分钟的事,于是乎,下边这段代码浩浩荡荡就出来了 window.addEventLis ...
高效工作的秘诀——Doit.im使用总结报告
从上次购买doit.im pro账户到现在已经快一年了,从摸索到现在的熟悉,目前这款软件已经成为我工作生活中最为重要的效率工具,在此之前也用过很多软件进行时间管理,综合起来评价,doit应该算是最棒的 ...
mac上解决Resource temporarily unavailable
Resource temporarily unavailable这种问题一般是因为当前的进程数或者文件数不够 fork: Resource temporarily unavailable 修改最大进程 ...
NodeJS 入门第二天（EJS模板）
一.复习复习:Node.js开发服务器,数据.路由.本地关心的效果,交互: Node.js实际上是极客开发出的一个小玩具,不是银弹.有着别人不具备的怪异特点: 单线程.Non-blocking I/ ...
unity 判断是安卓还是IOS平台
功能概述储值功能,点击一个按钮(mSprites["Recharge"]),实现储值功能,在IOS平台上,该按钮下的功能全部隐藏,在安卓平台上正常显示按钮,实现相应功能 #if ...
详解Linux进程(作业)的查看和杀死
目录: 引入进程进程线程 PS命令 TOP命令其他查看进程命令进程的优先级作业控制机制 kill命令一.引入进程 1.内存划分为:用户空间和内核空间 1.在用户空间里运行的进程,就是用户进 ...

Streaming结合Kafka

Spark2.11 两种流操作 + Kafka

Structured Streaming + Kafka

Stream + Kafka

Streaming结合Kafka的更多相关文章

随机推荐

热门专题