Spark Streaming + Kafka 整合向导之createDirectStream

启动zk: zkServer.sh start

启动kafka：kafka-server-start.sh $KAFKA_HOME/config/server.properties

创建一个topic:kafka-topics.sh --create --zookeeper node1:2181 --replication-factor 1 --partitions 1 --topic test

启动一个生产者：kafka-console-producer.sh --broker-list node1:9092 --topic test

运行代码测试：

package com.lin.spark

import org.apache.kafka.common.serialization.StringDeserializer

import org.apache.spark.SparkConf

import org.apache.spark.rdd.RDD

import org.apache.spark.streaming.{Seconds, StreamingContext}

import org.apache.spark.streaming.kafka010._

import org.apache.spark.streaming.kafka010.LocationStrategies.PreferConsistent

import org.apache.spark.streaming.kafka010.ConsumerStrategies.Subscribe

/**

  * Created by Administrator on 2019/6/7.

  */

object Halo {

  def main(args: Array[String]): Unit = {

    val kafkaParams = Map[String, Object](

      "bootstrap.servers" -> "node1:9092",

      "key.deserializer" -> classOf[StringDeserializer],

      "value.deserializer" -> classOf[StringDeserializer],

      "group.id" -> "use_a_separate_group_id_for_each_stream",

      "auto.offset.reset" -> "latest",

      "enable.auto.commit" -> (true: java.lang.Boolean)

    )

    val conf = new SparkConf().setAppName("Halo").setMaster("local[2]")

    val ssc = new StreamingContext(conf,Seconds(5))

    val topics = Array("test")

    val stream = KafkaUtils.createDirectStream[String, String](

      ssc,

      PreferConsistent,

      Subscribe[String, String](topics, kafkaParams)

    )

    stream.foreachRDD(rdd => {

      val offsetRange = rdd.asInstanceOf[HasOffsetRanges].offsetRanges

      val maped: RDD[(String, String)] = rdd.map(record => (record.key,record.value))

      //计算逻辑

      maped.foreach(println)

      //循环输出

      for(o <- offsetRange){

        println(s"${o.topic}  ${o.partition} ${o.fromOffset} ${o.untilOffset}")

      }

    })

    ssc.start()

    ssc.awaitTermination()

  }

}

参考：

http://spark.apache.org/docs/2.2.0/streaming-kafka-0-10-integration.html

https://cloud.tencent.com/developer/article/1355430

Spark Streaming + Kafka 整合向导之createDirectStream的更多相关文章

Spark Streaming + Kafka整合(Kafka broker版本0.8.2.1+)
这篇博客是基于Spark Streaming整合Kafka-0.8.2.1官方文档. 本文主要讲解了Spark Streaming如何从Kafka接收数据.Spark Streaming从Kafka接 ...
Zookeeper+Kafka+Spark streaming单机整合开发
环境准备: ubuntu 开发环境: jdk 1.8 scala:2.11.0 spark 2.0 zookeeper 3.4.6 kafka 2.12-0.10.2.0 开始整合: 1 zooke ...
spark第十篇：Spark与Kafka整合
spark与kafka整合需要引入spark-streaming-kafka.jar,该jar根据kafka版本有2个分支,分别是spark-streaming-kafka-0-8和spark-str ...
spark streaming kafka example
// scalastyle:off println package org.apache.spark.examples.streaming import kafka.serializer.String ...
【Spark】Spark Streaming + Kafka direct 的 offset 存入Zookeeper并重用
Spark Streaming + Kafka direct 的 offset 存入Zookeeper并重用 streaming offset设置_百度搜索将 Spark Streaming + K ...
Spark streaming + Kafka 流式数据处理，结果存储至MongoDB、Solr、Neo4j（自用）
KafkaStreaming.scala文件 import kafka.serializer.StringDecoder import org.apache.spark.SparkConf impor ...
4、spark streaming+kafka
一.Receiver模式 1. receiver模式原理图在SparkStreaming程序运行起来后,Executor中会有receiver tasks接收kafka推送过来的数据.数据会被持久化 ...
Spark踩坑记——Spark Streaming+Kafka
[TOC] 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...
Spark Streaming+Kafka
Spark Streaming+Kafka 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端, ...

随机推荐

weblogicjsp编译：查看编译后的java中间代码
转自:https://www.xuebuyuan.com/1069484.html 运行自己配置的web应用,往往只能看见weblogic编译之后的class文件.而看不见编译前的java的文件.为了 ...
Swoole 的运行模式
Swoole 做了什么 Swoole 是 php 的一个扩展,但是他又不是普通的扩展,其最明显的特点就是:一但运行后就会接管PHP的控制权,进入事件循环. 当某种IO事件发生时, Swoole 会回调 ...
numpy知识点总结
一.数组方法创建数组:arange()创建一维数组:array()创建一维或多维数组,其参数是类似于数组的对象,如列表等反过来转换则可以使用numpy.ndarray.tolist()函数,如a. ...
mac终端方式修改host
打开终端 cd / #进入根目录 ls #查看根目录下列表,确定有需要打开的目录 cd etc #进入配置文件目录 ls sudo vim hosts #用vim打开 ...
PowerDesigner 小技巧
PowerDesigner 重现快捷工具栏 palette :Tools -->customsize toolbars-->palette(调色板)勾选如何在PDM中列表显示TABLE的 ...
STM32F103单片机学习—— 通用定时器
版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/fengshuiyue/article/details/79150724 本篇重点记录的是STM32F ...
iPython清屏命令
!clear for Unix-like systems !CLS for Windows
C#基础提升系列——C#集合
C#集合有两种主要的集合类型:泛型集合和非泛型集合. 泛型集合被添加在 .NET Framework 2.0 中,并提供编译时类型安全的集合. 因此,泛型集合通常能提供更好的性能. 构造泛型集合时, ...
【leetcode】416. Partition Equal Subset Sum
题目如下: 解题思路:对于这种判断是否的题目,首先看看动态规划能不能解决.本题可以看成是从nums中任选i个元素,判断其和是否为sum(nums)/2,很显然从nums中任选i个元素的和的取值范围是[ ...
【优化】Java开发中注意内存问题，影响JVM
1. 尽量在合适的场合使用单例使用单例可以减轻加载的负担,缩短加载的时间,提高加载的效率,但并不是所有地方都适用于单例,简单来说,单例主要适用于以下三个方面: 第一,控制资源的使用,通过线程同步来控 ...

Spark Streaming + Kafka 整合向导之createDirectStream

Spark Streaming + Kafka 整合向导之createDirectStream的更多相关文章

随机推荐

热门专题