spark streaming整合kafka

版本说明：spark：2.2.0；　　kafka：0.10.0.0

object StreamingDemo {

  def main(args: Array[String]): Unit = {

    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)

    Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.WARN)

    Logger.getLogger("org.apache.kafka.clients.consumer").setLevel(Level.WARN)

    val warehouseLocation = new File("hdfs://user/hive/warehouse").getAbsolutePath

    val bootstrapServers = "192.168.156.111:9092,192.168.156.111:9092,192.168.156.111:9092"

    val spark: SparkSession = SparkSession

      .builder()

      .appName("Spark SQL To Hive")

      .config("spark.sql.warehouse.dir", warehouseLocation)

      .master("local[4]")

      .enableHiveSupport()

      .getOrCreate()

    spark.conf.set("spark.streaming.concurrentJobs", 10)

    spark.conf.set("spark.streaming.kafka.maxRetries", 50)

    spark.conf.set("spark.streaming.stopGracefullyOnShutdown", true)

    spark.conf.set("spark.streaming.backpressure.enabled", true)

    spark.conf.set("spark.streaming.backpressure.initialRate", 5000)

    spark.conf.set("spark.streaming.kafka.maxRatePerPartition", 3000)

    @transient

    val sc: SparkContext = spark.sparkContext

    val ssc: StreamingContext = new StreamingContext(sc, Seconds(5))

    //kafka params

    val kafkaParams = Map[String, Object](

      "auto.offset.reset" -> "latest",

      "value.deserializer" -> classOf[StringDeserializer],

      "key.deserializer" -> classOf[StringDeserializer],

      "bootstrap.servers" -> bootstrapServers,

      "group.id" -> "test-consumer-group",

      "enable.auto.commit" -> (true: java.lang.Boolean)

    )

    var stream: InputDStream[ConsumerRecord[String, String]] = null

    val topics = Array("test")

    stream = KafkaUtils.createDirectStream[String, String](

      ssc,

      LocationStrategies.PreferConsistent,

      ConsumerStrategies.Subscribe[String, String](topics, kafkaParams)

    )

    stream.foreachRDD(rdd => {

      val cache_rdd: RDD[String] = rdd.map(x => x.value()).cache()

      cache_rdd.foreach(println)

    })

    ssc.start()

    ssc.awaitTermination()

  }

}

spark streaming整合kafka的更多相关文章

Spark学习之路（十六）—— Spark Streaming 整合 Kafka
一.版本说明 Spark针对Kafka的不同版本,提供了两套整合方案:spark-streaming-kafka-0-8和spark-streaming-kafka-0-10,其主要区别如下: s ...
Spark 系列（十六）—— Spark Streaming 整合 Kafka
一.版本说明 Spark 针对 Kafka 的不同版本,提供了两套整合方案:spark-streaming-kafka-0-8 和 spark-streaming-kafka-0-10,其主要区别如下 ...
spark streaming 整合 kafka(一)
转载:https://www.iteblog.com/archives/1322.html Apache Kafka是一个分布式的消息发布-订阅系统.可以说,任何实时大数据处理工具缺少与Kafka整合 ...
Spark之 Spark Streaming整合kafka（并演示reduceByKeyAndWindow、updateStateByKey算子使用）
Kafka0.8版本基于receiver接受器去接受kafka topic中的数据(并演示reduceByKeyAndWindow的使用) 依赖 <dependency> <grou ...
spark streaming 整合kafka(二)
转载:https://www.iteblog.com/archives/1326.html 和基于Receiver接收数据不一样,这种方式定期地从Kafka的topic+partition中查询最新的 ...
Spark之 Spark Streaming整合kafka(Java实现版本)
pom依赖 <properties> <scala.version>2.11.8</scala.version> <hadoop.version>2.7 ...
Spark Streaming 整合 Kafka
一:通过设置检查点,实现单词计数的累加功能 object StatefulKafkaWCnt { /** * 第一个参数:聚合的key,就是单词 * 第二个参数:当前批次产生批次该单词在每一个分区出现 ...
Spark Streaming和Kafka整合保证数据零丢失
当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢失机制.为了体验这个关键的特性,你需要满足以下几个先决条件: 1.输入的数据来自可靠的数据源 ...
Spark Streaming和Kafka整合是如何保证数据零丢失
转载:https://www.iteblog.com/archives/1591.html 当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢 ...

随机推荐

SAP系统邮件功能配置
相信SAP顾问或多或少都会接到用户要求SAP系统能够定时发送邮件的功能,定时将用户需要的信息已邮件的方式发送给固定的人员. 下面就来讲一下SAP发送邮件应该如何配置: 1.RZ10做配置: is/SM ...
could not launch process: debugserver or lldb-server not found: install XCode's command line tools or lldb-server
0x00 事件 VS 调试 go 的时候,发生了这个错误,导致无法调试: could not launch process: debugserver or lldb-server not found: ...
nginx——keepalived
nginx--keepalived 1.keepalived高可用基本概述什么是高可用一般是指2台机器启动着完全相同的业务系统,当有一台机器down机了,另外一台服务器就能快速的接管,对于访问的用 ...
PHP获取二维数组指定字段值的和
array_sum(array_column($arr, 'num')); //获取二维数组 num字段的和 $arr = [ [ 'device_uid' => '123456', 'num' ...
SQL Serve里DBA要去改变的3个配置选项
用安装向导安装了全新的SQL Server,最后你点击了完成按钮.哇噢~~~现在我们可以把我们的服务器进入生产了! 抱歉,那并不是真的,因为你的全新SQL Server默认配置是未优化的,一个合格的D ...
android binder 进程间通信机制3-Binder 对象生死
以下概述Binder通信过程中涉及到的四个对象:Binder本地对象.Binder实体对象.Binder引用对象.Binder代理对象的生死. 1.Binder通信的交互过程 1.Client 进程发 ...
PyCharm将选中的内容加上引号
正常情况下,选中一段内容,再按引号,内容会被替换为引号想要将选中的内容不被替换为引号,而在内容的两端加上引号,只需设置一下即可 File --> Settings --> Edi ...
java8-10-Stream的终止操作
Stream的终止操作 * allMatch 是否匹配所有 * anyMatch 是否匹配一个 * noneMatch 是否没有匹配一个 * findFirst 返回第一个 * count ...
cookie和session及token的区别联系
1 发展史 1.很久很久以前,Web 基本上就是文档的浏览而已, 既然是浏览,作为服务器, 不需要记录谁在某一段时间里都浏览了什么文档,每次请求都是一个新的HTTP协议, 就是请求加响应, 尤其是我 ...
浅谈状态压缩DP
浅谈状态压缩DP 本篇随笔简单讲解一下信息学奥林匹克竞赛中的状态压缩动态规划相关知识点.在算法竞赛中,状压$DP$是非常常见的动规类型.不仅如此,不仅是状压$DP$,状压还是很多其他题目的处理 ...

spark streaming整合kafka

spark streaming整合kafka的更多相关文章

随机推荐

热门专题