sparkStreaming读取kafka写入hive表

sparkStreaming：

package hive

import java.io.File

import org.apache.kafka.clients.consumer.ConsumerRecord

import org.apache.kafka.common.serialization.StringDeserializer

import org.apache.log4j.{Level, Logger}

import org.apache.spark.sql.{Row, SparkSession}

import org.apache.spark.streaming.{Seconds, StreamingContext}

import org.apache.spark.streaming.dstream.InputDStream

import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies}

/**

  * spark消费多个topic的数据写入不同的hive表

  */

object SparkToHive {

  def main(args: Array[String]): Unit = {

    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)

    Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.WARN)

    Logger.getLogger("org.apache.kafka.clients.consumer").setLevel(Level.WARN)

    val warehouseLocation = new File("hdfs://cluster/hive/warehouse").getAbsolutePath

    @transient

    val spark = SparkSession

      .builder()

      .appName("Spark SQL To Hive")

      .config("spark.sql.warehouse.dir", warehouseLocation)

      .enableHiveSupport()

      .getOrCreate()

    spark.conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")

    @transient

    val sc = spark.sparkContext

    val scc = new StreamingContext(sc, Seconds(1))

    val kafkaParams = Map[String, Object](

      "auto.offset.reset" -> "latest", //latest,earliest

      "value.deserializer" -> classOf[StringDeserializer]

      , "key.deserializer" -> classOf[StringDeserializer]

      , "bootstrap.servers" -> "10.200.10.24:6667,10.200.10.26:6667,10.200.10.29:6667"

      , "group.id" -> "test_jason"

      , "enable.auto.commit" -> (true: java.lang.Boolean)

    )

    var stream: InputDStream[ConsumerRecord[String, String]] = null

    val topics = Array("test", "test1","test2")

    stream = KafkaUtils.createDirectStream[String, String](

      scc,

      LocationStrategies.PreferConsistent,

      ConsumerStrategies.Subscribe[String, String](topics, kafkaParams)

    )

    stream.foreachRDD(rdd=>{

      if (!rdd.isEmpty()) {

        val cache_rdd = rdd.map(_.value()).cache()

        // a 表

        val a = cache_rdd.filter(_.contains("hello"))

        // b 表

        val b = cache_rdd.filter(_.contains("jason"))

        // 都可以打印结果,下面的代码就不在写了,可以参考另一篇博客里面写hive的

        a.foreach(println)

        b.foreach(println)

      }

    })

    scc.start()

    scc.awaitTermination()

  }

}

sparkStreaming读取kafka写入hive表的更多相关文章

spark读取mongodb数据写入hive表中
一环境: spark-: hive-; scala-; hadoop--cdh-; jdk-1.8; mongodb-2.4.10; 二.数据情况: MongoDB数据格式{ "_i ...
ASP.NET中如何读取和写入注册表
直接给源码: 读取注册表内容: RegistryKey regkey=Registry.LocalMachine.OpenSubKey(@"SOFTWARE\Microsoft\Window ...
【Visual Installer】如何读取与写入注册表信息
引入:using Microsoft.Win32; (1)读取注册表信息代码: RegistryKey rsg = null; rsg = Registry.LocalMachine.OpenSub ...
【原创】大叔经验分享（65）spark读取不到hive表
spark 2.4.3 spark读取hive表,步骤: 1)hive-site.xml hive-site.xml放到$SPARK_HOME/conf下 2)enableHiveSupport Sp ...
sparkStreaming读取kafka的两种方式
概述 Spark Streaming 支持多种实时输入源数据的读取,其中包括Kafka.flume.socket流等等.除了Kafka以外的实时输入源,由于我们的业务场景没有涉及,在此将不会讨论.本篇 ...
flume的sink写入hive表
flume的配置文件如下: a1.sources=r1 a1.channels=c1 a1.sinks=s1 a1.sources.r1.type=netcat a1.sources.r1.bind= ...
将DataFrame数据如何写入到Hive表中
1.将DataFrame数据如何写入到Hive表中?2.通过那个API实现创建spark临时表?3.如何将DataFrame数据写入hive指定数据表的分区中? 从spark1.2 到spark1.3 ...
【翻译】Flink Table Api & SQL — Hive —— 读写 Hive 表
本文翻译自官网:Reading & Writing Hive Tables https://ci.apache.org/projects/flink/flink-docs-release-1 ...
ArcGIS AddIN开发之COM对象写入注册表
做一个交互式绘制文字的工具,希望这次设置的Symbol,下次打开ArcMap时自动调用这个Symbol,并支持对其进行修改. 解决方法是将这个Symbol写入注册表中,每次自动读取上一次设置的Symb ...

随机推荐

第一册：lesson 133.
原文: Sensational news. question:What reasons did Karen give for a wanting to retire? Have you just m ...
(三)Kubernetes 快速入门
Kubernetes的核心对象 API Server提供了RESTful风格的编程接口,其管理的资源是Kubernetes API中的端点,用于存储某种API对象的集合,例如,内置Pod资源是包含了所 ...
如何监控网站URL是否正常?
监控网站URL是否正常最常见的方法莫过于wget和curl命令了,这两个命令都是非常强大的,强大到网友查看帮助都无从选择的地步了,今天呢,老男孩老师正好录制Shell编程实战课程,因此,顺便总结了一下 ...
ES6 手册
不用就忘, 把阮大大的地址列在这儿: http://es6.ruanyifeng.com/#README
4484: [Jsoi2015]最小表示（拓扑序+bitset维护连通性）
4484: [Jsoi2015]最小表示题目链接题解: bitset的题感觉都好巧妙啊QAQ. 因为题目中给出的是一个DAG,如果$u->v$这条边可以删去,等价于还存在一个更长的路径可 ...
Linux四剑客之awk命令
AWK详解 awk简介 awk其名称得自于它的创始人 Alfred Aho .Peter Weinberger 和 Brian Kernighan 姓氏的首个字母.实际上 AWK 的确拥有自己的语 ...
hive中时间操作（二）
转:https://blog.csdn.net/qq646748739/article/details/77997276 --Hive中日期函数总结:--1.时间戳函数--日期转时间戳:从1970-0 ...
react-native 在iOS上使用http链接的图片地址不显示| iOS9 & iOS10 HTTP 不能正常使用的解决办法
https://segmentfault.com/a/1190000002933776 今天升级Xcode 7.0 bata发现网络访问失败.输出错误信息 The resource could not ...
Generative Adversarial Networks overview（4）
Libo1575899134@outlook.com Libo (原创文章,转发请注明作者) 本文章主要介绍Gan的应用篇,3,主要介绍图像应用,4, 主要介绍文本以及医药化学其他领域应用原理篇请看 ...
「GXOI / GZOI2019」宝牌一大堆（DP）
题意 LOJ传送门题解可以发现「七对子」和「国士无双」直接暴力就行了. 唯一的就是剩下的"3*4+2". 考试的时候写了个爆搜剪枝,开了O2有50pts.写的时候发现可以D ...

sparkStreaming读取kafka写入hive表

sparkStreaming读取kafka写入hive表的更多相关文章

随机推荐

热门专题