Spark(二十一)【SparkSQL读取Kudu，写入Kafka】

SparkSQL读取Kudu,写出到Kafka

SparkSQL读取Kudu,写出到Kafka

背景：通过spark SQL读kudu表，写入到kafka

参考：1.spark向kafka写入数据 2.通过Spark向Kafka写入数据

1. pom.xml 依赖

    <dependencies>

        <dependency>

            <groupId>mysql</groupId>

            <artifactId>mysql-connector-java</artifactId>

            <version>6.0.6</version>

        </dependency>

        <!-- scalikejdbc_2.11 -->

        <dependency>

            <groupId>org.scalikejdbc</groupId>

            <artifactId>scalikejdbc_2.11</artifactId>

            <version>2.5.0</version>

        </dependency>

        <!-- scalikejdbc-config_2.11 -->

        <dependency>

            <groupId>org.scalikejdbc</groupId>

            <artifactId>scalikejdbc-config_2.11</artifactId>

            <version>2.5.0</version>

        </dependency>

        <dependency>

            <groupId>c3p0</groupId>

            <artifactId>c3p0</artifactId>

            <version>0.9.1.1</version>

        </dependency>

        <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-common -->

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-common</artifactId>

            <version>2.6.0</version>

        </dependency>

        <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core -->

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_2.11</artifactId>

            <version>2.3.0</version>

        </dependency>

        <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-sql -->

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-sql_2.11</artifactId>

            <version>2.3.0</version>

        </dependency>

        <!-- https://mvnrepository.com/artifact/org.apache.kudu/kudu-client -->

        <dependency>

            <groupId>org.apache.kudu</groupId>

            <artifactId>kudu-client</artifactId>

            <version>1.9.0</version>

        </dependency>

        <!--spark集成kudu-->

        <dependency>

            <groupId>org.apache.kudu</groupId>

            <artifactId>kudu-spark2_2.11</artifactId>

            <version>1.9.0</version>

        </dependency>

        <!--执行sql脚本-->

        <dependency>

            <groupId>org.mybatis</groupId>

            <artifactId>mybatis</artifactId>

            <version>3.5.3</version>

        </dependency>

        <!--读取配置-->

        <dependency>

            <groupId>commons-configuration</groupId>

            <artifactId>commons-configuration</artifactId>

            <version>1.8</version>

        </dependency>

        <!--clickhouse-->

        <dependency>

            <groupId>cc.blynk.clickhouse</groupId>

            <artifactId>clickhouse4j</artifactId>

            <version>1.4.4</version>

        </dependency>

        <dependency>

            <groupId>com.alibaba</groupId>

            <artifactId>fastjson</artifactId>

            <version>1.2.36</version>

        </dependency>

        <!--druid-->

        <dependency>

            <groupId>com.alibaba</groupId>

            <artifactId>druid-spring-boot-starter</artifactId>

            <version>1.1.10</version>

        </dependency>

        <dependency>

            <groupId>junit</groupId>

            <artifactId>junit</artifactId>

            <version>4.12</version>

        </dependency>

        <!--kafka-->

        <dependency>

            <groupId>org.apache.kafka</groupId>

            <artifactId>kafka-clients</artifactId>

            <version>1.1.0</version>

        </dependency>

    </dependencies>

    <build>

        <plugins>

            <!-- 这是个编译scala代码的 -->

            <plugin>

                <groupId>net.alchim31.maven</groupId>

                <artifactId>scala-maven-plugin</artifactId>

                <version>3.2.1</version>

                <executions>

                    <execution>

                        <id>scala-compile-first</id>

                        <phase>process-resources</phase>

                        <goals>

                            <goal>add-source</goal>

                            <goal>compile</goal>

                        </goals>

                    </execution>

                </executions>

            </plugin>

            <!-- 这是个编译java代码的 -->

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-compiler-plugin</artifactId>

                <version>3.0</version>

                <configuration>

                    <!--注意这里使用jdk8,否则不能使用java8的lambda表达式和流API-->

                    <source>8</source>

                    <target>8</target>

                    <encoding>UTF-8</encoding>

                </configuration>

                <executions>

                    <execution>

                        <phase>compile</phase>

                        <goals>

                            <goal>compile</goal>

                        </goals>

                    </execution>

                </executions>

            </plugin>

            <!--maven-assembly-plugin不能打包spring Framework框架的项目，

            可以使用maven-shade-plugin插件-->

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-assembly-plugin</artifactId>

                <version>2.5.5</version>

                <configuration>

                    <archive>

                        <manifest>

                            <mainClass>com.tal.mysql2kudu.MysqlToKudu_v1</mainClass>

                        </manifest>

                    </archive>

                    <descriptorRefs>

                        <descriptorRef>jar-with-dependencies</descriptorRef>

                    </descriptorRefs>

                </configuration>

                <executions>

                    <execution>

                        <id>make-assembly</id>

                        <phase>package</phase>

                        <goals>

                            <goal>single</goal>

                        </goals>

                    </execution>

                </executions>

            </plugin>

        </plugins>

    </build>

2.将KafkaProducer利用lazy val的方式进行包装, 创建KafkaSink

package com.tal.spark

import java.util.concurrent.Future

import org.apache.kafka.clients.producer.{KafkaProducer, ProducerRecord, RecordMetadata}

class KafkaSink[K, V](createProducer: () => KafkaProducer[K, V]) extends Serializable {

  /* This is the key idea that allows us to work around running into

     NotSerializableExceptions. */

  lazy val producer = createProducer()

  def send(topic: String, key: K, value: V): Future[RecordMetadata] =

    producer.send(new ProducerRecord[K, V](topic, key, value))

  def send(topic: String, value: V): Future[RecordMetadata] =

    producer.send(new ProducerRecord[K, V](topic, value))

  def send(topic: String, partition: Int, key: K, value: V): Future[RecordMetadata] =

    producer.send(new ProducerRecord[K, V](topic, partition, key, value))

}

object KafkaSink {

  import scala.collection.JavaConversions._

  def apply[K, V](config: Map[String, Object]): KafkaSink[K, V] = {

    val createProducerFunc = () => {

      val producer = new KafkaProducer[K, V](config)

      sys.addShutdownHook {

        // Ensure that, on executor JVM shutdown, the Kafka producer sends

        // any buffered messages to Kafka before shutting down.

        println("KafkaSink close producer")

        producer.close()

      }

      producer

    }

    new KafkaSink(createProducerFunc)

  }

  def apply[K, V](config: java.util.Properties): KafkaSink[K, V] = apply(config.toMap)

}

3.利用广播变量，将KafkaProducer广播到每一个executor

完整代码

package com.tal.spark

import java.util.Properties

import com.alibaba.fastjson.JSONObject

import org.apache.kafka.clients.producer.KafkaProducer

import org.apache.kafka.common.serialization.StringSerializer

import org.apache.spark.broadcast.Broadcast

import org.apache.spark.sql.{DataFrame, SparkSession}

import org.slf4j.{Logger, LoggerFactory}

/**

 * @description: TODO 读kudu写入kafka

 * @author: HaoWu

 * @create: 2021年06月30日

 */

object Kudu2Kafka {

  private val logger: Logger = LoggerFactory.getLogger(Kudu2Kafka.getClass)

  //kudu配置信息

  private val kuduMaster = "hadoop101:7051"

  //private val kuduTableName1 = "impala::dwddb.rt_dwd_rm_distribution_res_data_detail_new"

  private val kuduTableName = "person"

  //kafka 配置信息

  private val bootstrapServers = "hadoop102:9092"

  private val topic = "kudu_to_kafka_test"

  val schema = Array("id", "CompanyId", "WorkId", "Name", "Gender", "Photo")

  def main(args: Array[String]): Unit = {

    // 构建SparkSession

    /*        val spark: SparkSession = SparkSession

              .builder()

              .config("spark.default.parallelism", 200)

              .config("spark.shuffle.file.buffer", "128k")

              .config("spark.reducer.maxSizeInFlight", "96m")

              .config("spark.shuffle.memoryFraction", 0.3)

              .config("spark.storage.memoryFraction", 0.3)

              .enableHiveSupport()

              .getOrCreate()*/

    //1. 构建SparkSession实例对象

    val spark: SparkSession = SparkSession.builder()

      .master("local[2]")

      .config("spark.sql.shuffle.partitions", "2")

      .config("spark.default.parallelism", 200)

      .config("spark.shuffle.file.buffer", "128k")

      .config("spark.reducer.maxSizeInFlight", "96m")

      .config("spark.shuffle.memoryFraction", 0.3)

      .config("spark.storage.memoryFraction", 0.3)

      .getOrCreate()

    logger.info("加载kudu数据~~")

    val time1 = System.currentTimeMillis()

    val result: DataFrame = getKuduData(spark, kuduMaster, kuduTableName)

    val time2 = System.currentTimeMillis()

    val time = time2 - time1

    logger.info("加载完成~~~：耗时：" + time + " ms！")

    logger.info("数据开始发送到kafka")

    write2Kafka(result, spark, 3,bootstrapServers,topic)

    logger.info("-----> 数据发送到kafka完成完成！！！ <-------")

    spark.stop()

  }

  /**

   * TODO 获取 kudu DF

   *

   * @param spark

   * @param kuduMaster

   * @param kuduTableName

   */

  def getKuduData(spark: SparkSession, kuduMaster: String, kuduTableName: String): DataFrame = {

    import spark.implicits._

    // 1. 定义 map 集合，封装 kudu的master地址.表名

    val options = Map(

      "kudu.master" -> kuduMaster,

      "kudu.table" -> kuduTableName,

      // 200M

      "kudu.batchSize" -> "419430400",

      // 10G

      "kudu.splitSizeBytes" -> "10737418240",

      "kudu.keepAlivePeriodMs" -> "36000000",

      "kudu.scanRequestTimeoutMs" -> "36000000",

      "kudu.faultTolerantScan" -> "true",

      "kudu.scanLocality" -> "leader_only" // 设置， 否则可能出现scanner not found异常

    )

    // 2. 从Kudu表加载数据

    val kuduDF: DataFrame = spark.read

      .format("kudu")

      .options(options)

      .load()

    //打印

//    kuduDF.printSchema()

//    kuduDF.show(10, truncate = false)

    val tempView = "person"

    kuduDF.createOrReplaceTempView(tempView)

    val sql =

      s"""

         |select

         |    row_number() over(order by CompanyId) as id,

         |    CompanyId,

         |    WorkId,

         |    Name,

         |    Gender,

         |    Photo

         |from ${tempView}

         |""".stripMargin

    val result: DataFrame = spark.sql(sql)

    result

  }

  /**

   * TODO 写出 kafka

   *

   * @param result

   * @param spark

   * @param numPartitions

   */

  def write2Kafka(result: DataFrame, spark: SparkSession, numPartitions: Int,bootstrapServers:String,topic:String): Unit = {

    // 广播KafkaSink

    val kafkaProducer: Broadcast[KafkaSink[String, String]] = {

      val kafkaProducerConfig = {

        val p = new Properties()

        p.setProperty("bootstrap.servers",bootstrapServers)

        p.setProperty("key.serializer", classOf[StringSerializer].getName)

        p.setProperty("value.serializer", classOf[StringSerializer].getName)

        p

      }

      logger.warn("kafka producer init done!")

      spark.sparkContext.broadcast(KafkaSink[String, String](kafkaProducerConfig))

    }

    //输出到kafka

    try {

      result.foreach(

       row => {

            val jsonObj = new JSONObject()

            schema.foreach(field => {

              val fieldKey = field

              val fieldValue = row.getAs[Any](fieldKey)

              jsonObj.put(fieldKey, fieldValue)

            })

            kafkaProducer.value.send(topic,jsonObj.toString)

          })

    } catch {

      case ex:Exception =>

        logger.error("写入kafka异常，异常为："+ex)

        throw ex

    }

  }

}

Spark(二十一)【SparkSQL读取Kudu，写入Kafka】的更多相关文章

storm集成kafka的应用，从kafka读取，写入kafka
storm集成kafka的应用,从kafka读取,写入kafka by 小闪电 0前言 storm的主要作用是进行流式的实时计算,对于一直产生的数据流处理是非常迅速的,然而大部分数据并不是均匀的数据流 ...
金融量化分析【day110】：Pandas-DataFrame读取与写入
一.DataFrame DataFrame是一个表格型的数据结构,含有一组有序的列 DataFrame可以被看作是有Series组成的字典并且工用一个索引 1.创建方式 pd.DataFrame({' ...
Flume 读取RabbitMq消息队列消息，并将消息写入kafka
首先是关于flume的基础介绍组件名称功能介绍 Agent代理使用JVM 运行Flume.每台机器运行一个agent,但是可以在一个agent中包含多个sources和sinks. Client ...
Spark学习之数据读取与保存总结(二)
8.Hadoop输入输出格式除了 Spark 封装的格式之外,也可以与任何 Hadoop 支持的格式交互.Spark 支持新旧两套Hadoop 文件 API,提供了很大的灵活性. 要使用新版的 Ha ...
Kafka设计解析（二十一）关于Kafka幂等producer的讨论
转载自 huxihx,原文链接关于Kafka幂等producer的讨论众所周知,Kafka 0.11.0.0版本正式支持精确一次处理语义(exactly once semantics,下称EOS) ...
构建一个flink程序,从kafka读取然后写入MYSQL
最近flink已经变得比较流行了,所以大家要了解flink并且使用flink.现在最流行的实时计算应该就是flink了,它具有了流计算和批处理功能.它可以处理有界数据和无界数据,也就是可以处理永远生产 ...
spark基础知识介绍(包含foreachPartition写入mysql）
数据本地性数据计算尽可能在数据所在的节点上运行,这样可以减少数据在网络上的传输,毕竟移动计算比移动数据代价小很多.进一步看,数据如果在运行节点的内存中,就能够进一步减少磁盘的I/O的传输.在spar ...
牢记！SQL Server数据库开发的二十一条注意点
如果你正在负责一个基于SQL Server的项目,或者你刚刚接触SQL Server,你都有可能要面临一些数据库性能的问题,这篇文章会为你提供一些有用的指导(其中大多数也可以用于其它的DBMS). ...
SQL Server数据库开发的二十一条军规
如果你正在负责一个基于SQL Server的项目,或者你刚刚接触SQL Server,你都有可能要面临一些数据库性能的问题,这篇文章会为你提供一些有用的指导(其中大多数也可以用于其它的DBMS).在这 ...

随机推荐

repo学习总结
转载:https://blog.csdn.net/salmon_zhang/article/details/79180075 1. repo简介 repo是Google开发的用于管理Android版本 ...
IM服务器：开发一个高并发的IM服务器难在哪
IM服务器要实现的最基本功能就是消息的转发.--好像是一句废话! 这就意味着IM服务器要为每个登录用户创建一个与该用户信息相关的内存上下文,为方便描述我们在这里称之为:user_context.use ...
🔥完美解决ESlint+Prettier各项配置冲突的语法报错问题（新手向）
本文重点: 1.解决修改了Prettier默认配置,项目内格式化无法生效 2.解决Prettier缺少配置,函数名和括号之间,自动添加空格 3.settings.json配置项分享一个程序员,可能非 ...
PTA 银行排队问题之单队列多窗口服务 (25分)
PTA 银行排队问题之单队列多窗口服务 (25分) 假设银行有K个窗口提供服务,窗口前设一条黄线,所有顾客按到达时间在黄线后排成一条长龙.当有窗口空闲时,下一位顾客即去该窗口处理事务.当有多个窗口可选 ...
用 Node.js 实现的最简单的 HTTP 服务器
用 Node.js 实现的最简单的 HTTP 服务器 //app.js var http = require('http'); http.createServer(function(req, res) ...
南京大学OS笔记(1)-应用眼中的操作系统
南京大学OS笔记(1)-应用眼中的操作系统早就想刷一刷南大JYY老师的os课.之前稍微看过几节,果然讲的风趣幽默,而且现场写代码展示水平确实很高,这次准备认真刷一刷然后好好记一下笔记.当然lab就不 ...
typing使用
官方文档: typing 注: typing是python3.5(PEP484)开始的可用于: 类型检查器.集成开发环境.静态检查器等, 但是不强制使用使用方式两种使用方式别名: 先定义=, ...
Qt Creator 源码学习笔记02，认识框架结构
阅读本文大概需要 6 分钟在上一篇大概了解了关于Qt Creator 基础知识后[1],本篇先学习下框架基本结构,这样能够清晰的知道这个框架当中包含哪些文件.文件夹.工程文件,这些文件分别代表什么意 ...
vs2012换肤功能，vs2012主题及自定义主题
vs2012 默认的主题只有浅色和深色两种,深色太黑了,浅色又太亮了!怎么办? 研究不少时间终于找到了怎么编辑vs2012的皮肤现在开始吧打开vs2012-工具--扩展和更新在联机中搜索 The ...
探究 Go 源码中 panic & recover 有哪些坑？
转载请声明出处哦~,本篇文章发布于luozhiyun的博客: https://www.luozhiyun.com/archives/627 本文使用的go的源码1.17.3 前言写这一篇文章的原因是 ...

Spark(二十一)【SparkSQL读取Kudu，写入Kafka】

SparkSQL读取Kudu,写出到Kafka

1. pom.xml 依赖

2.将KafkaProducer利用lazy val的方式进行包装, 创建KafkaSink

3.利用广播变量，将KafkaProducer广播到每一个executor

Spark(二十一)【SparkSQL读取Kudu，写入Kafka】的更多相关文章

随机推荐

热门专题