本文记录了学习使用Spark Streaming通过JDBC操作数据库的过程，源数据从Kafka中读取。

Kafka从0.10版本提供了一种新的消费者API，和0.8不同，因此Spark Streaming也提供了两种API与之对应，其中spark-streaming-kafka-0-8支持Kafka 0.8.2.1以后的Broker；spark-streaming-kafka-0-10支持0.10.0以上Broker，处于实验阶段。两者的对比如下表所示。

Spark Streaming集成Kafka的说明可以参考如下资料：

spark-streaming-kafka-0-10 http://spark.apache.org/docs/latest/streaming-kafka-0-10-integration.html

spark-streaming-kafka-0-8 http://spark.apache.org/docs/latest/streaming-kafka-0-8-integration.html

1.2 运行组件

本文所写的例子基于JDK1.8和Scala 2.11，运行依赖组件的情况如下表所示。

组件	部署方式	IP地址	操作系统
spark-2.0.1	伪分布式	192.168.1.91	CentOS 7.1
Kafka-0.10.0.1	伪分布式	192.168.1.90	CentOS 7.1
postgresql-9.4.5	单机	192.168.1.213	CentOS 7.1

数据库中创建了一张名为kafka_message的表，共有三个字段，都是varchar类型。

CREATE TABLE kafka_message (

    timeseq varchar(16),

    thread varchar(32),

    message varchar(255)

);

2. 代码

2.1 pom.xml

依赖的lib如下。

<dependencies>

    <dependency>

        <groupId>org.apache.spark</groupId>

        <artifactId>spark-streaming_2.11</artifactId>

        <version>2.0.1</version>

    </dependency>

    <dependency>

        <groupId>org.apache.spark</groupId>

        <artifactId>spark-streaming-kafka-0-10_2.11</artifactId>

        <version>2.0.1</version>

    </dependency>

    <dependency>

        <groupId>com.jolbox</groupId>

        <artifactId>bonecp</artifactId>

        <version>0.8.0.RELEASE</version>

    </dependency>

    <dependency>

        <groupId>postgresql</groupId>

        <artifactId>postgresql</artifactId>

        <version>9.1-901-1.jdbc4</version>

    </dependency>

</dependencies>

2.2 数据库连接池

import java.sql.Connection

import com.jolbox.bonecp.{BoneCP, BoneCPConfig}

import org.slf4j.LoggerFactory

 /**

  *  数据库连接池，使用了BoneCP

  */

object ConnectionPool {

  val logger = LoggerFactory.getLogger(this.getClass)

  //连接池配置

  private val connectionPool: Option[BoneCP] = {

    try{

      Class.forName("org.postgresql.Driver")

      val config = new BoneCPConfig()

      config.setJdbcUrl("jdbc:postgresql://192.168.1.213/yourdb")

      config.setUsername("postgres")

      config.setPassword("******")

      config.setLazyInit(true)

      config.setMinConnectionsPerPartition(3)

      config.setMaxConnectionsPerPartition(5)

      config.setPartitionCount(5)

      config.setCloseConnectionWatch(true)

      config.setLogStatementsEnabled(false)

      Some(new BoneCP(config))

    }catch {

      case exception: Exception =>

        logger.warn("Create Connection Error: \n" + exception.printStackTrace())

        None

    }

  }

  // 获取数据库连接

  def getConnection: Option[Connection] = {

    connectionPool match {

      case Some(pool) => Some(pool.getConnection)

      case None => None

    }

  }

  // 释放数据库连接

  def closeConnection(connection:Connection): Unit = {

    if(!connection.isClosed) {

      connection.close()

    }

  }

2.3 Kafka -> Spark-Streaming -> JDBC

Spark Streaming从Kafka中读取数据，并把数据写入数据库。SPark Streaming编程的基本顺序是：

创建Spark Streaming上下文
从数据源接口创建DStream
在DStream上做转换（Transformations）
指定计算结果存储的位置
启动计算

代码如下，详见注释。

import java.sql.Connection

import org.apache.kafka.common.serialization.StringDeserializer

import org.apache.spark.SparkConf

import org.apache.spark.streaming.kafka010.ConsumerStrategies._

import org.apache.spark.streaming.kafka010.KafkaUtils

import org.apache.spark.streaming.kafka010.LocationStrategies._

import org.apache.spark.streaming.{Seconds, StreamingContext}

import org.slf4j.LoggerFactory

/**

  * 从Kafka中读取数据，并把数据写入数据库。

  */

object KafkaToDB {

  val logger = LoggerFactory.getLogger(this.getClass)

  def main(args: Array[String]): Unit = {

    // 参数校验

    if (args.length < 2) {

      System.err.println(

        s"""

           |Usage: KafkaToDB <brokers> <topics>

           |  <brokers> broker列表，至少1个，以英文逗号分割

           |  <topics> topic列表，至少一个，以英文逗号分割

           |""".stripMargin)

      System.exit(1)

    }

    // 处理参数

    val Array(brokers, topics) = args

    val topicSet: Set[String] = topics.split(",").toSet

    val kafkaParams: Map[String, Object] = Map[String, Object](

      "bootstrap.servers" -> brokers,

      "key.deserializer" -> classOf[StringDeserializer],

      "value.deserializer" -> classOf[StringDeserializer],

      "group.id" -> "example",

      "auto.offset.reset" -> "latest",

      "enable.auto.commit" -> (false: java.lang.Boolean)

    )

    // 1.创建上下文，以每1秒间隔的数据作为一个批次

    val sparkConf = new SparkConf().setAppName("KafkaToDB")

    val streamingContext = new StreamingContext(sparkConf, Seconds(1))

    // 2.创建输入流，获取数据。流操作基于DStream，InputDStream继承于DStream

    val stream = KafkaUtils.createDirectStream[String, String](

      streamingContext,

      PreferConsistent,

      Subscribe[String, String](topicSet, kafkaParams)

    )

    // 3. DStream上的转换操作

    // 取消息中的value数据，以英文逗号分割，并转成Tuple3

    val values = stream.map(_.value.split(","))

      .filter(x => x.length == 3)

      .map(x => new Tuple3[String, String, String](x(0), x(1), x(2)))

    // 输入前10条到控制台，方便调试

    values.print()

    // 4.同foreachRDD保存到数据库

    val sql = "insert into kafka_message(timeseq, thread, message) values (?,?,?)"

    values.foreachRDD(rdd => {

      val count = rdd.count()

      println("-----------------count:" + count)

      if (count > 0) {

        rdd.foreachPartition(partitionOfRecords => {

          val conn = ConnectionPool.getConnection.orNull

          if (conn != null) {

            partitionOfRecords.foreach(data => insert(conn, sql, data))

            ConnectionPool.closeConnection(conn)

          }

        })

      }

    })

    // 5. 启动计算

    streamingContext.start()

    streamingContext.awaitTermination() // 等待中断结束计算

  }

  /**

    * 保存数据到数据库

    *

    * @param conn 数据库连接

    * @param sql  prepared statement sql

    * @param data 要保存的数据，Tuple3结构

    */

  def insert(conn: Connection, sql: String, data: (String, String, String)): Unit = {

    try {

      val ps = conn.prepareStatement(sql)

      ps.setString(1, data._1)

      ps.setString(2, data._2)

      ps.setString(3, data._3)

      ps.executeUpdate()

      ps.close()

    } catch {

      case e: Exception =>

        logger.error("Error in execution of insert. " + e.getMessage)

    }

  }

}

3. 任务运行

3.1 数据库驱动配置

由于本次程序运行环境是spark standalone 的伪分布式，指定SPARK_CLASSPATH时，相当于同时指定了driver和executor的classpath。

编辑spark-env.sh。

vi $SPARK_HOME/conf/spark-env.sh

输入以下内容，注意把postgresql驱动包放在对应的位置。

export SPARK_CLASSPATH=$SPARK_CLASSPATH:/opt/jobs/postgresql-9.1-901-1.jdbc4.jar

实际上，Spark已经不推荐使用SPARK_CLASSPATH参数了，启动的时候，我们会发现如下的日志，提示我们用spark.executor.extraClassPath和spark.driver.extraClassPath来代替。如果是spark local模式，只需指定spark.driver.extraClassPath即可。

日志如下。

16/10/21 15:15:33 WARN SparkConf:

SPARK_CLASSPATH was detected (set to ':/opt/jobs/postgresql-9.1-901-1.jdbc4.jar').

This is deprecated in Spark 1.0+.

Please instead use:

 - ./spark-submit with --driver-class-path to augment the driver classpath

 - spark.executor.extraClassPath to augment the executor classpath

16/10/21 15:15:33 WARN SparkConf: Setting 'spark.executor.extraClassPath' to ':/opt/jobs/

postgresql-9.1-901-1.jdbc4.jar' as a work-around.

16/10/21 15:15:33 WARN SparkConf: Setting 'spark.driver.extraClassPath' to ':/opt/jobs/

postgresql-9.1-901-1.jdbc4.jar' as a work-around.

3.2 启动任务

$SPARK_HOME/bin/spark-submit \

--master spark://192.168.1.91:7077

--class com.xxx.streaming.KafkaToDB \

 spark-streaming-demo.jar 192.168.1.90:9092 my-topic

在192.168.1.90上，通过kafka命令发送消息，命令如下：

bin/kafka-console-producer.sh --broker-list 192.168.1.90:9092 --topic mytopic

消息如下：

1475589918658    thread-15    msg-0

1475589920177    thread-15    msg-1

之后，我们可以在控制台看到消息被输出，也可以在数据库中查询到这些数据。

4.Spark程序找不到JDBC驱动的问题

控制台曾经报出找不到JDBC驱动的异常，日志如下。

java.sql.SQLException: No suitable driver found for jdbc:……

该问题可以用前文所述的数据库驱动配置办法解决。在这里推荐一篇博客，对这个问题给出的很好的解释。
http://www.codexiu.cn/spark/blog/12672/

博客来源：https://www.jianshu.com/p/a73c0c95d2fe

Spark Streaming通过JDBC操作数据库的更多相关文章

Spark Streaming中的操作函数讲解
Spark Streaming中的操作函数讲解根据根据Spark官方文档中的描述,在Spark Streaming应用中,一个DStream对象可以调用多种操作,主要分为以下几类 Transform ...
JDBC操作数据库的学习(2)
在上一篇博客<JDBC操作数据库的学习(1)>中通过对例1,我们已经学习了一个Java应用如何在程序中通过JDBC操作数据库的步骤流程,当然我们也说过这样的例子是无法在实际开发中使用的,本 ...
JDBC操作数据库的学习(1)
单单对数据库的操作,比如说MySQL,我们可以在命令行窗口中执行,但是一般是应用程序要操作数据库,因此我们应该在程序中的代码上体现对数据库的操作,那么使用程序应用如何操作数据库呢?那就要使用到数据库的 ...
JDBC操作数据库的三种方式比较
JDBC(java Database Connectivity)java数据库连接,是一种用于执行上sql语句的javaAPI,可以为多种关系型数据库提供统一访问接口.我们项目中经常用到的MySQL. ...
JDBC操作数据库的基本步骤：
JDBC操作数据库的基本步骤: 1)加载(注册)数据库驱动(到JVM). 2)建立(获取)数据库连接. 3)创建(获取)数据库操作对象. 4)定义操作的SQL语句. 5)执行数据库操作. 6)获取并操 ...
springboot学习-jdbc操作数据库--yml注意事项--controller接受参数以及参数校验--异常统一管理以及aop的使用---整合mybatis---swagger2构建api文档---jpa访问数据库及page进行分页---整合redis---定时任务
springboot学习-jdbc操作数据库--yml注意事项--controller接受参数以及参数校验-- 异常统一管理以及aop的使用---整合mybatis---swagger2构建api文档 ...
Spring入门(十五)：使用Spring JDBC操作数据库
在本系列的之前博客中,我们从没有讲解过操作数据库的方法,但是在实际的工作中,几乎所有的系统都离不开数据的持久化,所以掌握操作数据库的使用方法就非常重要. 在Spring中,操作数据库有很多种方法,我们 ...
Java笔记（第七篇 JDBC操作数据库）
JDBC是连接数据库和java程序的桥梁,通过JDBC API可以方便地实现对各种主流数据库的操作.学习java语言,必须学习JDBC技术,因为JDBC技术实在java语言中被广泛使用的一种操作数据库 ...

随机推荐

java基础_0204：运算符
掌握Java中标识符的定义: 掌握Java中数据类型的划分以及基本数据类型的使用原则: 掌握Java运算符的使用: 掌握Java分支结构.循环结构.循环控制语法的使用: 掌握方法的定义结构以及方法重载 ...
mysql数据库卸载和安装
背景: 由于之前一个项目中用的数据库版本是免安装的mysql5.5.36,但是后来经过第三方测试公司测试出该数据库存在很多漏洞需要升级数据库才能解决.所以觉得将数据库更换为mysql-5.7.21-w ...
【运维】Dell R710如何做Raid0与Raid5
[写在前面] 这次是在戴尔服务器R710上面尝试的做Raid0和Raid5,亲测成功. 因为创建Raid0与Raid5的方式是一样的,所以就以创建Raid5为例. 1, ...
k64 datasheet学习笔记3---Chip Configuration之Analog
1.前言本文主要讲述K64芯片配置,关于模拟部分的内容,主要包括:ADC, CMP, DAC, VREF 2.16bit SAR ADC 从上图可以看出ADC主要挂在外设总线0上,由于ADC的输入引 ...
MII与RMII接口的区别【转】
转自:https://blog.csdn.net/fun_tion/article/details/70270632 1.概述 MII即“媒体独立接口”,也叫“独立于介质的接口”.它是IEEE-802 ...
记录一下putty的pscp的用法【转】
转自记录一下putty的pscp的用法 - 刘荣星的博客 https://www.liurongxing.com/how-use-the-putty-and-pscp.html 以前一直用Secu ...
vue生命周期学习（watch跟computed）
1.watch钩子函数监听数据的变化 watch 的一个特点是,最初绑定的时候是不会执行的,要等到 firstName 改变时才执行监听计算. <div> <p>FullNam ...
迁移学习（Transfer Learning）
原文地址:http://blog.csdn.net/miscclp/article/details/6339456 在传统的机器学习的框架下,学习的任务就是在给定充分训练数据的基础上来学习一个分类模型 ...
webp 图形文件操作工具包 win32 (编译 libwebp-20171228-664c21dd 版本)
源码下载地址 https://chromium.googlesource.com/webm/libwebp/ 版本 libwebp-20171228-664 ...
026_lsof命令经验总结
一.lsof处理删除文件未释放句柄问题. 但是如果你不知道是哪个文件,或者是很多文件都有这样的情况,那你需要使用如下命令 lsof |grep deleted 注:这个deleted表示该已经删除了的 ...

Spark Streaming通过JDBC操作数据库