在日常工作中，有时候需要读取mysql的数据作为DataFrame数据源进行后期的Spark处理,Spark自带了一些方法供我们使用，读取mysql我们可以直接使用表的结构信息，而不需要自己再去定义每个字段信息。
下面是我的实现方式。

1.mysql的信息：

mysql的信息我保存在了外部的配置文件，这样方便后续的配置添加。

 mysql的信息我保存在了外部的配置文件，这样方便后续的配置添加。

 //配置文件示例：

 [hdfs@iptve2e03 tmp_lillcol]$ cat job.properties

 #mysql数据库配置

 mysql.driver=com.mysql.jdbc.Driver

 mysql.url=jdbc:mysql://127.0.0.1:3306/database1?useSSL=false&autoReconnect=true&failOverReadOnly=false&rewriteBatchedStatements=true

 mysql.username=user

 mysql.password=123456

2.需要的jar依赖

sbt版本，maven的对应修改即可

 libraryDependencies += "org.apache.spark" % "spark-core_2.10" % "1.6.0-cdh5.7.2"

 libraryDependencies += "org.apache.spark" % "spark-sql_2.10" % "1.6.0-cdh5.7.2"

 libraryDependencies += "org.apache.spark" % "spark-hive_2.10" % "1.6.0-cdh5.7.2"

 libraryDependencies += "org.apache.hbase" % "hbase-client" % "1.2.0-cdh5.7.2"

 libraryDependencies += "org.apache.hbase" % "hbase-server" % "1.2.0-cdh5.7.2"

 libraryDependencies += "org.apache.hbase" % "hbase-common" % "1.2.0-cdh5.7.2"

 libraryDependencies += "org.apache.hbase" % "hbase-protocol" % "1.2.0-cdh5.7.2"

 libraryDependencies += "mysql" % "mysql-connector-java" % "5.1.38"

 libraryDependencies += "org.apache.spark" % "spark-streaming_2.10" % "1.6.0-cdh5.7.2"

 libraryDependencies += "com.yammer.metrics" % "metrics-core" % "2.2.0"

3.完整实现代码

 import java.io.FileInputStream

 import java.util.Properties

 import org.apache.spark.sql.hive.HiveContext

 import org.apache.spark.sql.{DataFrame, SQLContext}

 import org.apache.spark.{SparkConf, SparkContext}

 /**

   * @author Administrator

   *         2018/10/16-9:18

   *

   */

 object TestReadMysql {

   var hdfsPath: String = ""

   var proPath: String = ""

   var DATE: String = ""

   val sparkConf: SparkConf = new SparkConf().setAppName(getClass.getSimpleName)

   val sc: SparkContext = new SparkContext(sparkConf)

   val sqlContext: SQLContext = new HiveContext(sc)

   def main(args: Array[String]): Unit = {

     hdfsPath = args(0)

     proPath = args(1)

     //不过滤读取

     val dim_sys_city_dict: DataFrame = readMysqlTable(sqlContext, "TestMysqlTble1", proPath)

     dim_sys_city_dict.show(10)

     //过滤读取

     val dim_sys_city_dict1: DataFrame = readMysqlTable(sqlContext, "TestMysqlTble1", s"city_id=240", proPath)

     dim_sys_city_dict1.show(10)

   }

   /**

     * 获取 Mysql 表的数据

     *

     * @param sqlContext

     * @param tableName 读取Mysql表的名字

     * @param proPath   配置文件的路径

     * @return 返回 Mysql 表的 DataFrame

     */

   def readMysqlTable(sqlContext: SQLContext, tableName: String, proPath: String) = {

     val properties: Properties = getProPerties(proPath)

     sqlContext

       .read

       .format("jdbc")

       .option("url", properties.getProperty("mysql.url"))

       .option("driver", properties.getProperty("mysql.driver"))

       .option("user", properties.getProperty("mysql.username"))

       .option("password", properties.getProperty("mysql.password"))

       //        .option("dbtable", tableName.toUpperCase)

       .option("dbtable", tableName)

       .load()

   }

   /**

     * 获取 Mysql 表的数据 添加过滤条件

     *

     * @param sqlContext

     * @param table           读取Mysql表的名字

     * @param filterCondition 过滤条件

     * @param proPath         配置文件的路径

     * @return 返回 Mysql 表的 DataFrame

     */

   def readMysqlTable(sqlContext: SQLContext, table: String, filterCondition: String, proPath: String) = {

     val properties: Properties = getProPerties(proPath)

     var tableName = ""

     tableName = "(select * from " + table + " where " + filterCondition + " ) as t1"

     sqlContext

       .read

       .format("jdbc")

       .option("url", properties.getProperty("mysql.url"))

       .option("driver", properties.getProperty("mysql.driver"))

       .option("user", properties.getProperty("mysql.username"))

       .option("password", properties.getProperty("mysql.password"))

       .option("dbtable", tableName)

       .load()

   }

   /**

     * 获取配置文件

     *

     * @param proPath

     * @return

     */

   def getProPerties(proPath: String) = {

     val properties: Properties = new Properties()

     properties.load(new FileInputStream(proPath))

     properties

   }

 }

4.测试

 def main(args: Array[String]): Unit = {

     hdfsPath = args(0)

     proPath = args(1)

     //不过滤读取

     val dim_sys_city_dict: DataFrame = readMysqlTable(sqlContext, "TestMysqlTble1", proPath)

     dim_sys_city_dict.show(10)

     //过滤读取

     val dim_sys_city_dict1: DataFrame = readMysqlTable(sqlContext, "TestMysqlTble1", s"city_id=240", proPath)

     dim_sys_city_dict1.show(10)

   }

5.运行结果

数据因为保密原因进行了处理

  // 不过滤读取结果

 +-------+-------+---------+---------+--------+----------+---------+--------------------+----+-----------+

 |dict_id|city_id|city_name|city_code|group_id|group_name|area_code| bureau_id|sort|bureau_name|

 +-------+-------+---------+---------+--------+----------+---------+--------------------+----+-----------+

 |     1|    249|       **|    **_ab|     100|      **按时|    **-查到|xcaasd...| 21|    张三公司|

 |     2|    240|       **|    **_ab|     300|      **按时|    **-查到|xcaasd...| 21|    张三公司|

 |     3|    240|       **|    **_ab|     100|      **按时|    **-查到|xcaasd...| 21|    张三公司|

 |     4|    242|       **|    **_ab|     300|      **按时|    **-查到|xcaasd...| 01|    张三公司|

 |     5|    246|       **|    **_ab|     100|      **按时|    **-查到|xcaasd...| 01|    张三公司|

 |     6|    246|       **|    **_ab|     300|      **按时|    **-查到|xcaasd...| 01|    张三公司|

 |     7|    248|       **|    **_ab|     200|      **按时|    **-查到|xcaasd...| 01|    张三公司|

 |     8|    242|       **|    **_ab|     400|      **按时|    **-查到|xcaasd...| 01|    张三公司|

 |     9|    247|       **|    **_ab|     200|      **按时|    **-查到|xcaasd...| 01|    张三公司|

 |     0|    243|       **|    **_ab|     400|      **按时|    **-查到|xcaasd...| 01|    张三公司|

 +-------+-------+---------+---------+--------+----------+---------+--------------------+----+-----------+

 // 过滤读取结果

 +-------+-------+---------+---------+--------+----------+---------+--------------------+----+-----------+

 |dict_id|city_id|city_name|city_code|group_id|group_name|area_code| bureau_id|sort|bureau_name|

 +-------+-------+---------+---------+--------+----------+---------+--------------------+----+-----------+

 |     2|    240|       **|    **_JM|     300|      **按时|    **-查到|xcaasd...| 21|    张三公司|

 |     3|    240|       **|    **_ZS|     100|      **按时|    **-查到|xcaasd...| 21|    张三公司|

 |     6|    240|       **|    **_JY|     400|      **按时|    **-查到|xcaasd...| 01|    张三公司|

 +-------+-------+---------+---------+--------+----------+---------+--------------------+----+-----------+

6.总结

读取mysql其实不难，就是一些参数的配置而已。
在此处记录下。

本文章为工作日常总结，转载请标明出处！！！！！！！

Spark:读取mysql数据作为DataFrame的更多相关文章

Spark使用Java读取mysql数据和保存数据到mysql
原文引自:http://blog.csdn.net/fengzhimohan/article/details/78471952 项目应用需要利用Spark读取mysql数据进行数据分析,然后将分析结果 ...
Spark读取elasticsearch数据指南
最近要在 Spark job 中通过 Spark SQL 的方式读取 Elasticsearch 数据,踩了一些坑,总结于此. 环境说明 Spark job 的编写语言为 Scala,scala-li ...
关于C#读取MySql数据时，返回DataTable中某字段数据是System.Array[]形式
我在使用C#(VS2008)读取MySql数据库(5.1版本)时,返回的DataTable数据中arrivalDate字段数据显示为System.Array[]形式(程序中没有对返回的数据进行任何加工 ...
Django读取Mysql数据并显示在前端
一.首先按添加网页的步骤添加网页,我的网页名为table.html, app名为web table.html放到相应目录下, froms文件提前写好修改views.py ? 1 2 3 4 5 6 ...
spark读取kafka数据 createStream和createDirectStream的区别
1.KafkaUtils.createDstream 构造函数为KafkaUtils.createDstream(ssc, [zk], [consumer group id], [per-topic, ...
spark1.4加载mysql数据创建Dataframe及join操作连接方法问题
首先我们使用新的API方法连接mysql加载数据创建DF import org.apache.spark.sql.DataFrame import org.apache.spark.{SparkCo ...
Spark 读取HBase数据
Spark1.6.2 读取 HBase 1.2.3 //hbase-common-1.2.3.jar //hbase-protocol-1.2.3.jar //hbase-server-1.2.3.j ...
spark读取hdfs数据本地性异常
在分布式计算中,为了提高计算速度,数据本地性是其中重要的一环. 不过有时候它同样也会带来一些问题. 一.问题描述在分布式计算中,大多数情况下要做到移动计算而非移动数据,所以数据本地性尤其重要,因此我 ...
R读取MySQL数据出现乱码，解决该问题的方法总结
最终的解决办法直接看 4 我的思路: 我用的都是utf-8编码,电脑系统win7, MySQL-Front进行数据库的可视化. 1.我用的是RStudio,先去设置R的默认编码: Tools→Glob ...

随机推荐

4、zabbix基本配置入门
Zabbix监控流程: Host group --> Hosts(向server端添加被监控主机) --> Application(在agent定义) --> Items(在appl ...
jTimer
很多时候我们需要按时间间隔执行一个任务,当满足一定条件时停止执行.此插件旨在解决这一经常遇到的问题. jTimer: (function ($) { $.extend({ timer: funct ...
stylus笔记（二）
1.方法函数 Stylus强大之处就在于其内置的语言函数定义.其定义与混入(mixins)一致:却可以返回值. 默认参数可选参数往往有个默认的给定表达.在Stylus中,我们甚至可以超越默认参数 ...
SWUST OJ(957)
逆置单链表 #include <stdio.h> #include <stdlib.h> typedef struct LNode { char data; struct LN ...
在Eclipse下搭建Hibernate框架（加载hibernate工具插件，离线）
下载hibernate工具包完成之后,对其进行解压可以得到众多文件夹,其中就有一个jbosstools-hibernate开头的文件夹,进入其中可以得到features和plugins两个文件夹,在E ...
1022. Sum of Root To Leaf Binary Numbers从根到叶的二进制数之和
网址:https://leetcode.com/problems/sum-of-root-to-leaf-binary-numbers/ 递归调用求和,同时注意%1000000007的位置 /** * ...
第5天(半天)【shell编程初步、grep及正则表达式】
第5天(半天)[shell编程初步.grep及正则表达式] shell编程初步(01)_recv shell脚本:文本文件 #!:/bin/bash #!:/usr/bin/python #!:/us ...
指导手册01：安装Hadoop
指导手册01:安装Hadoop Part 1:安装及配置虚拟机 1.安装Linux. (1)打开VMvirtualBox (2) 控制->新建虚拟机,输入虚拟机名称“marst+学号” 类型: ...
ADO.NET 中的五个主要对象
Connection:主要用来开启程序和数据库的连接 Command:主要是用来对数据库发出一些指令,. DataAdapter;主要在数据源以及DataSet之间执行数据库的传输工作 DataSet ...
Android开发 ---基本UI组件5：监听下拉选项，动态绑定下拉选项、全选/反选，取多选按钮的值，长按事件，长按删除，适配器的使用，提示查询数据，activity控制多按钮
效果图: 效果描述: 1.当点击 1 按钮后,进入选择城市的页面,会监听到你选中的城市名称:动态为Spinner绑定数据 2.当点击 2 按钮后,进入自动查询数据页面,只要输入首字母,就会动态查找以该 ...

Spark:读取mysql数据作为DataFrame

3.完整实现代码

4.测试

5.运行结果

Spark:读取mysql数据作为DataFrame的更多相关文章

随机推荐

热门专题