1. 连接mysql

首先需要把mysql-connector-java-5.1.39.jar 拷贝到 spark 的jars目录里面;

scala> import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.SQLContext

scala> val sqlContext=new SQLContext(sc)
warning: there was one deprecation warning; re-run with -deprecation for details
sqlContext: org.apache.spark.sql.SQLContext = org.apache.spark.sql.SQLContext@3a649f9a

scala>  sqlContext.read.format("jdbc").options(Map("url" -> "jdbc:mysql://localhost:3306/metastore",
     |  "driver" -> "com.mysql.jdbc.Driver", "dbtable" -> "DBS", "user" -> "root", "password" -> "root")).load().show
+-----+--------------------+--------------------+-------+----------+----------+
|DB_ID|                DESC|     DB_LOCATION_URI|   NAME|OWNER_NAME|OWNER_TYPE|
+-----+--------------------+--------------------+-------+----------+----------+
|    1|Default Hive data...|hdfs://localhost:...|default|    public|      ROLE|
|    2|                null|hdfs://localhost:...|    aaa|      root|      USER|
|    6|                null|hdfs://localhost:...| userdb|      root|      USER|
+-----+--------------------+--------------------+-------+----------+----------+

-----------------------------------------------------------------------------------------------------------------

scala> import org.apache.spark.sql.{SQLContext,SparkSession}

import org.apache.spark.sql.{SQLContext, SparkSession}

scala> val url="jdbc:mysql://localhost:3306/test?user=root&password=root&useUnicode=true&characterEncoding=UTF-8"
url: String = jdbc:mysql://localhost:3306/test?user=root&password=root&useUnicode=true&characterEncoding=UTF-8

scala> val con = new SQLContext(sc);

warning: there was one deprecation warning; re-run with -deprecation for details

con: org.apache.spark.sql.SQLContext = org.apache.spark.sql.SQLContext@3a973b5e

scala> con.read.format("jdbc").options(Map("url"->url,"dbtable"->"role")).load.show
+------+----+-------------------+-------------------+---+-----+
|roleid|name|             dateid|               addr|sex|level|
+------+----+-------------------+-------------------+---+-----+
|     1|null|2017-11-16 14:49:11|henan luohe linying|  1|   10|
|    40|null|2017-11-13 14:50:25| guangdong shenzhen|  1|   20|
|   110|null|2017-11-14 14:50:47|            beijing|  1|   20|
|   200|null|2017-11-14 14:49:47|   shandong qingdao|  0|    8|
|   400|null|2017-11-15 14:49:56|        anhui hefei|  0|    4|
|   600|null|2017-11-15 14:50:05|     hunan changsha|  0|   91|
|   650|null|2017-11-01 17:24:34|               null|  1|   29|
|   651|wang|2018-06-06 16:16:55|           shenzhen|  1|   60|
+------+----+-------------------+-------------------+---+-----+

scala> con.read.format("jdbc").option("url",url).option("dbtable","role").load.show
+------+----+-------------------+-------------------+---+-----+
|roleid|name|             dateid|               addr|sex|level|
+------+----+-------------------+-------------------+---+-----+
|     1|null|2017-11-16 14:49:11|henan luohe linying|  1|   10|
|    40|null|2017-11-13 14:50:25| guangdong shenzhen|  1|   20|
|   110|null|2017-11-14 14:50:47|            beijing|  1|   20|
|   200|null|2017-11-14 14:49:47|   shandong qingdao|  0|    8|
|   400|null|2017-11-15 14:49:56|        anhui hefei|  0|    4|
|   600|null|2017-11-15 14:50:05|     hunan changsha|  0|   91|
|   650|null|2017-11-01 17:24:34|               null|  1|   29|
|   651|wang|2018-06-06 16:16:55|           shenzhen|  1|   60|
+------+----+-------------------+-------------------+---+-----+

scala> val session=SparkSession.builder.getOrCreate()
session: org.apache.spark.sql.SparkSession = org.apache.spark.sql.SparkSession@71e393a2

scala> session.read.format("jdbc").options(Map("url"->url,"dbtable"->"role")).load.show
+------+----+-------------------+-------------------+---+-----+
|roleid|name|             dateid|               addr|sex|level|
+------+----+-------------------+-------------------+---+-----+
|     1|null|2017-11-16 14:49:11|henan luohe linying|  1|   10|
|    40|null|2017-11-13 14:50:25| guangdong shenzhen|  1|   20|
|   110|null|2017-11-14 14:50:47|            beijing|  1|   20|
|   200|null|2017-11-14 14:49:47|   shandong qingdao|  0|    8|
|   400|null|2017-11-15 14:49:56|        anhui hefei|  0|    4|
|   600|null|2017-11-15 14:50:05|     hunan changsha|  0|   91|
|   650|null|2017-11-01 17:24:34|               null|  1|   29|
|   651|wang|2018-06-06 16:16:55|           shenzhen|  1|   60|
+------+----+-------------------+-------------------+---+-----+

scala> session.read.format("jdbc").option("url",url).option("dbtable","role").load.show
+------+----+-------------------+-------------------+---+-----+
|roleid|name|             dateid|               addr|sex|level|
+------+----+-------------------+-------------------+---+-----+
|     1|null|2017-11-16 14:49:11|henan luohe linying|  1|   10|
|    40|null|2017-11-13 14:50:25| guangdong shenzhen|  1|   20|
|   110|null|2017-11-14 14:50:47|            beijing|  1|   20|
|   200|null|2017-11-14 14:49:47|   shandong qingdao|  0|    8|
|   400|null|2017-11-15 14:49:56|        anhui hefei|  0|    4|
|   600|null|2017-11-15 14:50:05|     hunan changsha|  0|   91|
|   650|null|2017-11-01 17:24:34|               null|  1|   29|
|   651|wang|2018-06-06 16:16:55|           shenzhen|  1|   60|
+------+----+-------------------+-------------------+---+-----+

scala> import java.util.Properties

import java.util.Properties

scala> val pro=new Properties()

pro: java.util.Properties = {}

scala> session.read.jdbc(url,"role",pro).show
+------+----+-------------------+-------------------+---+-----+
|roleid|name|             dateid|               addr|sex|level|
+------+----+-------------------+-------------------+---+-----+
|     1|null|2017-11-16 14:49:11|henan luohe linying|  1|   10|
|    40|null|2017-11-13 14:50:25| guangdong shenzhen|  1|   20|
|   110|null|2017-11-14 14:50:47|            beijing|  1|   20|
|   200|null|2017-11-14 14:49:47|   shandong qingdao|  0|    8|
|   400|null|2017-11-15 14:49:56|        anhui hefei|  0|    4|
|   600|null|2017-11-15 14:50:05|     hunan changsha|  0|   91|
|   650|null|2017-11-01 17:24:34|               null|  1|   29|
|   651|wang|2018-06-06 16:16:55|           shenzhen|  1|   60|
+------+----+-------------------+-------------------+---+-----+

2.连接hive,首先需要将hive的配置文件hive-site.xml拷贝到spark的conf目录下或者在conf目录下新建hive-site.xml,添加以下内容

(由于从hive拷贝过来的文件报错,因此本人采用了新建文件的方式)

<configuration>
<property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://localhost:3306/metastore?createDatabaseIfNotExist=true</value>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.jdbc.Driver</value>
    <description>Driver class name for a JDBC metastore</description>
  </property>
<property>
  <name>javax.jdo.option.ConnectionUserName</name>
  <value>root</value>
</property>
<property>
  <name>javax.jdo.option.ConnectionPassword</name>
  <value>root</value>
</property>
 <property>
    <name>hive.metastore.warehouse.dir</name>
    <value>/user/hive/warehouse</value>
    <description>location of default database for the warehouse</description>
  </property>
<property>
<name>hive.exec.scratchdir</name>
<value>/tmp/hive/tmp</value>
</property>
<property>
<name>hive.querylog.location</name>
<value>/tmp/hive/log</value>
</property>
</configuration>

启动 spark-shell:

HiveContext读取hive

scala> import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.sql.hive.HiveContext

scala> val hivecon=new HiveContext(sc)
warning: there was one deprecation warning; re-run with -deprecation for details
hivecon: org.apache.spark.sql.hive.HiveContext = org.apache.spark.sql.hive.HiveContext@1b96f15e

scala> hivecon.sql("show databases").show
+------------+
|databaseName|
+------------+
|         aaa|
|     default|
|   sparkhive|
|      userdb|
+------------+

--------------------------------------------

--SparkSession读取hive

scala> import org.apache.spark.sql.SparkSession

import org.apache.spark.sql.SparkSession

scala> val session=SparkSession.builder.getOrCreate()

session: org.apache.spark.sql.SparkSession = org.apache.spark.sql.SparkSession@331d651b

scala> session.sql("select sex,count(1) from gamedw.cust group by sex").show
+---+--------+
|sex|count(1)|
+---+--------+
|  1|       6|
|  0|       3|
+---+--------+

spark sql 中的结构化数据的更多相关文章

  1. [转] Protobuf高效结构化数据存储格式

    从公司的项目源码中看到了这个东西,觉得挺好用的,写篇博客做下小总结.下面的操作以C++为编程语言,protoc的版本为libprotoc 3.2.0. 一.Protobuf? 1. 是什么?  Goo ...

  2. Spark SQL - 对大规模的结构化数据进行批处理和流式处理

    Spark SQL - 对大规模的结构化数据进行批处理和流式处理 大体翻译自:https://jaceklaskowski.gitbooks.io/mastering-apache-spark/con ...

  3. Spark如何与深度学习框架协作,处理非结构化数据

    随着大数据和AI业务的不断融合,大数据分析和处理过程中,通过深度学习技术对非结构化数据(如图片.音频.文本)进行大数据处理的业务场景越来越多.本文会介绍Spark如何与深度学习框架进行协同工作,在大数 ...

  4. Spark读取结构化数据

    读取结构化数据 Spark可以从本地CSV,HDFS以及Hive读取结构化数据,直接解析为DataFrame,进行后续分析. 读取本地CSV 需要指定一些选项,比如留header,比如指定delimi ...

  5. 详解Google-ProtoBuf中结构化数据的编码

    本文的主要内容是google protobuf中序列化数据时用到的编码规则,但是,介绍具体的编码规则之前,我觉得有必要先简单介绍一下google protobuf.因此,本文首先会介绍一些google ...

  6. H5中使用Web Storage来存储结构化数据

    在上一篇对Web Storage的介绍中,可以看到,使用Storage保存key—value对时,key.value只能是字符串,这对于简单的数据来说已经够了,但是如果需要保存更复杂的数据,比如保存类 ...

  7. MySQL 5.7:非结构化数据存储的新选择

    本文转载自:http://www.innomysql.net/article/23959.html (只作转载, 不代表本站和博主同意文中观点或证实文中信息) 工作10余年,没有一个版本能像MySQL ...

  8. Spark SQL中列转行(UNPIVOT)的两种方法

    行列之间的互相转换是ETL中的常见需求,在Spark SQL中,行转列有内建的PIVOT函数可用,没什么特别之处.而列转行要稍微麻烦点.本文整理了2种可行的列转行方法,供参考. 本文链接:https: ...

  9. Solr系列四:Solr(solrj 、索引API 、 结构化数据导入)

    一.SolrJ介绍 1. SolrJ是什么? Solr提供的用于JAVA应用中访问solr服务API的客户端jar.在我们的应用中引入solrj: <dependency> <gro ...

随机推荐

  1. @@identity与scope_identity()函数的区别

    @@IDENTITY 和SCOPE_IDENTITY 返回在当前会话中的任何表内所生成的最后一个标识值. SCOPE_IDENTITY 只返回插入到当前作用域中的值: @@IDENTITY 不受限于特 ...

  2. Hadoop概念学习系列之Hadoop新手学习指导之入门需知(二十)

    不多说,直接上干货! 零基础学习hadoop,没有想象的那么困难,也没有想象的那么容易.从一开始什么都不懂,到能够搭建集群,开发.整个过程,只要有Linux基础,虚拟机化和java基础,其实hadoo ...

  3. php的语句

    1.php流程语句 1.php代码执行从上到下 2.条件语句 if else 和 switch 案例: $name=56; if($name>56) echo "hello world ...

  4. Centos7.2/7.3集群安装Kubernetes 1.8.4 + Dashboard(转)

    原文https://www.cnblogs.com/burningTheStar/p/7865998.html 1.环境配置 结点数量:3 结点系统:CentOS 7.2 / 7.3 2.效果展示 3 ...

  5. Java中常见流的分类及简单讲解

    流在Java中是指计算中流动的缓冲区. 从外部设备流向中央处理器的数据流成为“输入流”,反之成为“输出流”. 字符流和字节流的主要区别: 1.字节流读取的时候,读到一个字节就返回一个字节:字符流使用了 ...

  6. CVE-2017-8570漏洞利用

    CVE-2017-8570漏洞是一个逻辑漏洞,利用方法简单,影响范围广.由于该漏洞和三年前的SandWorm(沙虫)漏洞非常类似,因此我们称之为“沙虫”二代漏洞. 编号 CVE-2017-8570 影 ...

  7. 对偶上升法到增广拉格朗日乘子法到ADMM

    对偶上升法 增广拉格朗日乘子法 ADMM 交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)是一种解决可分解凸优化问题的简单方法,尤其在 ...

  8. Linux程序的执行

    一.多任务协调机制 $ find /boot | cpio -ocB > /tmp/boot.img 程序执行方式——流式处理 “|”是匿名管道 管道分匿名管道,命名管道.匿名管道属于临时工,随 ...

  9. Html5——音频标签使用

    Ogg 文件,适用于Firefox.Opera 以及 Chrome 浏览器. 要确保适用于 Safari 浏览器,音频文件必须是 MP3 或 Wav 类型. audio 元素允许多个 source 元 ...

  10. Java - 28 Java 泛型

    Java 泛型 如果我们只写一个排序方法,就能够对整型数组.字符串数组甚至支持排序的任何类型的数组进行排序,这该多好啊. Java泛型方法和泛型类支持程序员使用一个方法指定一组相关方法,或者使用一个类 ...