代码示例(默认为parquet数据源类型)



package wujiadong_sparkSQL

import org.apache.spark.sql.SQLContext

import org.apache.spark.{SparkConf, SparkContext}

/**

  * Created by Administrator on 2017/2/3.

  */

object GenericLoadSave {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("GenericLoadSave")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)

//load默认是加载parquet格式文件

    val usersDF = sqlContext.read.load("hdfs://master:9000/student/2016113012/spark/users.parquet")

    usersDF.write.save("hdfs://master:9000/student/2016113012/parquet_out1")

  }

}

提交集群运行

hadoop@master:~/wujiadong$ spark-submit --class wujiadong_sparkSQL.GenericLoadSave  --executor-memory 500m --total-executor-cores 2 /home/hadoop/wujiadong/wujiadong.spark.jar

运行后查看是否保存成功

hadoop@slave01:~$ hadoop fs -ls /student/2016113012/parquet_out1

17/02/03 12:06:26 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

Found 4 items

-rw-r--r--   3 hadoop supergroup          0 2017-02-03 12:05 /student/2016113012/parquet_out1/_SUCCESS

-rw-r--r--   3 hadoop supergroup        476 2017-02-03 12:05 /student/2016113012/parquet_out1/_common_metadata

-rw-r--r--   3 hadoop supergroup        841 2017-02-03 12:05 /student/2016113012/parquet_out1/_metadata

-rw-r--r--   3 hadoop supergroup        864 2017-02-03 12:05 /student/2016113012/parquet_out1/part-r-00000-8025e2a8-ab06-4558-9d76-bb2cad0042cf.gz.parquet

手动指定数据源类型（进行格式转换很方便）

默认情况下不指定数据源类型的话就是parquet类型

代码示例（手动指定数据源类型）

package wujiadong_sparkSQL

import org.apache.spark.sql.SQLContext

import org.apache.spark.{SparkConf, SparkContext}

/**

  * Created by Administrator on 2017/2/3.

  */

object ManuallySpecifyOptions {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("ManuallySpecifyOptions")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)

//load读其他格式文件如json时，需要先用format指定格式

    val peopleDF = sqlContext.read.format("json").load("hdfs://master:9000/student/2016113012/people.json")

    peopleDF.select("name").write.format("parquet").save("hdfs://master:9000/sudent/2016113012/people_out1")

  }

}

提交集群运行

hadoop@master:~/wujiadong$ spark-submit --class wujiadong_sparkSQL.ManuallySpecifyOptions  --executor-memory 500m --total-executor-cores 2 /home/hadoop/wujiadong/wujiadong.spark.jar

查看是否运行成功

hadoop@master:~/wujiadong$ hadoop fs -ls hdfs://master:9000/sudent/2016113012/people_out1

17/02/03 12:24:27 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

Found 4 items

-rw-r--r--   3 hadoop supergroup          0 2017-02-03 12:22 hdfs://master:9000/sudent/2016113012/people_out1/_SUCCESS

-rw-r--r--   3 hadoop supergroup        207 2017-02-03 12:22 hdfs://master:9000/sudent/2016113012/people_out1/_common_metadata

-rw-r--r--   3 hadoop supergroup        327 2017-02-03 12:22 hdfs://master:9000/sudent/2016113012/people_out1/_metadata

-rw-r--r--   3 hadoop supergroup        352 2017-02-03 12:22 hdfs://master:9000/sudent/2016113012/people_out1/part-r-00000-4d1a62a4-f550-4bde-899f-35e9aabfdc0c.gz.parquet

Save Mode

SaveMode.ErrorIfExists (默认)：如果目标位置已经存在数据，那么抛出一个异常

SaveMode.Append：如果目标位置已经存在数据，那么将数据追加进去

SaveMode.Overwrite：如果目标位置已经存在数据，那么就将已经存在的数据删除，用新数据进行覆盖

SaveMode.Ignore：如果目标位置已经存在数据，那么就忽略，不做任何操作

代码示例1

package wujiadong_sparkSQL

import org.apache.spark.sql.{SQLContext, SaveMode}

import org.apache.spark.{SparkConf, SparkContext}

/**

  * Created by Administrator on 2017/2/3.

  */

object SaveModelTest {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("SaveModelTest")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)

    val peopleDF = sqlContext.read.format("json").load("hdfs://master:9000/student/2016113012/people.json")

    peopleDF.save("hdfs://master:9000/student/2016113012/people.json",SaveMode.ErrorIfExists)

  }

}

因为这种save mode文件已存在就报错

package wujiadong_sparkSQL

import org.apache.spark.sql.{SQLContext, SaveMode}

import org.apache.spark.{SparkConf, SparkContext}

/**

  * Created by Administrator on 2017/2/3.

  */

object SaveModelTest {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("SaveModelTest")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)

    val peopleDF = sqlContext.read.format("json").load("hdfs://master:9000/student/2016113012/people.json")

    peopleDF.save("hdfs://master:9000/student/2016113012/people.json",SaveMode.Overwrite)

  }

}

这种会直接覆盖

spark SQL学习（load和save操作）的更多相关文章

37、数据源之通用的load和save操作
一.通用的load和save操作 1.概述对于Spark SQL的DataFrame来说,无论是从什么数据源创建出来的DataFrame,都有一些共同的load和save操作. load操作主要用于 ...
spark SQL学习（认识spark SQL）
spark SQL初步认识 spark SQL是spark的一个模块,主要用于进行结构化数据的处理.它提供的最核心的编程抽象就是DataFrame. DataFrame:它可以根据很多源进行构建,包括 ...
spark SQL学习（spark连接 mysql）
spark连接mysql(打jar包方式) package wujiadong_sparkSQL import java.util.Properties import org.apache.spark ...
spark SQL学习（数据源之parquet）
Parquet是面向分析型业务得列式存储格式编程方式加载数据代码示例 package wujiadong_sparkSQL import org.apache.spark.sql.SQLConte ...
spark SQL学习（案例-统计每日销售）
需求:统计每日销售额 package wujiadong_sparkSQL import org.apache.spark.sql.types._ import org.apache.spark.sq ...
spark SQL学习（案例-统计每日uv）
需求:统计每日uv package wujiadong_sparkSQL import org.apache.spark.sql.{Row, SQLContext} import org.apache ...
spark SQL学习（spark连接hive）
spark 读取hive中的数据 scala> import org.apache.spark.sql.hive.HiveContext import org.apache.spark.sql. ...
spark SQL学习（数据源之json）
准备工作数据文件students.json {"id":1, "name":"leo", "age":18} {&qu ...
spark SQL学习（综合案例-日志分析）
日志分析 scala> import org.apache.spark.sql.types._ scala> import org.apache.spark.sql.Row scala&g ...

随机推荐

高性能javascript 文件加载阻塞
高性能javascript javascript脚本执行过程中会中断页面加载,直到脚本执行完毕,此操作阻塞了页面加载,造成性能问题. 脚本位置和加载顺序:如果将脚本放在head内,那么再脚本执行完 ...
java 如何将实体bean和map互转化（利用Introspector内省）
// 将一个map对象转化为bean public static void transMap2Bean(Map<String, Object> map, Object obj) { try ...
通过手机浏览器打开APP或者跳转到下载页面.md
目录通过手机浏览器打开APP或者跳转到下载页面添加 schemes 网页设置参考链接通过手机浏览器打开APP或者跳转到下载页面以下仅展示最简单的例子及关键代码由于硬件条件有限,仅测试了 A ...
【转】windows 下 goprotobuf 的安装与使用
1. 安装在网上看了很多教程,都提到要安装 protoc 与 protoc-gen-go,但通过尝试之后并不能正确安装 protoc,一下记录能够顺利安装 protoc 与 protoc-gen-g ...
flume sink两种类型 file_rool 自定义sing com.mycomm.MySink even if there is only one event, the event has to be sent in an array
mkdir /data/UnifiedLog/; cd /data/UnifiedLog/; wget http://mirror.bit.edu.cn/apache/flume/1.8.0/apac ...
四、H5 录制视频 Web Real-Time Communication
Web Real-Time Communication HTML5实现视频直播功能思路详解_html5教程技巧_脚本之家 https://m.jb51.net/html5/587215.html
Lock wait timeout exceeded; try restarting transaction 3千万数据删除
Lock wait timeout exceeded; try restarting transaction 0DELETE FROM sta_addr WHERE date="2018-1 ...
responsive and functional programming RxJava
RxJava由于使用了多个回调,一开始理解起来可能有点难度,其实多看几遍也就明白了,它的招式套路都是一样的: 首先就是创建Observable,创建Observable有很多种方式,这里使用了Obse ...
模块 - hashlib/subprocess
hashlib 模块加密算法: hash (152位)散列哈希不可逆得密码背后就是 hash 程序退出hash 值就变了 ,hash值得结果有可能重复 MD5 (128位) 讯息摘要演算法基 ...
IIS设置文件 Robots.txt 禁止爬虫
robots.txt用于禁止网络爬虫访问网站指定目录.robots.txt的格式采用面向行的语法:空行.注释行(以#打头).规则行.规则行的格式为:Field: value.常见的规则行:User-A ...

spark SQL学习（load和save操作）

load操作：主要用于加载数据，创建出DataFrame

save操作：主要用于将DataFrame中的数据保存到文件中

代码示例(默认为parquet数据源类型)

代码示例（手动指定数据源类型）

Save Mode

spark SQL学习（load和save操作）的更多相关文章

随机推荐

热门专题