spark复习总结03

1.DataFrame的创建方式

　　1.1 通过加载外部文件创建

//通过sqlContext读取json文件创建DataFrame

DataFrame dataFrame=sqlContext.read().json("src/main/resources/datafromcreate.txt");
//通过两种方式加载json文件
//sqlContext.read().json("src/main/resources/datafromcreate.txt");
sqlContext.read().format("json").load("src/main/resources/datafromcreate.txt"）；

　　1.2 通过RDD和元数据进行转换

　　　　1.2.1 通过使用动态构建的元数据的方式创建DataFrame

//创建sqlContext

SQLContext sqlContext=new SQLContext(context);

//使用程序构建DataFrame的元数据

StructType structType=new StructType(new StructField[]{

                DataTypes.createStructField("id", DataTypes.IntegerType, false),

                DataTypes.createStructField("name", DataTypes.StringType, true),

                DataTypes.createStructField("age", DataTypes.IntegerType, true)

        });

//创建studentsRdd

JavaRDD<Row> studentsRdd=context.textFile("src/main/resources/students.txt").map(new Function<String, Row>() {

            private static final long serialVersionUID = 1L;

            public Row call(String line) throws Exception {

                String[] words=line.split(" ");

                return RowFactory.create(Integer.parseInt(words[]),words[],Integer.parseInt(words[]));

            }

        });

//使用动态构建的元数据创建DataFrame

DataFrame studentDataFrame= sqlContext.createDataFrame(studentsRdd, structType);

　　　　1.2.2 通过反射的方式，使用javabean的属性作为DataFrame的元数据进行创建DataFrame

//封装为Student JavaRDD

JavaRDD<Student> students=context.textFile("src/main/resources/students.txt").map(new Function<String, Student>() {

            private static final long serialVersionUID = 1L;

            public Student call(String line) throws Exception {

                String[] words=line.split(" ");

                return new Student(Integer.parseInt(words[]), words[], Integer.parseInt(words[]));

            }

        });

//使用反射技术,将javaRdd转换为DataFrame，使用javabean的属性定义DataFrame的元数据

DataFrame studentDataFrame= sqlContext.createDataFrame(students, Student.class);

　　　　1.2.3　使用hiveContext.table方法将hive表中的数据装换为DataFrame

DataFrame goodStudentDF=hiveContext.table("sqark.good_student_info");

　　1.3 加载分区表的parquet文件，自动推断分区字段

//加载parquet文件为DataFrame

 DataFrame usersDF=sqlContext.read().parquet("src/main/resources/parquet/users.parquet");

/**

 * root

    |-- name: string (nullable = true)

    |-- age: long (nullable = true)

*/

usersDF.printSchema();   

/**

* 加载区别表中的数据是会自动推断分区列，
　　users.parquet只有两个字段name,age;
　　female和coutry为分区字段

*/

usersDF=sqlContext.read().parquet("src/main/resources/parquet/female=male/coutry=US/users.parquet");

/**

* root

|-- name: string (nullable = true)

|-- age: long (nullable = true)

|-- female: string (nullable = true)

|-- coutry: string (nullable = true)

*/

usersDF.printSchema();

　　1.4 合并分区

　　　　开启合并元数据的两种方式：
　　　　　　1) sqlContext.read().option("mergeSchema", "true")
　　　　　　 2) SparkConf().set("spark.sql.parquet.mergeSchema", "true")

/**

* megerschema/idandage.txt 中的内容只有id和age两个属性

* megerschema/idandname.txt 中的内容只有id和name两个属性

* 合并以后的元素为id,name,age三个属性

*/

DataFrame personDF=sqlContext.read().option("mergeSchema", "true").format("json").load("src/main/resources/megerschema");

personDF.printSchema();

2.将DataFrame进行保存到外部文件系统

//将DataFrame,默认以parquet类型进行保存，可以使用format修改保存的文件格式

personDF.write().save("src/main/resources/output/persons");

//将DataFrame使用json格式保存
personDF.write().format("json").save("src/main/resources/output/persons");

spark复习总结03的更多相关文章

【spark 深入学习 03】Spark RDD的蛮荒世界
RDD真的是一个很晦涩的词汇,他就是伯克利大学的博士们在论文中提出的一个概念,很抽象,很难懂:但是这是spark的核心概念,因此有必要spark rdd的知识点,用最简单.浅显易懂的词汇描述.不想用学 ...
spark复习笔记(1)
使用spark实现work count ---------------------------------------------------- (1)用sc.textFile(" &quo ...
spark复习笔记(7):sparkstreaming
一.介绍 1.sparkStreaming是核心模块Spark API的扩展,具有可伸缩,高吞吐量以及容错的实时数据流处理等.数据可以从许多来源(如Kafka,Flume,Kinesis或TCP套接字 ...
spark复习笔记(7):sparkSQL
一.saprkSQL模块,使用类sql的方式访问Hadoop,实现mr计算,底层使用的是rdd 1.hive //hadoop mr sql 2.phenoix //hbase上构建sql的交互过 ...
spark复习笔记(6):RDD持久化
在spark中最重要的功能之一是跨操作在内存中持久化数据集.当你持久化一个RDD的时候,每个节点都存放了一个它在内存中计算的一个分区,并在该数据集的其他操作中进行重用,持久化一个RDD的时候,节点上的 ...
spark复习笔记(6):数据倾斜
一.数据倾斜 spark数据倾斜,map阶段对key进行重新划分.大量的数据在经过hash计算之后,进入到相同的分区中,zao
spark复习笔记(4):RDD变换
一.RDD变换 1.返回执行新的rdd的指针,在rdd之间创建依赖关系.每个rdd都有一个计算函数和指向父rdd的指针 Spark是惰性的,因此除非调用某个转换或动作,否则不会执行任何操作,否则将触发 ...
spark复习笔记(5):API分析
0.spark是基于hadoop的mr模型,扩展了MR,高效实用MR模型,内存型集群计算,提高了app处理速度. 1.特点:(1)在内存中存储中间结果 (2)支持多种语言:java scala pyt ...
spark复习笔记(4):spark脚本分析
1.[start-all.sh] #!/usr/bin/env bash # # Licensed to the Apache Software Foundation (ASF) under one ...

随机推荐

分批插入数据基于mybatis
DB框架:Mybatis.DataBase:Oracle. ---------------------------------------------------------------------- ...
获取年月日格式为yyyy-m-d简单写法
方法:通过日期函数toLocaleString()获取.new Date().toLocaleString( ); //"2019/9/1 上午11:20:23" 获取年月日方法 ...
mac OS 安装 Homebrew及常用命令
Homebrew 是由国外大神 Max Howell 开发的一款包管理工具,类似Debian的apt,他可以安装任何你想安装的东西. 安装方法命令行输入 /usr/bin/ruby -e &quo ...
1.MVC的初步了解
1.MVC简单介绍 1)原理(如图)如果想更加深入了解原理,可以访问此地址(https://www.cnblogs.com/uicodeintoworld/p/8950877.html) 理解:客户端 ...
在Anaconda环境下使用Jupyter Notebook
!!!Anaconda 和 Jupyter Notebook 在 zsh 环境下不能正常使用! 启动建立的 Anaconda 环境安装 nb_conda:conda install nb_conda ...
shell 根据路径获取文件名和目录
path=/dir1/dir2/dir3/test.txt echo ${path##*/} 获取文件名 test.txtecho ${path##*.} 获取后缀 txt #不带后缀的文件名temp ...
ajax中json格式数据如何朝后端发送数据
【Flutter学习】组件通信(父子、兄弟）
一,概述 flutter一个重要的特性就是组件化.组件分为两种状态,一种是StatefulWidget有状态组件,一种是StatelessWidget无状态组件. 无状态组件不能更新状态,有状态组件具 ...
Database基础(六)：实现MySQL读写分离、MySQL性能调优
一.实现MySQL读写分离目标: 本案例要求配置2台MySQL服务器+1台代理服务器,实现MySQL代理的读写分离: 用户只需要访问MySQL代理服务器,而实际的SQL查询.写入操作交给后台的2台M ...
BZOJ 3569: DZY Loves Chinese II(线性基)
传送门解题思路首先构造出一个生成树,考虑不连接的情况.假设连通两点的非树边和树边都断掉后不连通,那么可以给所有的非树边随机一个互不相同的值,然后树边的权值为过他两端点的非树边权值的异或和,这个可以 ...

spark复习总结03

spark复习总结03的更多相关文章

随机推荐

热门专题