Spark之 RDD转换成DataFrame的Scala实现

依赖

<dependency>

    <groupId>org.apache.spark</groupId>

    <artifactId>spark-sql_2.11</artifactId>

    <version>2.1.3</version>

</dependency>

RDD转化成DataFrame:通过StructType指定schema

package com.zy.sparksql

import org.apache.spark.SparkContext

import org.apache.spark.rdd.RDD

import org.apache.spark.sql.types.{IntegerType, StringType, StructType}

import org.apache.spark.sql.{DataFrame, Row, SparkSession}

/**

  * RDD转化成DataFrame:通过StructType指定schema

  */

object StructTypeSchema {

  def main(args: Array[String]): Unit = {

    //创建sparkSession对象

    val sparkSession: SparkSession = SparkSession.builder().appName("StructTypeSchema").master("local[2]").getOrCreate()

    //获取sparkContext

    val sc: SparkContext = sparkSession.sparkContext

    //设置日志级别

    sc.setLogLevel("WARN")

    //读取文件

    val textFile: RDD[String] = sc.textFile("D:\\person.txt")

    //切分文件

    val lineArrayRDD: RDD[Array[String]] = textFile.map(_.split(","))

    //关联对象

    val rowRDD: RDD[Row] = lineArrayRDD.map(x => Row(x(0).toInt, x(1), x(2).toInt))

    //创建rdd的schema信息

    val schema: StructType = (new StructType)

      .add("id", IntegerType, true, "id")

      .add("name", StringType, false, "姓名")

      .add("age", IntegerType, true, "年龄")

    //根据rdd和schema信息创建DataFrame

    val personDF: DataFrame = sparkSession.createDataFrame(rowRDD, schema)

    //DSL操作

    personDF.show()

    //sql 操作

    //将df注册成表

    personDF.createTempView("person")

    sparkSession.sql("select * from person where id =3").show()

    sparkSession.stop()

  }

}

RDD转化成DataFrame:利用反射机制推断schema

package com.zy.sparksql

import org.apache.spark.SparkContext

import org.apache.spark.rdd.RDD

import org.apache.spark.sql.{DataFrame, SparkSession}

/**

  * RDD转化成DataFrame:利用反射机制推断schema

  */

//todo 定义一个样例类

case class Person(id: Int, name: String, age: Int)

object CaseClassSchema {

  def main(args: Array[String]): Unit = {

    //构建sparkSession 指定appName和master地址(本地测试local)

    val sparkSession: SparkSession = SparkSession.builder().appName("CaseClassSchema").master("local[2]").getOrCreate()

    //获取sparkContext

    val sc: SparkContext = sparkSession.sparkContext

    //设置日志输出级别

    sc.setLogLevel("WARN")

    //加载数据

    val dataRDD: RDD[String] = sc.textFile("D:\\person.txt")

    //切分数据

    val lineArrayRDD: RDD[Array[String]] = dataRDD.map(_.split(","))

    //将rdd和person样例类关联

    val personRDD: RDD[Person] = lineArrayRDD.map(x => Person(x(0).toInt, x(1), x(2).toInt))

    //将rdd转换成dataFrame 导入隐式转换

    import sparkSession.implicits._

    val personDF: DataFrame = personRDD.toDF

    //DSL语法

    personDF.show()

    personDF.printSchema()

    personDF.select("name").show()

    personDF.filter($"age" > 30).show()

    println("---------------------------------------------")

    //sql语法

    //首先要创建临时视图

    personDF.createTempView("person")

    sparkSession.sql("select * from person where id>1").show()

    sparkSession.stop()

  }

}

Spark之 RDD转换成DataFrame的Scala实现的更多相关文章

Spark中RDD转换成DataFrame的两种方式（分别用Java和Scala实现）
一:准备数据源在项目下新建一个student.txt文件,里面的内容为: ,zhangsan, ,lisi, ,wanger, ,fangliu, 二:实现 Java版: 1.首先新建一个s ...
RDD转换成DataFrames
官方提供了2种方法 1.利用反射来推断包含特定类型对象的RDD的schema.这种方法会简化代码并且在你已经知道schema的时候非常适用. 先创建一个bean类 case class Person( ...
spark的RDD如何转换为DataFrame
1.Dataset与RDD之间的交互 Spark仅支持两种方式来将RDD转成Dataset.第一种方式是使用反射来推断一个RDD所包含的对象的特定类型.这种基于反射的方式会让代码更加地简洁,当你在编写 ...
RDD转换成为DataFrame
方式一: 通过case class创建DataFrames(反射) TestDataFrame1.scala package com.bky // 隐式类的导入 // 定义case class,相当于 ...
python 使用csv.reader和csv.writer读写文件并转换成dataframe格式
import csv import pandas as pd ###csv.reader用法 ''' f=open(r"C:\Users\admin\pycdtest\wanyue\yuee ...
sparksql 用反射的方式将rdd转换成dataset/dataframe
java public class ReflectionDemo { private static SparkConf conf = new SparkConf().setAppName(" ...
sparksql 动态设置schema将rdd转换成dataset/dataframe
java public class DynamicDemo { private static SparkConf conf = new SparkConf().setAppName("dyn ...
Python访问MongoDB，并且转换成Dataframe
#!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/7/13 11:10 # @Author : baoshan # @Site ...
Spark SQL中 RDD 转换到 DataFrame (方法二）
强调它与方法一的区别:当DataFrame的数据结构不能够被提前定义.例如:(1)记录结构已经被编码成字符串 (2) 结构在文本文件中,可能需要为不同场景分别设计属性等以上情况出现适用于以下方法.1. ...

随机推荐

修改selinux出现setsebool: SELinux is disabled.的解决方法
1.vi /etc/vsftpd/vsftpd.conf # You may specify an explicit list of local users to chroot() to their ...
2018-10-09 可用的前端 CDN
2018-10-09 可用的前端 CDN 360 前端静态资源库 https://cdn.baomitu.com/ 新浪的前端 CDN http://lib.sinaapp.com/ 又拍云的前端库慢 ...
TCP/IP概念简述
这里所说的是广义上的TCP/IP协议群,而不是特指TCP和IP这两种具体的协议.既然是协议群,那么都有哪些协议呢?我们先不着急回答这个问题,因为要弄清楚这个问题,首先得了解另两件事,就是为啥要有这个协 ...
Python——str常用操作方法
1. 索引(即下标) s = 'ABCDEFGHIJKLMN' s1 = s[0] print('s[0] = ' + s1) #s[0] = A print('s[3] = '+ s[3]) #s[ ...
Js中常用的字符串，数组，函数扩展
由于最近辞职在家,自己的时间相对多一点.所以就根据prototytpeJS的API,结合自己正在看的司徒大神的<javascript框架设计>,整理了下Js中常用一些字符串,数组,函数扩展 ...
嵌入ARM硬核的FPGA
目前,在FPGA上嵌入ARM硬核的包括Xilinx的zynq系列以及Intel 的CYCLONEV系列. Zynq出来有一定市场,但是这个市场不是传统FPGA的主流市场,而是为了和微处理抢一些控制领域 ...
bean对grub4dos做出的巨大贡献总结
bean对grub4dos做出的巨大贡献总结 ===================================================================bean对grub4 ...
java代码---------比较随机数的大小---我搞不懂啊
总结:不习惯你在或不在的时候,赶紧走吧 package com.mmm; import java.util.Random; public class wW { public static double ...
怎样用java生成GUID与UUID
GUID是一个128位长的数字,一般用16进制表示.算法的核心思想是结合机器的网卡.当地时间.一个随机数来生成GUID.从理论上讲,如果一台机器每秒产生10000000个GUID,则可以保证(概率意义 ...
laravel 环境自编译过程
[原创] 看到此文的朋友看完后也许会失望,但我尽最大努力不让搜友们失望,以下是自己操作的笔记用以整理提高虽然 laravel 官方已给出了安装 laravel 框架所需的环境盒子使用Vagrant ...

Spark之 RDD转换成DataFrame的Scala实现

依赖

RDD转化成DataFrame:通过StructType指定schema

RDD转化成DataFrame:利用反射机制推断schema

Spark之 RDD转换成DataFrame的Scala实现的更多相关文章

随机推荐

热门专题