【Spark】这一篇或许能让你大概了解如何通过JavaAPI实现DataFrame的相关操作

文章目录

需求概述

步骤

一、创建Maven工程并导包
二、选用第一种方法：利用反射机制配合样例类构建DataFrame

开发代码

选用第二种方法：通过StrucType配合Row构建DataFrame

开发代码

需求概述

将RDD转换得到DataFrame，主要有两种方法：利用反射机制 和 通过编程结构与RDD进行交互。

步骤

一、创建Maven工程并导包

<properties>

    <scala.version>2.11.8</scala.version>

    <spark.version>2.2.0</spark.version>

</properties>

<dependencies>

    <dependency>

        <groupId>org.scala-lang</groupId>

        <artifactId>scala-library</artifactId>

        <version>${scala.version}</version>

    </dependency>

    <dependency>

        <groupId>org.apache.spark</groupId>

        <artifactId>spark-core_2.11</artifactId>

        <version>${spark.version}</version>

    </dependency>

    <dependency>

        <groupId>org.apache.spark</groupId>

        <artifactId>spark-sql_2.11</artifactId>

        <version>${spark.version}</version>

    </dependency>

    <dependency>

        <groupId>org.apache.hadoop</groupId>

        <artifactId>hadoop-client</artifactId>

        <version>2.7.5</version>

    </dependency>

</dependencies>

<build>

    <sourceDirectory>src/main/scala</sourceDirectory>

    <testSourceDirectory>src/test/scala</testSourceDirectory>

    <plugins>

        <plugin>

            <groupId>org.apache.maven.plugins</groupId>

            <artifactId>maven-compiler-plugin</artifactId>

            <version>3.0</version>

            <configuration>

                <source>1.8</source>

                <target>1.8</target>

                <encoding>UTF-8</encoding>

                <!--    <verbal>true</verbal>-->

            </configuration>

        </plugin>

        <plugin>

            <groupId>net.alchim31.maven</groupId>

            <artifactId>scala-maven-plugin</artifactId>

            <version>3.2.0</version>

            <executions>

                <execution>

                    <goals>

                        <goal>compile</goal>

                        <goal>testCompile</goal>

                    </goals>

                    <configuration>

                        <args>

                            <arg>-dependencyfile</arg>

                            <arg>${project.build.directory}/.scala_dependencies</arg>

                        </args>

                    </configuration>

                </execution>

            </executions>

        </plugin>

        <plugin>

            <groupId>org.apache.maven.plugins</groupId>

            <artifactId>maven-shade-plugin</artifactId>

            <version>3.1.1</version>

            <executions>

                <execution>

                    <phase>package</phase>

                    <goals>

                        <goal>shade</goal>

                    </goals>

                    <configuration>

                        <filters>

                            <filter>

                                <artifact>*:*</artifact>

                                <excludes>

                                    <exclude>META-INF/*.SF</exclude>

                                    <exclude>META-INF/*.DSA</exclude>

                                    <exclude>META-INF/*.RSA</exclude>

                                </excludes>

                            </filter>

                        </filters>

                        <transformers>

                            <transformer implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">

                                <mainClass></mainClass>

                            </transformer>

                        </transformers>

                    </configuration>

                </execution>

            </executions>

        </plugin>

    </plugins>

</build>

二、选用第一种方法：利用反射机制配合样例类构建DataFrame

开发代码

import org.apache.spark.sql.{DataFrame, SparkSession}

import org.apache.spark.SparkContext

import org.apache.spark.rdd.RDD

// 定义person case class

case class Person(id: Int,name: String,age: Int)

object SparkDF {

  def main(args: Array[String]): Unit = {

    // 获取SparkSession

    val sparkSession: SparkSession = SparkSession.builder().appName("SparkDF").master("local[2]").config("spark.driver.host", "localhost").getOrCreate()

    // 获取SparkContext

    val sparkContext: SparkContext = sparkSession.sparkContext

    // 过滤筛选日志

    sparkContext.setLogLevel("WARN")

    //读取文件

    val fileRDD: RDD[String] = sparkContext.textFile("/Users/zhaozhuang/Desktop/4、Spark/Spark第三天/Spark第三天教案/资料/person.txt")

    //按照分隔符切割数据

    val splitRDD: RDD[Array[String]] = fileRDD.map(x => x.split(" "))

    //关联person case class

    val personRDD: RDD[Person] = splitRDD.map(x => Person(x(0).toInt, x(1), x(2).toInt))

    //准备把personRDD转换成DataFrame

    //首先要导包

    import sparkSession.implicits._

    val personDF: DataFrame = personRDD.toDF()

    //todo 至此已经成功通过反射机制构建DataFrame

    /**

     * 接下来可以使用DFL语法和SQL语法验证是否构建成功

     */

    println("*******************************************DSL语法测试开始********************************************")

    //查看全表数据    show()默认展示前20条数据

    personDF.show()

    //查看指定字段数据

    personDF.select($"name",$"age").show()

    //查看schema

    personDF.printSchema()

    //过滤筛选数据

    personDF.filter($"age" > 25).show()

    println("*******************************************DSL语法测试结束********************************************")

    println("*******************************************SQL语法测试开始********************************************")

    // 将DataFrame注册为一张table，有三种方法

    //第一种 已过时

    val person1: Unit = personDF.registerTempTable("person1")

    //第二种

    val person2: Unit = personDF.createTempView("person2")

    //第三种 （推荐）

    val person3: Unit = personDF.createOrReplaceTempView("person3")

    //打印三钟表的数据

    sparkSession.sql("select * from person1").show()

    sparkSession.sql("select * from person2").show()

    sparkSession.sql("select * from person3").show()

    //实现left join操作

    sparkSession.sql("select * from person1 p1 left join person2 p2 on p1.id = p2.id").show()

    println("*******************************************SQL语法测试结束********************************************")

	sparkContext.stop()

    sparkSession.close()

  }

}

控制台结果

*******************************************DSL语法测试开始********************************************

+---+--------+---+

| id|    name|age|

+---+--------+---+

|  1|zhangsan|108|

|  2|    lisi| 28|

|  3|  wangwu| 58|

|  4| zhaoliu| 24|

|  5|   zhuqi| 35|

|  6|   qiuba| 28|

+---+--------+---+

+--------+---+

|    name|age|

+--------+---+

|zhangsan|108|

|    lisi| 28|

|  wangwu| 58|

| zhaoliu| 24|

|   zhuqi| 35|

|   qiuba| 28|

+--------+---+

root

 |-- id: integer (nullable = false)

 |-- name: string (nullable = true)

 |-- age: integer (nullable = false)

+---+--------+---+

| id|    name|age|

+---+--------+---+

|  1|zhangsan|108|

|  2|    lisi| 28|

|  3|  wangwu| 58|

|  5|   zhuqi| 35|

|  6|   qiuba| 28|

+---+--------+---+

*******************************************DSL语法测试结束********************************************

*******************************************SQL语法测试开始********************************************

+---+--------+---+

| id|    name|age|

+---+--------+---+

|  1|zhangsan|108|

|  2|    lisi| 28|

|  3|  wangwu| 58|

|  4| zhaoliu| 24|

|  5|   zhuqi| 35|

|  6|   qiuba| 28|

+---+--------+---+

+---+--------+---+

| id|    name|age|

+---+--------+---+

|  1|zhangsan|108|

|  2|    lisi| 28|

|  3|  wangwu| 58|

|  4| zhaoliu| 24|

|  5|   zhuqi| 35|

|  6|   qiuba| 28|

+---+--------+---+

+---+--------+---+

| id|    name|age|

+---+--------+---+

|  1|zhangsan|108|

|  2|    lisi| 28|

|  3|  wangwu| 58|

|  4| zhaoliu| 24|

|  5|   zhuqi| 35|

|  6|   qiuba| 28|

+---+--------+---+

+---+--------+---+---+--------+---+

| id|    name|age| id|    name|age|

+---+--------+---+---+--------+---+

|  1|zhangsan|108|  1|zhangsan|108|

|  6|   qiuba| 28|  6|   qiuba| 28|

|  3|  wangwu| 58|  3|  wangwu| 58|

|  5|   zhuqi| 35|  5|   zhuqi| 35|

|  4| zhaoliu| 24|  4| zhaoliu| 24|

|  2|    lisi| 28|  2|    lisi| 28|

+---+--------+---+---+--------+---+

*******************************************SQL语法测试结束********************************************

Process finished with exit code 0

选用第二种方法：通过StrucType配合Row构建DataFrame

开发代码

import org.apache.spark.SparkContext

import org.apache.spark.rdd.RDD

import org.apache.spark.sql.types.{IntegerType, StringType, StructType}

import org.apache.spark.sql.{DataFrame, Row, SparkSession}

object SparkDF2 {

  def main(args: Array[String]): Unit = {

    //获取SparkSession

    val sparkSession: SparkSession = SparkSession.builder().appName("saprkDF2").master("local[2]").config("spark.driver.host", "localhost").getOrCreate()

    //获取SparkContext

    val sparkContext: SparkContext = sparkSession.sparkContext

    //设置日志筛选

    sparkContext.setLogLevel("WARN")

    //读取文件

    val fileRDD: RDD[String] = sparkContext.textFile("/Users/zhaozhuang/Desktop/4、Spark/Spark第三天/Spark第三天教案/资料/person.txt")

    //对数据进行切割

    val arrayRDD: RDD[Array[String]] = fileRDD.map(x => x.split(" "))

    //将arrayRDD转换为row

    val rowRDD: RDD[Row] = arrayRDD.map(x => Row(x(0).toInt, x(1), x(2).toInt))

    //获取StructType对象

    val structType = new StructType().add("id",IntegerType).add("name",StringType).add("age",IntegerType)

    //需要两个参数 RDD[Row] 和 StructType

    val personDF: DataFrame = sparkSession.createDataFrame(rowRDD, structType)

    //接下来DSL和SQL的操作和之前相同

    personDF.printSchema()

	sparkContext.stop()

    sparkSession.close()

  }

}

控制台结果

root

 |-- id: integer (nullable = true)

 |-- name: string (nullable = true)

 |-- age: integer (nullable = true)

Process finished with exit code 0

【Spark】这一篇或许能让你大概了解如何通过JavaAPI实现DataFrame的相关操作的更多相关文章

spark第六篇：Spark Streaming Programming Guide
预览 Spark Streaming是Spark核心API的扩展,支持高扩展,高吞吐量,实时数据流的容错流处理.数据可以从Kafka,Flume或TCP socket等许多来源获取,并且可以使用复杂的 ...
spark调优篇-数据倾斜(汇总)
数据倾斜为什么会数据倾斜 spark 中的数据倾斜并不是说原始数据存在倾斜,原始数据都是一个一个的 block,大小都一样,不存在数据倾斜: 而是指 shuffle 过程中产生的数据倾斜,由于不同的 ...
鸿蒙内核源码分析(编译环境篇) | 编译鸿蒙看这篇或许真的够了 | 百篇博客分析OpenHarmony源码 | v50.06
百篇博客系列篇.本篇为: v50.xx 鸿蒙内核源码分析(编译环境篇) | 编译鸿蒙防掉坑指南 | 51.c.h.o 编译构建相关篇为: v50.xx 鸿蒙内核源码分析(编译环境篇) | 编译鸿蒙防掉 ...
Spark-读写HBase，SparkStreaming操作，Spark的HBase相关操作
Spark-读写HBase,SparkStreaming操作,Spark的HBase相关操作 1.sparkstreaming实时写入Hbase(saveAsNewAPIHadoopDataset方法 ...
《手把手教你》系列技巧篇（二十九）-java+ selenium自动化测试- Actions的相关操作上篇（详解教程）
1.简介有些测试场景或者事件,Selenium根本就没有直接提供方法去操作,而且也不可能把各种测试场景都全面覆盖提供方法去操作.比如:就像鼠标悬停,一般测试场景鼠标悬停分两种常见,一种是鼠标悬停在某 ...
《手把手教你》系列技巧篇（三十）-java+ selenium自动化测试- Actions的相关操作下篇（详解教程）
1.简介本文主要介绍两个在测试过程中可能会用到的功能:Actions类中的拖拽操作和Actions类中的划取字段操作.例如:需要在一堆log字符中随机划取一段文字,然后右键选择摘取功能. 2.拖拽操 ...
《手把手教你》系列技巧篇（三十一）-java+ selenium自动化测试- Actions的相关操作-番外篇（详解教程）
1.简介上一篇中,宏哥说的宏哥在最后提到网站的反爬虫机制,那么宏哥在自己本地做一个网页,没有那个反爬虫的机制,谷歌浏览器是不是就可以验证成功了,宏哥就想验证一下自己想法,于是写了这一篇文章,另外也是 ...
《手把手教你》系列技巧篇（三十四）-java+ selenium自动化测试-单选和多选按钮操作-中篇（详解教程）
1.简介今天这一篇宏哥主要是讲解一下,如何使用list容器来遍历单选按钮.大致两部分内容:一部分是宏哥在本地弄的一个小demo,另一部分,宏哥是利用JQueryUI网站里的单选按钮进行实战. 2.d ...
《手把手教你》系列技巧篇（三十五）-java+ selenium自动化测试-单选和多选按钮操作-下篇（详解教程）
1.简介今天这一篇宏哥主要是讲解一下,如何使用list容器来遍历多选按钮.大致两部分内容:一部分是宏哥在本地弄的一个小demo,另一部分,宏哥是利用JQueryUI网站里的多选按钮进行实战. 2.d ...

随机推荐

Thinking in Java,Fourth Edition(Java 编程思想,第四版)学习笔记(十)之Inner Classes
The inner class is a valuable feature because it allows you to group classes that logically belong t ...
pickle\json，configparser，hashlib模块
python常用模块目录 python常用模块 json模块\pickle模块 configparser模块 hashlib模块 subprocess模块 json模块\pickle模块首先说一下 ...
D - Harmonious Graph
题目大意: n个点,m条边,两个数l和r,如果l和r相连接,那么对于l和r之间值任意一个数都要和l相连.问达到这一目的需要添加的边的最小数量. 题解: 我们首先要找到当前连通块中最大的那个点,也就是说 ...
ROM定制开发教程-Android adb命令用法与实例解析
一.什么是ADB Android Debug Bridge(adb)是一个命令行工具,可让您与模拟器或连接的Android设备进行通信.您可以在android sdk / platform-tools ...
格式化启动盘win10
我这个(U盘)磁盘被分成了两个区,不能直接格式化第一步: 第二步: 删除完了之后,选择格式化,ok. 说明:格式化时要选择系统. 常规NTFS 缺点:老设备,比如打印机,监控机识别不了. FAT系 ...
Laravel异步队列全攻略
最近项目需求,研究了laravel的异步队列.官方文档虽然很是详细,但也有些晦涩难懂,在此记录下步骤,供大家参考. 1.修改/config/queue.php文件 <?php return [ ...
python爬取优美图库海量图片，附加代码，一键爬取
优美高清图片为大家提供高清美女套图赏析,非高清不录入,大家的网速要给力. 今天教大家爬取优美图库网站中高质量的图片!! 简单易上手哦~ 使用工具: Python 3.6 pycharm 相关环境: r ...
5、flink常见函数使用及自定义转换函数
代码地址:https://gitee.com/nltxwz_xxd/abc_bigdata 一.flink编程方法获取执行环境(execution environment) 加载/创建初始数据集对 ...
swoole学习--登录模块
使用swoole+thinkphp6.0+redis 结合开发的登录模块,做完之后有几点感悟: 1.不要相信任务数据,包括请求的外部接口,特别是超时者部分,尽可能的交给task完成. 2.原来可以在入 ...
20199308《Linux内核原理与分析》第十二周作业
一.实验简介竞态条件是指多个线程同时访问或者操作同一块数据,运行的结果依赖于不同线程访问数据的顺序.如果一个拥有root权限的程序存在竞态条件漏洞的话,攻击者可以通过运行一个平行线程与漏洞程序竞争, ...

【Spark】这一篇或许能让你大概了解如何通过JavaAPI实现DataFrame的相关操作

文章目录

需求概述

步骤

一、创建Maven工程并导包

二、选用第一种方法：利用反射机制配合样例类构建DataFrame

开发代码

选用第二种方法：通过StrucType配合Row构建DataFrame

开发代码

【Spark】这一篇或许能让你大概了解如何通过JavaAPI实现DataFrame的相关操作的更多相关文章

随机推荐

热门专题