40、JSON数据源综合案例实战

一、JSON数据源综合案例实战

1、概述

Spark SQL可以自动推断JSON文件的元数据，并且加载其数据，创建一个DataFrame。可以使用SQLContext.read.json()方法，针对一个元素类型为String的RDD，或者是一个JSON文件。

但是要注意的是，这里使用的JSON文件与传统意义上的JSON文件是不一样的。每行都必须，也只能包含一个，单独的，自包含的，有效的JSON对象。不能让一个JSON对象分散在多行。否则会报错。

###

综合性复杂案例：查询成绩为80分以上的学生的基本信息与成绩信息

students.json

{"name":"Leo", "score":85}

{"name":"Marry", "score":99}

{"name":"Jack", "score":74}

2、java案例实现

package cn.spark.study.sql;

import java.util.ArrayList;

import java.util.List;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaPairRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.api.java.function.PairFunction;

import org.apache.spark.sql.DataFrame;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.RowFactory;

import org.apache.spark.sql.SQLContext;

import org.apache.spark.sql.types.DataTypes;

import org.apache.spark.sql.types.StructField;

import org.apache.spark.sql.types.StructType;

import scala.Tuple2;

/**

 * JSON数据源

 * @author Administrator

 *

 */

public class JSONDataSource {

    public static void main(String[] args) {

        SparkConf conf = new SparkConf()

                .setAppName("JSONDataSource");

        JavaSparkContext sc = new JavaSparkContext(conf);

        SQLContext sqlContext = new SQLContext(sc);

        // 针对json文件，创建DataFrame（针对json文件创建DataFrame）

        DataFrame studentScoresDF = sqlContext.read().json(

                "hdfs://spark1:9000/spark-study/students.json");  

        // 针对学生成绩信息的DataFrame，注册临时表，查询分数大于80分的学生的姓名

        // （注册临时表，针对临时表执行sql语句）

        studentScoresDF.registerTempTable("student_scores");

        DataFrame goodStudentScoresDF = sqlContext.sql(

                "select name,score from student_scores where score>=80");

        // （将DataFrame转换为rdd，执行transformation操作）

        List<String> goodStudentNames = goodStudentScoresDF.javaRDD().map(

                new Function<Row, String>() {

                    private static final long serialVersionUID = 1L;

                    @Override

                    public String call(Row row) throws Exception {

                        return row.getString(0);

                    }

                }).collect();

        // 然后针对JavaRDD<String>，创建DataFrame

        // （针对包含json串的JavaRDD，创建DataFrame）

        List<String> studentInfoJSONs = new ArrayList<String>();

        studentInfoJSONs.add("{\"name\":\"Leo\", \"age\":18}");

        studentInfoJSONs.add("{\"name\":\"Marry\", \"age\":17}");

        studentInfoJSONs.add("{\"name\":\"Jack\", \"age\":19}");

        JavaRDD<String> studentInfoJSONsRDD = sc.parallelize(studentInfoJSONs);

        DataFrame studentInfosDF = sqlContext.read().json(studentInfoJSONsRDD);

        // 针对学生基本信息DataFrame，注册临时表，然后查询分数大于80分的学生的基本信息

        studentInfosDF.registerTempTable("student_infos");  

        String sql = "select name,age from student_infos where name in (";

        for(int i = 0; i < goodStudentNames.size(); i++) {

            sql += "'" + goodStudentNames.get(i) + "'";

            if(i < goodStudentNames.size() - 1) {

                sql += ",";

            }

        }

        sql += ")";

        DataFrame goodStudentInfosDF = sqlContext.sql(sql);

        // 然后将两份数据的DataFrame，转换为JavaPairRDD，执行join transformation

        // （将DataFrame转换为JavaRDD，再map为JavaPairRDD，然后进行join）

        JavaPairRDD<String, Tuple2<Integer, Integer>> goodStudentsRDD = 

                goodStudentScoresDF.javaRDD().mapToPair(new PairFunction<Row, String, Integer>() {

                    private static final long serialVersionUID = 1L;

                    @Override

                    public Tuple2<String, Integer> call(Row row) throws Exception {

                        return new Tuple2<String, Integer>(row.getString(0),

                                Integer.valueOf(String.valueOf(row.getLong(1))));

                    }

                }).join(goodStudentInfosDF.javaRDD().mapToPair(new PairFunction<Row, String, Integer>() {

                    private static final long serialVersionUID = 1L;

                    @Override

                    public Tuple2<String, Integer> call(Row row) throws Exception {

                        return new Tuple2<String, Integer>(row.getString(0),

                                Integer.valueOf(String.valueOf(row.getLong(1))));

                    }

                }));

        // 然后将封装在RDD中的好学生的全部信息，转换为一个JavaRDD<Row>的格式

        // （将JavaRDD，转换为DataFrame）

        JavaRDD<Row> goodStudentRowsRDD = goodStudentsRDD.map(

                new Function<Tuple2<String,Tuple2<Integer,Integer>>, Row>() {

                    private static final long serialVersionUID = 1L;

                    @Override

                    public Row call(

                            Tuple2<String, Tuple2<Integer, Integer>> tuple)

                            throws Exception {

                        return RowFactory.create(tuple._1, tuple._2._1, tuple._2._2);

                    }

                });

        // 创建一份元数据，将JavaRDD<Row>转换为DataFrame

        List<StructField> structFields = new ArrayList<StructField>();

        structFields.add(DataTypes.createStructField("name", DataTypes.StringType, true));

        structFields.add(DataTypes.createStructField("score", DataTypes.IntegerType, true));

        structFields.add(DataTypes.createStructField("age", DataTypes.IntegerType, true));

        StructType structType = DataTypes.createStructType(structFields);

        DataFrame goodStudentsDF = sqlContext.createDataFrame(goodStudentRowsRDD, structType);

        // 将好学生的全部信息保存到一个json文件中去

        // （将DataFrame中的数据保存到外部的json文件中去）

        goodStudentsDF.write().format("json").save("hdfs://spark1:9000/spark-study/good-students");

    }

}

####

students.json

{"name":"Leo", "score":85}

{"name":"Marry", "score":99}

{"name":"Jack", "score":74}

3、scala案例实现

package cn.spark.study.sql

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.sql.SQLContext

import org.apache.spark.sql.types.StructType

import org.apache.spark.sql.types.StructField

import org.apache.spark.sql.types.StringType

import org.apache.spark.sql.types.IntegerType

import org.apache.spark.sql.Row

import org.apache.spark.sql.types.LongType

/**

 * @author Administrator

 */

object JSONDataSource {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf()

        .setAppName("JSONDataSource")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)

    // 创建学生成绩DataFrame

    val studentScoresDF = sqlContext.read.json("hdfs://spark1:9000/spark-study/students.json")

    // 查询出分数大于80分的学生成绩信息，以及学生姓名

    studentScoresDF.registerTempTable("student_scores")

    val goodStudentScoresDF = sqlContext.sql("select name,score from student_scores where score>=80")

    val goodStudentNames = goodStudentScoresDF.rdd.map { row => row(0) }.collect()  

    // 创建学生基本信息DataFrame

    val studentInfoJSONs = Array("{\"name\":\"Leo\", \"age\":18}",

        "{\"name\":\"Marry\", \"age\":17}",

        "{\"name\":\"Jack\", \"age\":19}")

    val studentInfoJSONsRDD = sc.parallelize(studentInfoJSONs, 3);

    val studentInfosDF = sqlContext.read.json(studentInfoJSONsRDD)  

    // 查询分数大于80分的学生的基本信息

    studentInfosDF.registerTempTable("student_infos")

    var sql = "select name,age from student_infos where name in ("

    for(i <- 0 until goodStudentNames.length) {

      sql += "'" + goodStudentNames(i) + "'"

      if(i < goodStudentNames.length - 1) {

        sql += ","

      }

    }

    sql += ")"  

    val goodStudentInfosDF = sqlContext.sql(sql)

    // 将分数大于80分的学生的成绩信息与基本信息进行join

    val goodStudentsRDD =

        goodStudentScoresDF.rdd.map { row => (row.getAs[String]("name"), row.getAs[Long]("score")) }

            .join(goodStudentInfosDF.rdd.map { row => (row.getAs[String]("name"), row.getAs[Long]("age")) })  

    // 将rdd转换为dataframe

    val goodStudentRowsRDD = goodStudentsRDD.map(

        info => Row(info._1, info._2._1.toInt, info._2._2.toInt))  

    val structType = StructType(Array(

        StructField("name", StringType, true),

        StructField("score", IntegerType, true),

        StructField("age", IntegerType, true)))  

    val goodStudentsDF = sqlContext.createDataFrame(goodStudentRowsRDD, structType)  

    // 将dataframe中的数据保存到json中

    goodStudentsDF.write.format("json").save("hdfs://spark1:9000/spark-study/good-students-scala")

  }

}

40、JSON数据源综合案例实战的更多相关文章

（升级版）Spark从入门到精通（Scala编程、案例实战、高级特性、Spark内核源码剖析、Hadoop高端）
本课程主要讲解目前大数据领域最热门.最火爆.最有前景的技术——Spark.在本课程中,会从浅入深,基于大量案例实战,深度剖析和讲解Spark,并且会包含完全从企业真实复杂业务需求中抽取出的案例实战.课 ...
数据仓库009 - SQL命令实战 - where GROUP BY join 部门综合案例
一.where条件 WHERE 子句中主要的运算符,可以在 WHERE 子句中使用,如下表: 运算符描述 = 等于 <> 不等于.注释:在 SQL 的一些版本中,该操作符可被写成 != ...
5. vue常用高阶函数及综合案例
一. 常用的数组的高阶函数假设, 现在有一个数组, 我们要对数组做如下一些列操作 1. 找出小于100的数字: 2. 将小于100的数字, 全部乘以2: 3. 在2的基础上, 对所有数求和: 通常我 ...
java设计模式综合项目实战视频教程
java设计模式综合项目实战视频教程视频课程目录如下: 第01节课:本课程整体内容介绍:X-gen系统概况,包括:引入.X-gen项目背景.X-gen的HelloWorld第02节课:X-gen整体 ...
15套java架构师大型分布式综合项目实战、千万高并发-视频教程
* { font-family: "Microsoft YaHei" !important } h1 { color: #FF0 } 15套java架构师.集群.高可用.高可扩展 ...
jquery-easyUI第二篇【综合案例】
基于easyUI开发的一个综合案例模版 <%@ page language="java" pageEncoding="UTF-8"%> <!D ...
kafka关于修改副本数和分区的数的案例实战（也可用作leader节点均衡案例）
kafka关于修改副本数和分区的数的案例实战(也可用作leader节点均衡案例) 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.关于topic分区数的修改 1>.创建1分 ...
Ext.js入门：常用组件与综合案例（七）
一:datefield简单示例二:timefield简单示例三:numberfield简单示例四:FormPanel提交 datefield简单示例: <html xmlns=&quo ...
Java------------JVM（Java虚拟机）优化大全和案例实战
JVM(Java虚拟机)优化大全和案例实战堆内存设置原理 JVM堆内存分为2块:Permanent Space 和 Heap Space. Permanent 即持久代(Permanent Ge ...

随机推荐

UOJ46 清华集训2014玄学（线段树）
注意到操作有结合律,容易想到用一个矩形表示第i次操作对第j个位置的数的影响.那么修改是单行内的区间修改,而查询是单列内的区间查询.这样二维线段树上以列为外层行为内层直接打标记就可以维护.然后就喜闻乐见 ...
docker 执行 docker system prune 导致Azure Devops build镜像失败
运行docker的centos上, 只分配了16G的空间, 装了个mysql, 还有个rancher, 就只剩下2G的空间了, Azure Devops build镜像就出错了, 显示存储空间不足, ...
【BZOJ 2351】Matrix（Hash）
题目链接二维\(Hash\)类似二维前缀和,每一行看成一个\(h\)进制数,每一个以(1,1)为左上角的矩阵看成一个由每一行的\(Hash\)值组成的\(l\)进制数. 然后自己推推柿子就行. #i ...
Ubuntu 18.04 LTS版本 GIMP安装
为何安装? GIMP全称GNU Image Manipulation Program,是Linux下的一款图片处理软件,功能基本完备,用户体验不错. 如何安装? 命令:sudo apt install ...
前端以及django零碎补充
前端 1. js的循环each 前端需要循环,可以借助each这个方法 var dic = {'key1':'value1','key2':'value2'}; ']; //each(变量, 方法) ...
Jmeter学习笔记（十三）——xpath断言
1.什么是XPath断言 XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言.XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力. Ap ...
内存域水印值：min_free_kbytes
1.内存域水印值:需要为关键性分配保留的内存空间的最小值:该值保存在全局变量min_free_kbytes中 2.内存域水印值的计算由函数init_per_zone_pages_min完成: /* * ...
layui 单选框、复选框、下拉菜单不显示问题记录
1. 如果是 ajax嵌套了页面, 请确保只有最外层的页面引入了 layui.css 和 layui.js 内层页面切记不要再次引入 2. layui.use(['form', 'upload ...
空指针异常：解决 RequestContextHolder.getRequestAttributes()为空的问题
现象:实现Feign请求拦截器时,执行如下代码,报空指针异常 ServletRequestAttributes attributes = (ServletRequestAttributes) Requ ...
Linux中rpm命令用法
rpm -ivh 软件包名安装软件包并显示安装进度.这个是用得最多的了. rpm -qa 查询已经安装哪些软件包. rpm -q 软件包名查询指定软件包是否已经安装. rpm -Uvh 软件包名 ...

40、JSON数据源综合案例实战

40、JSON数据源综合案例实战的更多相关文章

随机推荐

热门专题