spark-sql集合的“条件过滤”，“合并”，“动态类型映射DataFrame”，“存储”

  List<String> basicList = new ArrayList<String>();

        basicList.add("{\"name\": \"zzq\",\"age\": 15}");

        basicList.add("{\"name\": \"zzq1\",\"age\": 25}");

        basicList.add("{\"name\": \"zzq2\",\"age\": 35}");

        List<String> scoreList = new ArrayList<String>();

        scoreList.add("{\"name\": \"zzq\",\"sex\": \"男\",\"score\": 110}");

        scoreList.add("{\"name\": \"zzq1\",\"sex\": \"女\",\"score\": 90}");

        scoreList.add("{\"name\": \"zzq2\",\"sex\": \"男\",\"score\": 70}");

        SparkConf sparkConf = new SparkConf()

                .setAppName("StudentsScore")

                .setMaster("local");

        JavaSparkContext javaSparkContext = new JavaSparkContext(sparkConf);

        SQLContext sqlContext = new SQLContext(javaSparkContext);

        JavaRDD<String> rdd_basicList = javaSparkContext.parallelize(basicList);

        JavaRDD<String> rdd_scoreList = javaSparkContext.parallelize(scoreList);

        DataFrame df_scoreList = sqlContext.read().json(rdd_scoreList);

        JavaRDD<Row> rdd_filter_score = df_scoreList.filter(df_scoreList.col("score").geq(90)).javaRDD();

        //Pair默认返回一个Tuple2，如果更多属性值的话可以在第二个参数下使用TupleX，例子如下

        JavaPairRDD<String, Tuple2<String, Long>> rdd_pair_score = rdd_filter_score.mapToPair(new PairFunction<Row, String, Tuple2<String, Long>>() {

            @Override

            public Tuple2<String, Tuple2<String, Long>> call(Row row) throws Exception {

                return new Tuple2<String, Tuple2<String, Long>>(row.getString(0), new Tuple2<String, Long>(row.getString(2), row.getLong(1)));

            }

        });

        DataFrame df_basicList = sqlContext.read().json(rdd_basicList);

        df_basicList.registerTempTable("df_basicList_table");

        StringBuilder sqlStrB = new StringBuilder();

        sqlStrB.append("select name,age from df_basicList_table where name in ( ");

        List<Tuple2<String, Tuple2<String, Long>>> local_rdd_pair_score = rdd_pair_score.collect();

        Iterator<Tuple2<String, Tuple2<String, Long>>> itr = local_rdd_pair_score.iterator();

        for (; itr.hasNext(); ) {

            Tuple2<String, Tuple2<String, Long>> currItem = itr.next();

            sqlStrB.append("\"");

            sqlStrB.append(currItem._1());

            sqlStrB.append("\"");

            if (itr.hasNext())

                sqlStrB.append(",");

        }

        sqlStrB.append(" ) ");

        DataFrame df_filter_basicList = sqlContext.sql(sqlStrB.toString());

        JavaRDD<Row> rdd_filter_basic = df_filter_basicList.javaRDD();

        JavaPairRDD<String, Long> rdd_pair_basic = rdd_filter_basic.mapToPair(new PairFunction<Row, String, Long>() {

            @Override

            public Tuple2<String, Long> call(Row row) throws Exception {

                return new Tuple2<String, Long>(row.getString(0), row.getLong(1));

            }

        });

        JavaPairRDD<String, Tuple2<Tuple2<String, Long>, Long>> all_studentsInfo = rdd_pair_score.join(rdd_pair_basic);

        //存储-------------------------------start----------------------------------

        JavaRDD<Row> row_all_studentsInfo = all_studentsInfo.map(new Function<Tuple2<String, Tuple2<Tuple2<String, Long>, Long>>, Row>() {

            @Override

            public Row call(Tuple2<String, Tuple2<Tuple2<String, Long>, Long>> v1) throws Exception {

                return RowFactory.create(v1._1(), v1._2()._1()._1(), v1._2()._1()._2(), v1._2()._2());

            }

        });

        List<StructField> fieldList = new ArrayList<StructField>();

        fieldList.add(DataTypes.createStructField("name", DataTypes.StringType, true));

        fieldList.add(DataTypes.createStructField("sex", DataTypes.StringType, true));

        fieldList.add(DataTypes.createStructField("score", DataTypes.LongType, true));

        fieldList.add(DataTypes.createStructField("age", DataTypes.LongType, true));

        StructType temp = DataTypes.createStructType(fieldList);

        DataFrame df_save = sqlContext.createDataFrame(row_all_studentsInfo, temp);

        df_save.write().save("hdfs://xxxx..........parquet");//将文件存储

        //存储-------------------------------end----------------------------------

        all_studentsInfo.foreach(new VoidFunction<Tuple2<String, Tuple2<Tuple2<String, Long>, Long>>>() {

            @Override

            public void call(Tuple2<String, Tuple2<Tuple2<String, Long>, Long>> stringTuple2Tuple2) throws Exception {

                System.out.println(">>>>>>>>>>>>" + stringTuple2Tuple2._1() + "  -- " + stringTuple2Tuple2._2()._1()._1() + "  --  " + stringTuple2Tuple2._2()._1()._2() + "  --  " + stringTuple2Tuple2._2()._2());

            }

        });

spark-sql集合的“条件过滤”，“合并”，“动态类型映射DataFrame”，“存储”的更多相关文章

PL/SQL集合（一）：记录类型（TYPE 类型名称 IS RECORD）
记录类型利用记录类型可以实现复合数据类型的定义: 记录类型允许嵌套: 可以直接利用记录类型更新数据. 传统操作的问题对于Oracle数据类型,主要使用的是VARCHAR2.NUMBER.DATE等 ...
大数据技术之_19_Spark学习_03_Spark SQL 应用解析 + Spark SQL 概述、解析、数据源、实战 + 执行 Spark SQL 查询 + JDBC/ODBC 服务器
第1章 Spark SQL 概述1.1 什么是 Spark SQL1.2 RDD vs DataFrames vs DataSet1.2.1 RDD1.2.2 DataFrame1.2.3 DataS ...
Spark 官方文档（5）——Spark SQL，DataFrames和Datasets 指南
Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完 ...
平易近人、兼容并蓄——Spark SQL 1.3.0概览
自2013年3月面世以来,Spark SQL已经成为除Spark Core以外最大的Spark组件.除了接过Shark的接力棒,继续为Spark用户提供高性能的SQL on Hadoop解决方案之外, ...
【转载】Spark SQL 1.3.0 DataFrame介绍、使用
http://www.aboutyun.com/forum.php?mod=viewthread&tid=12358&page=1 1.DataFrame是什么?2.如何创建DataF ...
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession ...
[转] Spark sql 内置配置（V2.2）
[From] https://blog.csdn.net/u010990043/article/details/82842995 最近整理了一下spark SQL内置配.加粗配置项是对sparkSQL ...
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession ...
Spark SQL 官方文档-中文翻译
Spark SQL 官方文档-中文翻译 Spark版本:Spark 1.5.2 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 Data ...

随机推荐

android4.2 telephone应用层分析
InCallScreen.java 复制通话界面的显示和提供人机交互的接口.进入该界面第一个调用ONCreate.否则进入OnNewIntent,该配置文件是incall_screen.xml,当中i ...
使用phpstorm进行PHP断点调试
PHP开发中都说一个会偷懒的程序员才是合格的程序员,在PHP开发中调试是必须要有的,可能要重复很多次的去调试,一次又一次,今天我们就来教教大家如何偷懒的,那么就来讲讲使用phpstorm进行偷懒吧! ...
Git Flow 分支管理简述
概述 Git 是什么 Git 是一个开源的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项目. Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的 ...
论如何优雅的自定义ThreadPoolExecutor线程池
更好的markDown阅读体验可直接访问我的CSDN博客:https://blog.csdn.net/u012881584/article/details/85221635 前言线程池想必大家也都用 ...
js常用加解密函数汇总
1. JS自定义加密解密函数,及用法 function compile(code) { )+code.length); ;i<code.length;i++){ c+=String.fromCh ...
Android中APK签名工具之jarsigner和apksigner详解
一.工具介绍 jarsigner是JDK提供的针对jar包签名的通用工具, 位于JDK/bin/jarsigner.exe apksigner是Google官方提供的针对Android apk签名及验 ...
如何配置JVM系统属性及获取方式System.getProperty("pname")
https://www.cnblogs.com/keyi/p/7721893.html
Android Studio项目导入aar包报错
最近在试着接入TrPay的sdk,根据它家文档需要导入它们的aar包(paysdk-release-1.2.2.aar). 在AS中怎么给安卓项目导入aar包,网上搜一下就能看到无非也就下面三步: 1 ...
链路追踪工具之Zipkin学习小记
(接触了Zipkin,权将所了解或理解的记于此,以备忘) 分布式追踪系统随着业务发展,系统拆分多个微服务.此时对于一个前端请求可能需要调用多个后端端服务才能完成,当整个请求变慢或不可用时,我们是无法 ...
Hive学习笔记——安装和内部表CRUD
1.首先需要安装Hadoop和Hive 安装的时候参考 http://blog.csdn.net/jdplus/article/details/46493553 安装的版本是apache-hive-2 ...

spark-sql集合的“条件过滤”，“合并”，“动态类型映射DataFrame”，“存储”

spark-sql集合的“条件过滤”，“合并”，“动态类型映射DataFrame”，“存储”的更多相关文章

随机推荐

热门专题