sparksql parquet 合并元数据

java

 public class ParquetMergeSchema {

     private static SparkConf conf = new SparkConf().setAppName("parquetmergeschema").setMaster("local");

     private static JavaSparkContext jsc = new JavaSparkContext(conf);

     private static SparkSession session = new SparkSession(jsc.sc());

     public static void main(String[] args) {

         JavaRDD<Tuple2<String, Object>> rdd1 = jsc.parallelize(

                 Arrays.asList(new Tuple2<String, Object>("jack", 21), new Tuple2<String, Object>("lucy", 20)));

         JavaRDD<Row> row1 = rdd1.map(new Function<Tuple2<String, Object>, Row>() {

             private static final long serialVersionUID = 1L;

             @Override

             public Row call(Tuple2<String, Object> v1) throws Exception {

                 return RowFactory.create(v1._1, v1._2);

             }

         });

         JavaRDD<Tuple2<String, Object>> rdd2 = jsc.parallelize(

                 Arrays.asList(new Tuple2<String, Object>("jack", "A"), new Tuple2<String, Object>("yeye", "B")));

         JavaRDD<Row> row2 = rdd2.map(new Function<Tuple2<String, Object>, Row>() {

             private static final long serialVersionUID = 1L;

             @Override

             public Row call(Tuple2<String, Object> v1) throws Exception {

                 return RowFactory.create(v1._1, v1._2);

             }

         });

         StructType schema1 = DataTypes

                 .createStructType(Arrays.asList(DataTypes.createStructField("name", DataTypes.StringType, false),

                         DataTypes.createStructField("age", DataTypes.IntegerType, false)));

         StructType schema2 = DataTypes

                 .createStructType(Arrays.asList(DataTypes.createStructField("name", DataTypes.StringType, false),

                         DataTypes.createStructField("grade", DataTypes.StringType, false)

                 ));

         // 将rdd转成dataset

         Dataset<Row> ds1 = session.createDataFrame(row1, schema1);

         Dataset<Row> ds2 = session.createDataFrame(row2, schema2);

         // 保存为parquet文件

         ds1.write().mode(SaveMode.Append).save("./src/main/java/cn/tele/spark_sql/parquet/mergetest");

         ds2.write().mode(SaveMode.Append).save("./src/main/java/cn/tele/spark_sql/parquet/mergetest");

         // 指定parquet文件的目录进行读取,设置mergeSchema为true进行合并

         Dataset<Row> dataset = session.read().option("mergeSchema", true)

                 .load("./src/main/java/cn/tele/spark_sql/parquet/mergetest");

         dataset.printSchema();

         dataset.show();

         session.stop();

         jsc.close();

     }

 }

scala

 object ParquetMergeSchema {

   def main(args: Array[String]): Unit = {

     val conf = new SparkConf().setAppName("parquetmergeschema").setMaster("local")

     val sc = new SparkContext(conf)

     val sqlContext = new SQLContext(sc)

     val rdd1 = sc.parallelize(Array(("jack", 18), ("tele", 20)), 2).map(tuple => { Row(tuple._1, tuple._2) })

     val rdd2 = sc.parallelize(Array(("tele", "A"), ("wyc", "A"), ("yeye", "C")), 2).map(tuple => { Row(tuple._1, tuple._2) })

     //schema

     val schema1 = DataTypes.createStructType(Array(

       StructField("name", DataTypes.StringType, false),

       StructField("age", DataTypes.IntegerType, false)))

     val schema2 = DataTypes.createStructType(Array(

       StructField("name", DataTypes.StringType, false),

       StructField("grade", DataTypes.StringType, false)))

     //转换

     val df1 = sqlContext.createDataFrame(rdd1, schema1)

     val df2 = sqlContext.createDataFrame(rdd2, schema2)

     //写出

     df1.write.mode(SaveMode.Append).save("./src/main/scala/cn/tele/spark_sql/parquet/mergetest")

     df2.write.mode(SaveMode.Append).save("./src/main/scala/cn/tele/spark_sql/parquet/mergetest")

     //读取进行合并

     val df = sqlContext.read.option("mergeSchema", true).parquet("./src/main/scala/cn/tele/spark_sql/parquet/mergetest")

     df.printSchema()

     df.show()

   }

 }

sparksql parquet 合并元数据的更多相关文章

parquet 合并元数据
合并元数据:两个数据集,有着一部分相同的列,将他们合并成一个数据集时merge的过程. 合并的规则:相同的列,在新的数据集中,是通用的列, 各自不同的列,也作为新的数据集的列. Spark将数据写入到 ...
39、Parquet数据源之自动分区推断&合并元数据
一.自动分区推断 1.概述表分区是一种常见的优化方式,比如Hive中就提供了表分区的特性.在一个分区表中,不同分区的数据通常存储在不同的目录中, 分区列的值通常就包含在了分区目录的目录名中.Spar ...
spark on yarn模式下配置spark-sql访问hive元数据
spark on yarn模式下配置spark-sql访问hive元数据目的:在spark on yarn模式下,执行spark-sql访问hive的元数据.并对比一下spark-sql 和hive ...
【Hadoop】namenode与secondarynamenode的checkpoint合并元数据
Checkpoint Node(检查点节点) NameNode persists its namespace using two files: fsimage, which is the latest ...
sparksql parquet 分区推断Partition Discovery
网上找的大部分资料都很旧,最后翻了下文档只找到了说明大概意思是1.6之后如果想要使用分区推断就要设置数据源的basePath,因此代码如下 java public class ParitionInf ...
sparksql json 合并json数据
java public class Demo { private static SparkConf conf = new SparkConf().setAppName("demo" ...
load、save方法、spark sql的几种数据源
load.save方法的用法 DataFrame usersDF = sqlContext.read().load("hdfs://spark1:9000/users.pa ...
【Spark篇】---SparkSQL初始和创建DataFrame的几种方式
一.前述 1.SparkSQL介绍 Hive是Shark的前身,Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制. SparkSQL支持查询原 ...
【Spark-SQL学习之二】 SparkSQL DataFrame创建和储存
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark ...

随机推荐

【例题 7-6 UVA - 140】Bandwidth
[链接] 我是链接,点我呀:) [题意] 在这里输入题意 [题解] 暴力做就好. O(8!*26^2) [代码] /* 1.Shoud it use long long ? 2.Have you ev ...
[React Intl] Use Webpack to Conditionally Include an Intl Polyfill for Older Browsers
Some browsers, such as Safari < 10 & IE < 11, do not support the JavaScript Internationali ...
学习redis--安装(二)
安装前准备,我是在虚拟机中安装centos,然后安装redis. 安装 1.安装VMware,并安转centos系统 2.将redis的压缩包,上传到linux系统中(将下载到pc中的文件,拖到cen ...
使用DNSCrypt解决Dropbox污染问题
作者:半点闲时间:2014-6-27 18:27 博客:blog.csdn.net/cg_i 邮箱:b_dx@sohu.com 背景知识:防火长城(GFW) keyword:DNSCrypt ...
22、在Ubuntu 14.0上使用韦东山IP2977测试总结（未成功）
1. 去www.kernel.org下载同版本的内核(与Ubuntu 14.0) 解压后把drivers/media/video/uvc目录取出(发现我的3.13版本的在drivers\media\u ...
【b702】字符串的展开
Time Limit: 1 second Memory Limit: 50 MB [问题描述] 在初赛普及组的"阅读程序写结果"的问题中,我们曾给出一个字符串展开的例子:如果在输入 ...
利用IIdentify接口实现点选和矩形选择要素
duckweeds 原文利用IIdentify接口实现点选和矩形选择要素 Identify接口定义了获得要素图层单个要素的属性的捷径方法.它有一个Identify方法,返回一个IArray数组对象. ...
MHA 一主两从搭建-脚本VIP-自动切换
环境介绍:主机名 IP MHA角色 MySQL角色node1 192.168.56.26 Node MySQL Master node2 192.168.56.27 Node MySQL Master ...
copy 和 MutableCopy
1:copy拷贝得到的对象都是不可变对象,MutableCopy拷贝得到的对象都是可变对象.MutableCopy拷贝得到的对象都是新的对象,会重新分配内存地址,而copy拷贝的对象既可以是新对象,也 ...
FAST特征点检测&&KeyPoint类
FAST特征点检测算法由E.Rosten和T.Drummond在2006年在其论文"Machine Learning for High-speed Corner Detection" ...

sparksql parquet 合并元数据

sparksql parquet 合并元数据的更多相关文章

随机推荐

热门专题