sparksql parquet 分区推断Partition Discovery

网上找的大部分资料都很旧,最后翻了下文档只找到了说明

大概意思是1.6之后如果想要使用分区推断就要设置数据源的basePath,因此代码如下

java

 public class ParitionInfer {

     private static SparkConf conf = new SparkConf().setAppName("partitioninfer");

     private static JavaSparkContext jsc = new JavaSparkContext(conf);

     private static SparkSession session = new SparkSession(jsc.sc());

     public static void main(String[] args) {

         // 加载数据源

         Dataset<Row> dataset = session.read().option("basePath", "hdfs://hadoop002:9000/spark_sql/users/")

                 .parquet("hdfs://hadoop002:9000/spark_sql/users/gender=male/country=us/users.parquet");

         dataset.printSchema();

         dataset.show();

         session.stop();

         jsc.close();

     }

 }

(注意basePath与实际的parquet文件的路径,basePath是分区推断列之前的路径)

scala

 object PartitionInfer {

   def main(args: Array[String]): Unit = {

     val conf = new SparkConf().setAppName("partitioninfer").setMaster("local")

     val sc = new SparkContext(conf)

     val sqlContext = new SQLContext(sc)

     val df = sqlContext.read.option("basePath", "f:/").parquet("f:/gender=male/country=us/users.parquet")

     df.printSchema()

     df.show()

   }

 }

scala的版本用的本地路径,测试发现依然可以实现分区推断

sparksql parquet 分区推断Partition Discovery的更多相关文章

39、Parquet数据源之自动分区推断&合并元数据
一.自动分区推断 1.概述表分区是一种常见的优化方式,比如Hive中就提供了表分区的特性.在一个分区表中,不同分区的数据通常存储在不同的目录中, 分区列的值通常就包含在了分区目录的目录名中.Spar ...
分区函数Partition By的与row_number()的用法以及与排序rank()的用法详解(获取分组(分区)中前几条记录)
partition by关键字是分析性函数的一部分,它和聚合函数不同的地方在于它能返回一个分组中的多条记录,而聚合函数一般只有一条反映统计值的记录,partition by用于给结果集分组,如果没有指 ...
Azure CosmosDB (7) 分区键Partition Key
<Windows Azure Platform 系列文章目录> Azure Cosmos DB使用分区键(Partition Key),来对数据进行水平缩放(Horizon Scale), ...
深入解析MySQL分区（Partition）功能
自5.1开始对分区(Partition)有支持 = 水平分区(根据列属性按行分)= 举个简单例子:一个包含十年发票记录的表可以被分区为十个不同的分区,每个分区包含的是其中一年的记录. === 水平分区 ...
mysql分区（partition）
1)按范分区(range) partition by range(Year(birthday))( partition p0 values less than 1960, partition p1 v ...
hive分区（partition）
网上有篇关于hive的partition的使用讲解的比较好,转载了:一.背景1.在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作.有时候只需要扫描表中关心的一部分数据, ...
hive分区partition（动态和静态分区混合使用; partition的简介）
分区是hive存放数据的一种方式.将列值作为目录来存放数据,就是一个分区.这样where中给出列值时,只需根据列值直接扫描对应目录下的数据,不扫面其他不关心的分区,快速定位,查询节省大量时间.分动态和 ...
Oracle12c中分区（Partition）新特性之TRUNCATEPARTITION和EXCHANGE PARTITION级联功能
TRUNCATE [SUB]PARTITION和EXCHANGE [SUB]PARTITION命令如今可以包括CASCADE子句,从而允许参照分区表向下级联这些操作.为确保该选项正常,相关外键也必须包 ...
MYSQL之水平分区----MySQL partition分区I（5.1）
一. 分区的概念二. 为什么使用分区?(优点) 三. 分区类型四. 子分区五. 对分区进行修改(增加.删除.分解.合并) 六 ...

随机推荐

iOS中学会如何对sqlite3 进行封装
#waring ---(看官注意) ---使用说明: ①在创建自定义model类之前让该类继承自文件中的Model类, ②为model类选一个NSString属性作为主键:(既,在初始化方法里面将从父 ...
Flume Sink Processors官网剖析（博主推荐）
不多说,直接上干货! Flume Sources官网剖析(博主推荐) Flume Channels官网剖析(博主推荐) Flume Channel Selectors官网剖析(博主推荐) Flume ...
SSH进阶（2）——用Struts拦截器实现登陆限制
拦截器从字面意思来看就是限制.限制用户訪问某些网页.在Action提出请求之前用拦截器来做权限设置,让符合的用户跳入对应的界面中.近期做的一个商城项目中就用到了自己定义的拦截器,实现了一个简单的ses ...
C#基础数据类型与字节数组（内存中的数据格式）相互转换（BitConverter 类）
在某种通讯协议中(如 Modbus),可能需要把一些基本的数据类型内存中的表示形式转换成以字节数组的形式,方便传送.C/C++中可以利用指针等操作完成,但C#中没有指针,咋办呢?可以用BitCon ...
html doctype作用
简单介绍下html页面中DOCTYPE声明的作用: <!doctype html>告诉浏览器是使用标准模式还是怪异模式渲染页面. 1.为html页面添加了doctype,则浏览器在stan ...
(转)iptables详细教程：基础、架构、清空规则、追加规则、应用实例
转自:http://lesca.me/archives/iptables-tutorial-structures-configuratios-examples.html iptables防火墙可以用于 ...
Java反射机制的简单应用
一直感觉java的反射机制非常强大,可是可用的地方不多.在android学习的时候.一直想实现挂断电话的功能,可是系统并没有提供开放的api接口,看了一下网上使用反射机制来实现该功能,确实非常强大,非 ...
php课程 8-29 gd库能够画哪些东西
php课程 8-29 gd库能够画哪些东西一.总结一句话总结:文字,点,线,圆,弧线,矩形,各种形状都是可以的,和html5中的canva能画的东西很像,使用也很像,参数怎么记呢,参数完全不用记, ...
5、linux下应用字符串相关调用函数列举说明
1.函数原型int strcmp(const char *s1,const char *s2);设这两个字符串为s1,s2,规则当s1<s2时,返回为负数当s1=s2时,返回值= 0当s1> ...
Pandoc —— 标记语言转换工具（中文乱码问题）
今次毕业设计,来个逼格高的,用 latex 编写.谁曾想,学院首先要收一份 word 版的.辣么多的 latex 公式如何转呀. Pandoc 是由 John MacFarlane 开发的标记语言转换 ...

sparksql parquet 分区推断Partition Discovery

sparksql parquet 分区推断Partition Discovery的更多相关文章

随机推荐

热门专题