spark知识点_datasources

　　来自官网DataFrames、DataSets、SQL，即sparkSQL模块。

　　通过dataframe接口，sparkSQL支持多种数据源的操作。可以把dataframe注册为临时视图，也可以通过关系转换。

　　1）默认格式是parquet，这是一种columnar（柱状的，按列的）的格式，按列存储（如Hadoop中）。

　　parquet载入后就是dataframe格式，而dataframe可以直接写出到parquet文件。

df = spark.read.load("examples/src/main/resources/users.parquet")  #默认parquet格式

df.select("name", "favorite_color").write.save("namesAndFavColors.parquet")

#可手动设置格式为json，亦可以是json, parquet, jdbc, orc, libsvm, csv, text等內建格式，如果是其他的则要写全称(i.e., org.apache.spark.sql.parquet)

df = spark.read.load("examples/src/main/resources/people.json", format="json")

df.select("name", "age").write.save("namesAndAges.parquet", format="parquet")

#可以直接在文件上执行SQL

df = spark.sql("SELECT * FROM parquet.`examples/src/main/resources/users.parquet`")

　　2）表分隔（partition）是如Hive的系统中常用的优化途径。分隔后的数据会存放在不同的目录。

　　下面的文件就是以gender和country作为分隔字段（列）的。

path

└── to

    └── table

        ├── gender=male

        │   ├── ...

        │   │

        │   ├── country=US

        │   │   └── data.parquet

        │   ├── country=CN

        │   │   └── data.parquet

        │   └── ...

        └── gender=female

            ├── ...

            │

            ├── country=US

            │   └── data.parquet

            ├── country=CN

            │   └── data.parquet

            └── ...

spark知识点_datasources的更多相关文章

Spark知识点
1.Spark架构分布式spark应用中的组件在分布式环境下,Spark集群采用的是主/从结构.在一个Spark集群中,有一个节点负责中央协调,调度各个分布式工作节点.这个中央协调节点被称为驱动器 ...
spark知识点_RDD
来自官网的Spark Programming Guide,包括个人理解的东西. 这里有一个疑惑点,pyspark是否支持Python内置函数(list.tuple.dictionary相关操作)?思考 ...
Spark知识点小结
函数在driver端定义.在executor端被调用执行
大数据核心知识点：Hbase、Spark、Hive、MapReduce概念理解，特点及机制
今天,上海尚学堂大数据培训班毕业的一位学生去参加易普软件公司面试,应聘的职位是大数据开发.面试官问了他10个问题,主要集中在Hbase.Spark.Hive和MapReduce上,基础概念.特点.应用 ...
大数据学习day19-----spark02-------0 零碎知识点（分区，分区和分区器的区别） 1. RDD的使用（RDD的概念，特点，创建rdd的方式以及常见rdd的算子） 2.Spark中的一些重要概念
0. 零碎概念 (1) 这个有点疑惑,有可能是错误的. (2) 此处就算地址写错了也不会报错,因为此操作只是读取数据的操作(元数据),表示从此地址读取数据但并没有进行读取数据的操作 (3)分区(有时间 ...
Spark MLlib知识点学习整理
MLlib的设计原理:把数据以RDD的形式表示,然后在分布式数据集上调用各种算法.MLlib就是RDD上一系列可供调用的函数的集合. 操作步骤: 1.用字符串RDD来表示信息. 2.运行MLlib中的 ...
Spark Core知识点复习-1
Day1111 Spark任务调度 Spark几个重要组件 Spark Core RDD的概念和特性生成RDD的两种类型 RDD算子的两种类型算子练习分区 RDD的依赖关系 DAG:有向无环图 ...
Spark Core知识点复习-2
day1112 1.spark core复习任务提交缓存 checkPoint 自定义排序自定义分区器自定义累加器广播变量 Spark Shuffle过程 SparkSQL 一. Spark ...
知识点-Spark小节
Spark处理字符串日期的max和min的方式Spark处理数据存储到Hive的方式Spark处理新增列的方式map和udf.functionsSpark处理行转列pivot的使用Python 3.5 ...

随机推荐

PHP代码审计分段讲解（14）
30题利用提交数组绕过逻辑本篇博客是PHP代码审计分段讲解系列题解的最后一篇,对于我这个懒癌患者来说,很多事情知易行难,坚持下去,继续学习和提高自己. 源码如下: <?php $role = ...
HBase的基本使用(安装配置、启动关闭、hbash shell的基本操作、phoenix、实战)
HBase的前提条件: JDK SSH Hadoop JDK:Hadoop和JDK运行的环境,他们的守护进程运行在JVM下.HBase支持JDK 1.6以上的版本.比如: jdk-8u161-linu ...
影评网站Alpha版本-测试与发布
影评网站Alpha版本-测试与发布项目发布地址: http://120.78.161.21:8080/zhiying/ (建议使用Chrome或火狐浏览器打开,其他浏览器可能加载失败一.Alpha ...
Jwt令牌创建
添加依赖 <dependencies>  <dependency> <groupId>io.jsonwebtoken</g ...
深入浅出java的Map
HashMap的组成首先了解数组和链表两个数据结构 1.数组寻址容易,插入和删除元素困难数组由于是紧凑连续存储,可以随机访问,通过索引快速找到对应元素,而且相对节约存储空间. 但正因为连续存储, ...
2020-2021-1 20209307 《Linux内核原理与分析》第八周作业
这个作业属于哪个课程 <2020-2021-1Linux内核原理与分析)> 这个作业要求在哪里 <2020-2021-1Linux内核原理与分析第八周作业> 这个作业的目标 & ...
Go实现ssh执行远端命令及远程终端
什么是ssh? SSH是一种网络协议,用于计算机之间的加密登录. 如果一个用户从本地计算机,使用SSH协议登录另一台远程计算机,我们就可以认为,这种登录是安全的,即使被中途截获,密码也不会泄露. 互联 ...
MySQL的修仙者之旅，不来看看你的修为如何吗？
目录因为我个人比较喜欢看修仙类的小说,所以本文的主体部分借用修仙者的修为等级,将学习旅程划分成:练气.筑基.结丹.元婴.化神.飞升六个段位,你可以看下你大概在哪个段位上哦! 本文目录: 我为什么要写 ...
如何用Python判断一个文件是否被占用？
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理今天有同学问,用os模块的access()能否判断一个文件是否被占用?直觉上,这是行不通的,因为ac ...
Apache Cassandra——可扩展微服务应用程序的持久数据存储
通过使用微服务,团队可以更快地响应变化,而无需改动整个应用程序.利用微服务,开发团队可以构建出具有鲁棒性和可扩展性的系统,从而适应当今应用程序的需求. 然而,使用微服务也带来了一系列挑战.在本文中 ...

spark知识点_datasources

spark知识点_datasources的更多相关文章

随机推荐

热门专题