1、文件格式

Spark对很多种文件格式的读取和保存方式都很简单。

（1）文本文件

读取：

将一个文本文件读取为一个RDD时，输入的每一行都将成为RDD的一个元素。

val input=sc.textFile("...")

也可以将多个完整的文本文件读取为一个pair RDD，其中键为文件名，值是文件内容。

例如：

val input=sc.whoTextFiles("...")

保存：

resulet.saveAsTextFile(outputfile)

（2）JSON

读取：

json是一种半结构化的数据格式，首先是可以像上述的文本文件一样来读取，然后进行解析。

在python中：

import json

data=input.map(lambda x: json.loads(x))

在scala中

 rdd=spark.read.json("...")

保存：

result=result.map(mapper.writeValueAsString(_))

（3）CSV文件

scala读取

import org.apache.spark.{SparkConf, SparkContext}

import java.io.StringReader

 val input = sc.textFile("...")

    input.foreach(println)

    val result = input.map{

      line =>

        val reader = new CSVReader(new StringReader(line))

        reader.readNext()

    }

scala保存

case class Person{name:String, fa:String}

val input=sc.whoTextFiles("...")

val result=input.flatMap(case (_,txt)=>

val reader=new CSVReader(new StringReader(txt));

reader.readAll().map(x=>Person(x(0),x(1)))

)

2、文件压缩

在大数据中，需要对数据进行压缩以节省存储空间和减少网络传输开销。对大多数Hadoop输出格式来说，可指定一种压缩编解码器来压缩数据。读压缩数据时，一些压缩编解码器可以推测压缩类型Spark（基于Hadoop神生态构建）原生的输入方式textFile和sequenceFile可自动处理一些类型压缩

3、文件系统

（1）HDFS

在Spark中使用HDFS 只要将输入路径指定为： hdfs：//master:port/path 就好了

（2）Hive文件

要将hive-site.xml文件复制到Spark的../conf/目录下

还有其他的

Spark基础：（四）Spark 数据读取与保存的更多相关文章

【Spark机器学习速成宝典】基础篇03数据读取与保存（Python版）
目录保存为文本文件:saveAsTextFile 保存为json:saveAsTextFile 保存为SequenceFile:saveAsSequenceFile 读取hive 保存为文本文件:s ...
TensorFlow基础笔记(1) 数据读取与保存
https://zhuanlan.zhihu.com/p/27238630 WholeFileReader # 我们用一个具体的例子感受tensorflow中的数据读取.如图, # 假设我们在当前文件 ...
【原】Learning Spark (Python版) 学习笔记(二)----键值对、数据读取与保存、共享特性
本来应该上周更新的,结果碰上五一,懒癌发作,就推迟了 = =.以后还是要按时完成任务.废话不多说,第四章-第六章主要讲了三个内容:键值对.数据读取与保存与Spark的两个共享特性(累加器和广播变量). ...
Spark学习之数据读取与保存总结(一)
一.动机我们已经学了很多在 Spark 中对已分发的数据执行的操作.到目前为止,所展示的示例都是从本地集合或者普通文件中进行数据读取和保存的.但有时候,数据量可能大到无法放在一台机器中,这时就需要探 ...
Spark学习之数据读取与保存（4）
Spark学习之数据读取与保存(4) 1. 文件格式 Spark对很多种文件格式的读取和保存方式都很简单. 如文本文件的非结构化的文件,如JSON的半结构化文件,如SequenceFile结构化文件. ...
Redis 小白指南（四）- 数据的持久化保存（草稿）
Redis 小白指南(四)- 数据的持久化保存简介因为 redis 将数据保存在内存中,很容易诱发的一个问题就是,程序崩溃或服务器重启等情况如何保证数据的正常存储. 当我们以 redis 作为主数 ...
Spark(十二)【SparkSql中数据读取和保存】
一. 读取和保存说明 SparkSQL提供了通用的保存数据和数据加载的方式,还提供了专用的方式读取:通用和专用保存保存有四种模式: 默认: error : 输出目录存在就报错 append: 向 ...
Spark学习之数据读取与保存总结(二)
8.Hadoop输入输出格式除了 Spark 封装的格式之外,也可以与任何 Hadoop 支持的格式交互.Spark 支持新旧两套Hadoop 文件 API,提供了很大的灵活性. 要使用新版的 Ha ...
Spark学习笔记4：数据读取与保存
Spark对很多种文件格式的读取和保存方式都很简单.Spark会根据文件扩展名选择对应的处理方式. Spark支持的一些常见文件格式如下: 文本文件使用文件路径作为参数调用SparkContext中 ...

随机推荐

configure: error: C preprocessor "arm-linux-gnueabihf-g++" fails sanity check
今天在交叉编译某个编解码库过程中碰到一个configure错误运行configure的时候设置了一些配置项目 ./configure CC=arm-linux-gnueabihf-gcc CPP=a ...
整数中1出现的次数牛客网剑指Offer
整数中1出现的次数牛客网剑指Offer 题目描述求出113的整数中1出现的次数,并算出1001300的整数中1出现的次数?为此他特别数了一下1~13中包含1的数字有1.10.11.12.13因此 ...
candy leetcode C++
There are N children standing in a line. Each child is assigned a rating value. You are giving candi ...
js实现日期格式化封装-八种格式
封装一个momentTime.js文件,包含8种格式. 需要传两个参数: 时间戳:stamp 格式化的类型:type, 日期补零的方法用到es6语法中的padStart(length,'字符'): 第 ...
使用Visual Studio 2019将ASP.NET Core发布为linux-arm64程序
前言前段时间入手了一台树莓派4B,一直闲置未使用,最近工作需要,要在上面跑下.NET Core程序,由于树莓派4B使用的是ARM架构,并且支持64位操作系统,为了充分发挥树莓派性能,我的这台树莓派安 ...
攻防世界 WEB 高手进阶区 NSCTF web2 Writeup
攻防世界 WEB 高手进阶区 NSCTF web2 Writeup 题目介绍题目考点 php基本函数语法加密解密函数 base64_decode().str_rot13() 字符串反转函数 str ...
自定义 axios
自定义 axios function axios({ url, method = 'GET', params = {}, data = {} }) { // 返回一个 promise 对象 retur ...
RabbitMQ (五)：死信队列
什么是TTL RabbitMQ的TTL全称为Time-To-Live,表示的是消息的有效期.消息如果在队列中一直没有被消费并且存在时间超过了TTL,消息就会变成了"死信" (Dea ...
【JAVA】笔记（3）---封装；如何选择声明静态变量还是实例变量；如何选择声明静态方法还是实例方法；静态代码块与实例代码块的执行顺序与用途；
封装: 1.目的:保证对象中的实例变量无法随意修改/访问,只能通过我们自己设定的入口,出口(set / get)来间接操作:屏蔽类中复杂的结构,使我们程序员在主方法中关联对象写代码时,思路/代码格式更 ...
Part 33 Angular nested scopes and controller as syntax
Working with nested scopes using $scope object : The following code creates 3 controllers - country ...

Spark基础：（四）Spark 数据读取与保存

1、文件格式

2、文件压缩

3、文件系统

Spark基础：（四）Spark 数据读取与保存的更多相关文章

随机推荐

热门专题