Motivation

Spark是基于Hadoop可用的生态系统构建的，因此Spark可以通过Hadoop MapReduce的InputFormat和OutputFormat接口存取数据。
Spark所提供的上层接口有这几类：
- File formats and filesystems: 对于存储在本地或分布式系统的数据，比如NFS，HDFS，Amazon S3。Spark可以访问多种数据格式，包括text，JSON，SequenceFiles，protocol buffers。
- Structured data sources through Spark SQL: Spark SQL模块提供了结构化数据结构的API，包括JSON和Apache Hive
- Databases and key/value pairs：包括内置的和第三方的库，可以用来连接Cassandra，HBase，Elasticsearch以及JDBC数据库。

File Formats

Spark提供大量的数据格式来使数据加载和存储更加方便。这些包括了非结构化(比如文本)，半结构化(比如JSON)，结构化(比如序列文件)。

格式名称	结构化	评论
Text files	非结构化	Plain old text files. Records are assumed to be one per line.
JSON	半结构化	普通的基于文本的格式，半结构化；大多数库需要每行一个记录
CSV	结构化	非常常见的基于文本的格式，经常和电子表格应用一起使用
SequenceFils	结构化	一个常见的Hadoop文件格式，用于key/value数据
Protocol buffers	结构化	一个快速的，space-efficient多语言格式
Object files	结构化	Useful for saving data from a Spark job to be consumed by shared code. Breaks if you change your classes, as it relies on Java Serialization.

Text Files

在Spark中，加载和存储文本文件十分方便。当你加载一个文本文件作为RDD时，每一行都变成RDD中的一个元素。
也可以一次加载多个text files到一个pair RDD，key就是文件名，value是文件内容

Loading text file

val input = sc.textFile("file:///home/holden/repos/spark/README.md")

可以通过制定minPartitions来控制partitions的数量
当我们指定目录而非文件时，有两种处理方式：
- 使用textFile()方法：那么将会把所有部分加载到RDD
- 使用wholeTextFiles()方法：当我们需要知道输入来自哪个文件或需要一次处理一个文件时，wholeTextFiles()方法会返回一个pair RDD，其中key是文件名。
- ```
# get the average value per file

val input = sc.wholeTextFiles("file://home/holden/salesFiles")

val result = input.mapValues{ y =>

    val nums = y.split(" ".map(x => x.toDouble)

    nums.sum / nums.size.toDouble

}
```

Saving text files

```
result.saveAsTextFile(outputfile)
```

JSON

最简单的加载JSON数据的方式是作为文本加载，然后使用JSON parser来映射值。同样的，也可以使用preferred JSON序列化库来将值作为strings写出。
在JAVA和sacla中我们也可以使用自定义的Hadoop format来操作JSON数据

Loading JSON

上面说的以文本方式加载JSON的方法，只能用于每行一个JSON的情况。如果你想处理多行的JSON，你只能加载整个文件，然后parse每一行，这时候如果构建一个JSON parser是昂贵的的话，你可以使用mapPartitions()方法来reuse the parser.

# loading JSON in Scala

import com.fasterxml.jackson.module.scala.DefaultScalaModule

import com.fasterxml.jackson.module.scala.experimental.ScalaObjectMapper

import com.fasterxml.jackson.databind.ObjectMapper

import com.fasterxml.jackson.databind.DeserializationFeature

...

case class Person(name: String, lovesPandas: Boolean) // Must be a top-level class ...

// Parse it into a specific case class. We use flatMap to handle errors

// by returning an empty list (None) if we encounter an issue and a

// list with one element if everything is ok (Some(_)).

val result = input.flatMap(record => {

try {

Some(mapper.readValue(record, classOf[Person]))

} catch {

case e: Exception => None

}})

处理错误格式记录是一个大问题。如果你是简单地skip错误的数据，那么你最好使用accumulators来追踪错误数目。

Saving JSON

# example of python

(data.filter(lambda x: x['lovesPandas']).map(lambda x: json.dumps(x)) .saveAsTextFile(outputFile))

# example of scala

result.filter(p => P.lovesPandas).map(mapper.writeValueAsString(_)) .saveAsTextFile(outputFile)

Comma-Seperated Values and Tab-Separated Values

Comma-separated value(CSV) are supposed to contain a fixed number of fields per line, and the fields是逗号分隔的(或是tab分隔的TSV文件)。
P79 TBD....

<Spark><Programming><Loading and Saving Your Data>的更多相关文章

简单物联网：外网访问内网路由器下树莓派Flask服务器
最近做一个小东西,大概过程就是想在教室,宿舍控制实验室的一些设备. 已经在树莓上搭了一个轻量的flask服务器,在实验室的路由器下,任何设备都是可以访问的:但是有一些限制条件,比如我想在宿舍控制我种花 ...
利用ssh反向代理以及autossh实现从外网连接内网服务器
前言最近遇到这样一个问题,我在实验室架设了一台服务器,给师弟或者小伙伴练习Linux用,然后平时在实验室这边直接连接是没有问题的,都是内网嘛.但是回到宿舍问题出来了,使用校园网的童鞋还是能连接上,使 ...
外网访问内网Docker容器
外网访问内网Docker容器本地安装了Docker容器,只能在局域网内访问,怎样从外网也能访问本地Docker容器? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动Docker容器 ...
外网访问内网SpringBoot
外网访问内网SpringBoot 本地安装了SpringBoot,只能在局域网内访问,怎样从外网也能访问本地SpringBoot? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装Java 1 ...
外网访问内网Elasticsearch WEB
外网访问内网Elasticsearch WEB 本地安装了Elasticsearch,只能在局域网内访问其WEB,怎样从外网也能访问本地Elasticsearch? 本文将介绍具体的实现步骤. 1. ...
怎样从外网访问内网Rails
外网访问内网Rails 本地安装了Rails,只能在局域网内访问,怎样从外网也能访问本地Rails? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动Rails 默认安装的Rails端口 ...
怎样从外网访问内网Memcached数据库
外网访问内网Memcached数据库本地安装了Memcached数据库,只能在局域网内访问,怎样从外网也能访问本地Memcached数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装 ...
怎样从外网访问内网CouchDB数据库
外网访问内网CouchDB数据库本地安装了CouchDB数据库,只能在局域网内访问,怎样从外网也能访问本地CouchDB数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动Cou ...
怎样从外网访问内网DB2数据库
外网访问内网DB2数据库本地安装了DB2数据库,只能在局域网内访问,怎样从外网也能访问本地DB2数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动DB2数据库默认安装的DB2 ...
怎样从外网访问内网OpenLDAP数据库
外网访问内网OpenLDAP数据库本地安装了OpenLDAP数据库,只能在局域网内访问,怎样从外网也能访问本地OpenLDAP数据库? 本文将介绍具体的实现步骤. 1. 准备工作 1.1 安装并启动 ...

随机推荐

Confluence 6 应该如何在我的空间中组织内容
页面和博客你在 Confluence 中创建的任何内容,从会议记录到回顾和任何中间的内容,不管来源是博客和页面. 你的主页将是任何访问你网站中的用户首先看到的内容.为了让用户更加容易的找到他们需要查 ...
Mysql中Join用法及优化
Join的几种类型笛卡尔积(交叉连接) 如果A表有n条记录,B表有m条记录,笛卡尔积产生的结果就会产生n*m条记录.在MySQL中可以为CROSS JOIN或者省略CROSS即JOIN,或者直接用f ...
ActiveMQ的学习整理（代码实现PTP，以及Pub/Sub）
(一)由于在实习过程中需要用到ActiveMQ,在网上看了很多文章,现在整理出来以防忘记. (二)这篇文章比较适合之前没有接触过的同学,在看下面文章的过程中,建议先学习参考链接中的知识点,然后自己再参 ...
antd-mobile的DatePicker日期选择组件使用
现在项目上有个需求,在时间选择上需要精确到分钟,且分钟只能是0分钟或者是30分钟. 使用了antd-mobile的DatePicker组件,具体用法可参考:https://mobile.ant.des ...
python中的ConfigParser模块
1.简介我们经常需要使用配置文件,例如.conf和.ini等类型,使用ConfigPaser模块可以对配置文件进行操作. 2.示例现有配置文件test.ini,其内容如下: [section_a] ...
dubbo初认知（dubbo和springCloud关系，在微服务架构中的作用等）（持续更新中）
一:dubbo是什么? dobbuo是阿里开源的一个高性能优秀的服务框架, 可通过高性能的 RPC 实现服务的输出和输入功能,使得应用可以和高性能的rpc实现输入和输出的功能,可以了 Spring ...
Visual Studio references中的package找不到
1. 把solution里面所有project的.net版本设成一样的 2. ERROR: This project references NuGet package(s) that are miss ...
openstack安装指南和在centos7上的安装指南
openstack安装指南官网:http://docs.openstack.org/project-install-guide/newton/ openstack在centos7上的安装指南官网:ht ...
生成PDF文档之iText
iTextSharp.text.Document:这是iText库中最常用的类,它代表了一个pdf实例.如果你需要从零开始生成一个PDF文件,你需要使用这个Document类.首先创建(new)该实例 ...
c++ 软件版本比较函数
// 版本号拆分为数组 void splitToInt(string str , vector<int> *v1, char delim ){ // 拆分 string strTmp; s ...

<Spark><Programming><Loading and Saving Your Data>

Motivation

File Formats

Text Files

Loading text file

Saving text files

JSON

Loading JSON

Saving JSON

Comma-Seperated Values and Tab-Separated Values

<Spark><Programming><Loading and Saving Your Data>的更多相关文章

随机推荐

热门专题