一.动机 我们已经学了很多在 Spark 中对已分发的数据执行的操作.到目前为止,所展示的示例都是从本地集合或者普通文件中进行数据读取和保存的.但有时候,数据量可能大到无法放在一台机器中,这时就需要探索别的数据读取和保存的方法了. Spark 及其生态系统提供了很多可选方案.本章会介绍以下三类常见的数据源. • 文件格式与文件系统:对于存储在本地文件系统或分布式文件系统(比如 NFS.HDFS.Amazon S3 等)中的数据,Spark 可以访问很多种不同的文件格式,包括文本文件.JSON.S…