1.Spark计算依赖内存,如果目前只有10g内存,但是需要将500G的文件排序并输出,需要如何操作? ①.把磁盘上的500G数据分割为100块(chunks),每份5GB.(注意,要留一些系统空间!) ②.顺序将每份5GB数据读入内存,使用quick sort算法排序. ③.把排序好的数据(也是5GB)存放回磁盘. ④.循环100次,现在,所有的100个块都已经各自排序了.(剩下的工作就是如何把它们合并排序!) ⑤.从100个块中分别读取5G/100=0.05 G入内存(100input bu…