作为分布式应用,Spark的数据存储在不同机器上.这就涉及到数据的传输,元数据的管理等内容.而且由于Spark可以利用内存和磁盘作为存储介质,这还涉及到了内存和磁盘的数据管理. Spark存储体系架构 Spark存储(主要由BlockManager来完成)主要完成了写入数据块,如果需要备份数据块,则将数据块写入其他节点:读取数据块,如果当前节点不含有数据块,则从其他节点获取数据块:向Driver节点注册自身的BlockManager,以及上报其所管理的数据块信息. Spark使用BlockInf…