原博文出自于: https://segmentfault.com/a/1190000002614456 感谢! 三月中旬,Spark发布了最新的1.3.0版本,其中最重要的变化,便是DataFrame这个API的推出.DataFrame让Spark具备了处理大规模结构化数据的能力,在比原有的RDD转化方式易用的前提下,计算性能更还快了两倍.这一个小小的API,隐含着Spark希望大一统「大数据江湖」的野心和决心.DataFrame像是一条联结所有主流数据源并自动转化为可并行处理格式的水渠,通过它…