最近接触到大数据,对于Skpark和Hadoop的料及都停留在第一次听到这个名词时去搜一把看看大概介绍免得跟不上时代的层次. 在实际读了点别人的代码,又自己写了一些之后,虽然谈不上理解加深,至少对于大数据技术的整体布局有了更清晰的认识. HDFS主要用来存储文件系统,虽然Spark有自己的RDD,但是似乎并未被启用.我需要的数据,是通过Spark服务启动的计算程序,写入HDFS中的. #这结构怎么看都感觉有点怪. Spark支持Java.Scala和Python开发,对我来说是个好事.唯一的问题