不多说,直接上代码. 天气记录数据库 Station ID Timestamp Temperature 气象站数据库 Station ID Station Name 气象站和天气记录合并之后的示意图如下所示. Station ID Station Name Timestamp Temperature 011990-99999 SIHCCAJAVRI 195005150700 0 011990-99999 SIHCCAJAVRI 195005151200 22 011990-99999 SIHCC…
a. 由于MapReduce的shuffle过程需写磁盘,比较影响性能:而Spark利用RDD技术,计算在内存中进行. b. MapReduce计算框架(API)比较局限, 而Spark则是具备灵活性的并行计算框架. c. 再说说Spark API方面- Scala: Scalable Language, 据说是进行并行计算的最好的语言. 与Java相比,极大的减少代码量. From http://coderzhang.com/%e5%85%b3%e4%ba%8e%e7%bc%96%e7%a8%…