(1)Spark计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk Hadoop每次计算先写磁盘,下次计算先从磁盘读,计算结果再写磁盘,如此往复.这对于迭代计算,是个噩梦 -----Spark为每个应用程序在worker上开启一个进程,而一个Job中的Task会在同一个线程池中运行,而Hadoop Map Reduce的计算模型是每个Task(Mapper或者Reducer)都是一个单独的进程,启动停止进程非常expensive,同时,进程间的数据共享也不能基…