简单对比Spark和Storm

2013年参与开发了一个类似storm的自研系统， 2014年使用过spark 4个多月，对这两个系统都有一些了解。

下面是我关于这两个系统的简单对比：

Spark：

1. 基于数据并行，https://en.wikipedia.org/wiki/Data_parallelism。相同的操作作用在数据的不同部分，利用transformation的pipeline提高性能。

2. 本质上是batch processing，latency 通常> 1s。

3. RDD是spark的核心，封装了分布式的细节，即partition和根据lineage恢复数据。shuffle牵涉到数据在网络间的移动，为了容错，中间结果要落地磁盘，因此在一些应用中会是瓶颈。

4. RDD是immutable和coarse granularity，简化了设计。

5. 比较像优化（扩展）了MapReduce的计算框架，并将数据放进了内存，加速迭代计算，非常适合于迭代式应用，比如机器学习，adhoc查询，图计算等。

Storm：

1. 基于任务并行。https://en.wikipedia.org/wiki/Task_parallelism。请求（或者说event）流进系统依次被topology上的task执行。不同task是并行（concurrent）执行。

2. 本质是realtime processing, latency 通常 < 1s。(Storm Trident支持批处理)。

3. 资源管理（在哪些机器上起task）和task间通信是storm的核心。

4. 比较像传统的实时后台系统多个模块（application）拼接成一个大的应用。

所以，可以看到spark和storm有不同的应用场景。能和storm比较的是spark streaming. spark streaming是一个spark的流式处理器，

基本的原理是：将一个时间窗口的数据收集起来，转换成RDD，再根据业务逻辑生成新的RDD，最后遍历结果RDD，把数据发出去。

spark streaming是一个分布式系统，也有分布式系统的复杂性。比如，receiver failure的时候，可能会丢数据。

参考资料：

1. spark paper。http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf

2. committer的报告。Yahoo compares Storm and Spark。http://www.slideshare.net/ChicagoHUG/yahoo-compares-storm-and- spark?ref=http://yahoohadoop.tumblr.com/post/98213421641/storm-and-spark-at-yahoo-why-chose-one-over-the

3. committer的报告。storm和spark streaming的对比。http://www.slideshare.net/ptgoetz/apache-storm-vs-spark-streaming

简单对比Spark和Storm的更多相关文章

【分布式计算】关于Hadoop、Spark、Storm的讨论
参考资料: 与 Hadoop 对比,如何看待 Spark 技术?:https://www.zhihu.com/question/26568496 还要不要做大数据:http://sinofool.cn ...
大数据技术大合集：Hadoop家族、Cloudera系列、spark、storm【转】
大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来.为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师 ...
MongoDB中insert方法、update方法、save方法简单对比
MongoDB中insert方法.update方法.save方法简单对比 1.update方法该方法用于更新数据,是对文档中的数据进行更新,改变则更新,没改变则不变. 2.insert方法该方法用 ...
.NET轻量级MVC框架：Nancy入门教程(二)——Nancy和MVC的简单对比
在上一篇的.NET轻量级MVC框架:Nancy入门教程(一)——初识Nancy中,简单介绍了Nancy,并写了一个Hello,world.看到大家的评论,都在问Nancy的优势在哪里?和微软的MVC比 ...
HTTPS, SPDY和 HTTP/2性能的简单对比
中文原文:HTTPS, SPDY和 HTTP/2性能的简单对比整理自:A Simple Performance Comparison of HTTPS, SPDY and HTTP/2 请尊重版权, ...
【转贴】Cortex系列M0-4简单对比
转载网址:http://blog.sina.com.cn/s/blog_7dbd9c0e01018e4l.html 最近搞了块ST的Cortex-M4处理器,然后下了本文档.分享一下. 针对目前进入大 ...
Hadoop2.0/YARN深入浅出(Hadoop2.0、Spark、Storm和Tez)
随着云计算.大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈.谷歌.淘宝.百度.京东等底层都应用hadoop.越来越多的企业急需引入hadoop技术人才.由于掌握Hadoop技术的开发 ...
Nancy和MVC的简单对比
Nancy和MVC的简单对比在上一篇的.NET轻量级MVC框架:Nancy入门教程(一)——初识Nancy中,简单介绍了Nancy,并写了一个Hello,world.看到大家的评论,都在问Nancy ...
大数据 Hadoop，Spark和Storm
大数据(Big Data) 大数据,官方定义是指那些数据量特别大.数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理.大数据的主要特点为数据量大(Volume),数据类别复 ...

随机推荐

XPath总结（转）
XPath简介 XPath是W3C的一个标准.它最主要的目的是为了在XML1.0或XML1.1文档节点树中定位节点所设计.目前有XPath1.0和XPath2.0两个版本.其中Xpath1.0是199 ...
redis学习心得之二【redis主从配置】
在前一节我们已经实践启动了一个redis服务,我们将其作为主机,现为其创建一个从机作备份使用 1.复制一份配置出来为从机所用 ~$ cp redis/etc/redis.conf ...
Java中实例方法，实例变量，静态方法，静态变量，final方法重写的问题，覆盖
Java中只有非私有的实例方法能被重写,即实现多态,子类可以覆盖父类的方法,但是实例变量不能覆盖,若子类和父类均定义了同样名称的变量,则对于子类来说这是两个不同的变量,要想调用父类的变量必须显示去调用 ...
Solr多核的配置
Solr 多核(MultiCore)配置 Solr Multicore意义 Solr Multicore 是 solr 1.3 的新特性.其目的一个solr实例,可以有多个搜索应用.< xmln ...
maven profile实现多环境打包
快速解决: 项目目录 1.pom文件中添加profile <profiles> <profile>  <id>dev< ...
【转】 Android Studio SVN 使用方法
Android Studio SVN 使用方法如何安装配置SVN 请直接参考<SVN在Android Studio中的配置> http://www.cnblogs.com/songmen ...
从客户端(content="<span class="Apple-s...")中检测到有潜在危险的 Request.Form 值。
从客户端(content="<span class="Apple-s...")中检测到有潜在危险的 Request.Form 值. 说明: 请求验证过程检测到有潜在 ...
Using SSL Certificates with HAProxy--reference
原文地址:http://serversforhackers.com/editions/2014/07/29/haproxy-ssl-termation-pass-through/ Overview I ...
Java基础知识强化之IO流笔记17：FileOutputStream构造方法使用
1. 可以参照之前写的笔记: Android(java)学习笔记167:Java中操作文件的类介绍(File + IO流) 2. FileOutputStream(常用的)构造方法: FileOu ...
【javascript模式】Chapter2：基本技巧
1 尽量少用全局变量,最好一个应用程式只有一个全局变量隐含全局变量(不使用var声明)与明确定义的全局变量区别: (1)使用var创建的全局变量(在函数外部声明)不能用delete删除 (2) ...

简单对比Spark和Storm

简单对比Spark和Storm的更多相关文章

随机推荐

热门专题