为什么要使用Spark？

现有的hadoop生态系统中存在的问题

1）使用mapreduce进行批量离线分析；

2）使用hive进行历史数据的分析；

3）使用hbase进行实时数据的查询；

4）使用storm进行实时的流处理；

5）。。。。。。

导致：维护成本高、学习成本高

Spark的出现弥补了Hadoop生态系统中的缺陷，使用spark搞定”一切“

选用spark的原因

1、One stack to rule them all

　　1）应用于流式计算的Spark Streaming

　　2）应用于即席查询（Ad-hoc）的Spark SQL

　　3）应用于机器学习（数据挖掘）的MLlib

　　4）应用于图处理的GraphX

　　5）将R扩展成并行计算的SparkR

　　6）还有权衡精度和速度的查询引擎BlinkDB

2、速度快（运行/开发）

　　运行速度快的原因：

　　1）基于内存计算（从表象来看）

　 2）DAG（从深层次来看）：把执行过程做成一张图，再来优化

开发速度快：scala代码更优雅（但是还得学习scala啦。。。。。。）

Spark和MapReduce对比

1）调度：启动map和reduce任务需要时间

2）数据共享：从HDFS上读取数据执行，每次迭代均要重写将结果写回到HDFS上，后续的迭代如果需要前面运行的结果数据时需要再去HDFS上读取，以此类推，如果迭代N次。。。

3）输出结果数据多副本：数据需要额外的复制、序列化、磁盘/IO的开销

Spark和MapReduce的区别：迭代时数据写入内存，而不是HDFS上，进而减少大量的磁盘IO开销。

为什么要使用Spark？的更多相关文章

Spark踩坑记——Spark Streaming+Kafka
[TOC] 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...
Spark RDD 核心总结
摘要: 1.RDD的五大属性 1.1 partitions(分区) 1.2 partitioner(分区方法) 1.3 dependencies(依赖关系) 1.4 compute(获取分区迭代列表) ...
spark处理大规模语料库统计词汇
最近迷上了spark,写一个专门处理语料库生成词库的项目拿来练练手, github地址:https://github.com/LiuRoy/spark_splitter.代码实现参考wordmaker ...
Hive on Spark安装配置详解（都是坑啊）
个人主页:http://www.linbingdong.com 简书地址:http://www.jianshu.com/p/a7f75b868568 简介本文主要记录如何安装配置Hive on Sp ...
Spark踩坑记——数据库（Hbase+Mysql）
[TOC] 前言在使用Spark Streaming的过程中对于计算产生结果的进行持久化时,我们往往需要操作数据库,去统计或者改变一些值.最近一个实时消费者处理任务,在使用spark streami ...
Spark踩坑记——初试
[TOC] Spark简介整体认识 Apache Spark是一个围绕速度.易用性和复杂分析构建的大数据处理框架.最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apach ...
Spark读写Hbase的二种方式对比
作者:Syn良子出处:http://www.cnblogs.com/cssdongl 转载请注明出处一.传统方式这种方式就是常用的TableInputFormat和TableOutputForm ...
（资源整理）带你入门Spark
一.Spark简介: 以下是百度百科对Spark的介绍: Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方 ...
Spark的StandAlone模式原理和安装、Spark-on-YARN的理解
Spark是一个内存迭代式运算框架,通过RDD来描述数据从哪里来,数据用那个算子计算,计算完的数据保存到哪里,RDD之间的依赖关系.他只是一个运算框架,和storm一样只做运算,不做存储. Spark ...
（一）Spark简介-Java&Python版Spark
Spark简介视频教程: 1.优酷 2.YouTube 简介: Spark是加州大学伯克利分校AMP实验室,开发的通用内存并行计算框架.Spark在2013年6月进入Apache成为孵化项目,8个月 ...

随机推荐

ajax语法
js语言功能比较强大,但不能访问数据库 ajax来补充这一缺陷特点:输出不用刷新页面,条件查询数据显示页面上一般不用它,因为需要造很多表格不如用嵌入php代码方式简单 ajax语法: $.ajax( ...
VB中的+与&符号的区别
字符串运算符和字符串表达式字符串运算符的作用是将两个字符串连接成一个字符串,经常形象的叫做连接符. 在VB中就提供了两种连接用的字符串运算符 “&”.“+” 例如 “VB”+“编程入门” ...
【springBoot】springBoot返回json的一个问题
首先看下面的代码 @Controller @RequestMapping("/users") public class UserController { @RequestMappi ...
Koala logoJava EE 应用开发平台 Koala
Koala (考拉) 是一款应用在 Java EE 企业级应用开发领域,用于帮助架构师简化系统设计,降低框架耦合度,提高系统灵活性,提供开发工程师工作效率,降低成本的平台工具. 为什么使用 Koala ...
override 修饰符
override(C# 参考) 要扩展或修改继承的方法.属性.索引器或事件的抽象实现或虚实现,必须使用 override 修饰符. C# abstract class ShapesClass { ab ...
abstract修饰符
abstract(C# 参考) abstract 修饰符指示所修饰的内容缺少实现或未完全实现. abstract 修饰符可用于类.方法.属性.索引器和事件. 在类声明中使用 abstract 修饰符以 ...
2. hdfs
一.Hdfs的shell 所有hadoop的fs的shell均用uri路径作为参数 uri格式:schema://authority/path.hdfs的schema是hdfs.其中,schema和a ...
Tomcat DEBUG模式下修改代码立刻生效！
NeHe OpenGL教程第十一课：飘动的旗帜
转自[翻译]NeHe OpenGL 教程前言声明,此 NeHe OpenGL教程系列文章由51博客yarin翻译(2010-08-19),本博客为转载并稍加整理与修改.对NeHe的OpenGL管线 ...
[Mysql] MySQL配置文件my.cnf的理解
一.缘由最近要接手数据库的维护工作,公司首选MySQL.对于MySQL的理解,我认为很多性能优化工作.主从主主复制都是在调整参数,来适应不同时期不同数量级的数据. 故,理解透彻my.cnf里的参数是 ...

为什么要使用Spark？

为什么要使用Spark？的更多相关文章

随机推荐

热门专题