Spark初探

Apache Spark是一个针对大规模数据的快速、统一处理引擎。

One stack rule them all

1-Stream Processing :spark Streaming

2-Ad-hoc-Queries :Spark SQL

3-Batch Processing: Spark Core(和Map-reduce一样是批处理框架)

Map-reduce慢的原因：

1-在执行Map-reduce job运行的过程中有大量的磁盘操作；

2-partition的时候和进入reduce之前会进行排序；一部分排序在map中进行，另一部分排序在reduce中进行；这里的排序使用的是归并排序；

3-额外的复制，网络传输，序列化；

Spark快的原因：

1-基于内存的计算

迭代都是在内存中计算的，shuffle过程也是在磁盘中进行的；所以spark虽然是基于内存的数据处理框架，但是并不是说所有的操作都是在内存中进行的。

2-DAG

Spark支持的是那种语言：

Scala（Excellent）

Python（good）

java（good）

spark运行模式

local ：多用于测试；

Standalone：独立于Hadoop的一套运行环境，具有独立的资源管理者等组件；

Mesos：基于Mesos资源调度框架运行；

YARN：基于Yarn的资源调度框架运行；

Mesos和Yarn都是资源调度管理框架

Mesos是用C++实现的，支持细粒度和粗粒度的资源管理；

Yarn使用java实现，仅支持粗粒度的资源调度；这里的细粒度指的是自愿的弹性，用多少分多少，后面需求增加可以再分配，而Yarn的粗粒度资源调度的意思是初始画的时候分配多少就一直是多少，直到job进程消亡。

Spark初探的更多相关文章

[Big Data]从Hadoop到Spark的架构实践
摘要:本文则主要介绍TalkingData在大数据平台建设过程中,逐渐引入Spark,并且以Hadoop YARN和Spark为基础来构建移动大数据平台的过程. 当下,Spark已经在国内得到了广泛的 ...
[转载] 从Hadoop到Spark的架构实践
转载自http://www.csdn.net/article/2015-06-08/2824889 http://www.zhihu.com/question/26568496 当下,Spark已经在 ...
从Hadoop到Spark的架构实践
当下,Spark已经在国内得到了广泛的认可和支持:2014年,Spark Summit China在北京召开,场面火爆:同年,Spark Meetup在北京.上海.深圳和杭州四个城市举办,其中仅北京就 ...
Scala极速入门
摘要当面向对象遇到函数式编程,这就是Scala.简练的语言描述与简单的例子相辅相成,希望能够对大家学习Scala有所帮助. scala 入门定义 Scala语言是一种面向对象语言,同时又结合了命令 ...
Spark小课堂Week5 Scala初探
Spark小课堂Week5 Scala初探 Scala是java威力加强版. 对Java的改进这里会结合StreamingContext.scala这个代码说明下对Java的改进方面. 方便测试方式 ...
Spark Streaming揭秘 Day21 动态Batch size实现初探(下)
Spark Streaming揭秘 Day21 动态Batch size实现初探(下) 接昨天的描述,今天继续解析动态Batch size调整的实现. 算法动态调整采用了Fix-point迭代算法, ...
Spark Streaming揭秘 Day20 动态Batch size实现初探(上)
Spark Streaming揭秘 Day20 动态Batch size实现初探(上) 今天开始,主要是通过对动态Batch size调整的论文的解析,来进一步了解SparkStreaming的处理机 ...
Spark Streaming中动态Batch Size实现初探
本期内容 : BatchDuration与 Process Time 动态Batch Size Spark Streaming中有很多算子,是否每一个算子都是预期中的类似线性规律的时间消耗呢? 例如: ...
Spark核心—RDD初探
本文目的最近在使用Spark进行数据清理的相关工作,初次使用Spark时,遇到了一些挑(da)战(ken).感觉需要记录点什么,才对得起自己.下面的内容主要是关于Spark核心-RDD的相关 ...

随机推荐

plus.runtime.quit()是个好函数
对于H5+APP开发,应用的生命周期监听函数里是对应用行为的监控,但是并不对应用执行退出或重启操作.相关操作还是要使用mui
Docker镜像-删除镜像
因为尝试使用新的镜像,对原来的镜像进行删除,报错如下: 意思就是在删除镜像之前,要先删除对应的docker.因为该image被对应的container引用,所以image删除失败. 显示所有状态的容器 ...
深度学习论文翻译解析（九）：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
论文标题:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 标题翻译:用于视觉识别的深度卷积神 ...
Django---进阶4
目录 CBV源码剖析模版语法传值过滤器(过滤器只能最多有两个参数) 标签自定义过滤器.标签.inclusion_tag 模版的继承模版的导入作业 CBV源码剖析 # 你自己不要修改源码除了 ...
day10 基本数据类型（下）
目录一.集合 1.作用 2.定义 3.类型转换 4.内置方法 4.1交集:两者共有的 4.2合集:两者融合去重 4.3差集:某个集合单独有的 4.4对称差集:两个集合各自单独有的组成的集合 4.5父 ...
为什么有时候人们用translate来改变位置而不是定位？
translate()是transform的一个值. 改变transform或opacity不会触发浏览器重新布局(reflow)或重绘(repaint),只会触发复合(compositions)(复 ...
requests接口自动化1-json序列化与反序列化
json序列化与反序列化: 序列化:将对象转换为json字符串反序列化:将json字符串转换为对象,比如转换为python里的字典 import json #定义字典 dict1={'usernam ...
java 基本语法（十）数组（三）二维数组
1.如何理解二维数组? 数组属于引用数据类型数组的元素也可以是引用数据类型一个一维数组A的元素如果还是一个一维数组类型的,则,此数组A称为二维数组. 2.二维数组的声明与初始化正确的方式: int[ ...
数据可视化之powerBI技巧（五）在Power BI中写出优雅的度量值是什么体验？
之前的文章(采悟:连接表的几个DAX函数,一次全掌握)介绍了产品A的客户与产品B的客户的各种交叉关系,其中最常用的应该是找出A和B的共同客户,以便进行产品关联分析. 之前的思路是计算出两个产品的共同客 ...
Bounding-Box（BB）regression
最近在学习RCNN,对于Bounding-Box(BB)regression能够提高边界框的精确度,对于其内容产生了很大兴趣. 主要内容学习自大神博客:https://blog.csdn.net/bi ...

Spark初探

Spark初探的更多相关文章

随机推荐

热门专题