【互动问答分享】第15期决胜云计算大数据时代Spark亚太研究院公益大讲堂

“决胜云计算大数据时代”

Spark亚太研究院100期公益大讲堂【第15期互动问答分享】

Q1：AppClient和worker、master之间的关系是什么？

AppClient是在StandAlone模式下SparkContext.runJob的时候在Client机器上应用程序的代表。要完毕程序的registerApplication等功能。

当程序完毕注冊后Master会通过Akka发送消息给client来启动Driver；

在Driver中管理Task和控制Worker上的Executor来协同工作；

Q2：Spark的shuffle 和hadoop的shuffle的差别大么？

Spark的Shuffle是一种比較严格意义上的shuffle，在Spark中Shuffle是有RDD操作的依赖关系中的Lineage上父RDD中的每一个partition元素的内容交给多个子RDD；

在Hadoop中的Shuffle是一个相对模糊的概念，Mapper阶段介绍后把数据交给Reducer就会产生Shuffle，Reducer三阶段的第一个阶段即是Shuffle。

Q3：Spark
的HA怎么处理的？

对于Master的HA，在Standalone模式下。Worker节点自己主动是HA的，对于Master的HA，一般採用Zookeeper；

Utilizing ZooKeeper to provide leader election and some statestorage, you can launch multiple Masters in your cluster connected to the sameZooKeeper instance. One will be elected “leader” and the others will remain
instandby mode. If the current leader dies, another Master will be elected,recover the old Master’s state, and then resume scheduling. The entire recoveryprocess (from the time the the first leader goes down) should take between 1and 2 minutes. Note that this
delay only affects scheduling new applications– applications that were already running during Master failover are unaffected；

对于Yarn和Mesos模式，ResourceManager一般也会採用ZooKeeper进行HA;

【互动问答分享】第15期决胜云计算大数据时代Spark亚太研究院公益大讲堂的更多相关文章

【互动问答分享】第13期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第13期互动问答分享] Q1:tachyon+spark框架现在有很多大公司在使用吧? Yahoo!已经在长期大规模使用: 国内也有 ...
【互动问答分享】第10期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第10期互动问答分享] Q1:Spark on Yarn的运行方式是什么? Spark on Yarn的运行方式有两种:Client ...
【互动问答分享】第8期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第8期互动问答分享] Q1:spark线上用什么版本好? 建议从最低使用的Spark 1.0.0版本,Spark在1.0.0开始核心 ...
【互动问答分享】第7期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第7期互动问答分享] Q1:Spark中的RDD到底是什么? RDD是Spark的核心抽象,可以把RDD看做“分布式函数编程语言”. ...
【互动问答分享】第6期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂 [第6期互动问答分享] Q1:spark streaming 可以不同数据流 join吗? Spark Streaming不同的数据流 ...
【互动问答分享】第5期决胜云计算大数据时代Spark亚太研究院公益大讲堂
Spark亚太研究院100期公益大讲堂 [第5期互动问答分享] Q1:spark怎样支持即席,应该不是spark sql吧,是hive on spark么? Spark1.0 以前支持即席查询的技术是 ...
【互动问答分享】第11期决胜云计算大数据时代Spark亚太研究院公益大讲堂
Q1:docker成熟度如何? Docker是2013年和2014年最火爆的云计算开源项目: Baidu公司是中国使用Docker最为深入和最大规模的公司,线上稳定运行数十万个Docker容器,目前已 ...
【互动问答分享】第18期决胜云计算大数据时代Spark亚太研究院公益大讲堂
Q1:Master和Driver的是同一个东西吗? 两者不是同一个东西,在Standalone模式下Master是用于集群资源管理和调度的,而Driver适用于指挥Worker上的Executor通过 ...
如何成为云计算大数据Spark高手
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库.流处理和图计算等多种计算范式,是罕见的全能选手. ...

随机推荐

javascript （六）引用外部js文件
外部的 JavaScript 也可以把脚本保存到外部文件中.外部文件通常包含被多个网页使用的代码. 外部 JavaScript 文件的文件扩展名是 .js. 如需使用外部文件,请在 <scrip ...
c++(重载、覆盖、隐藏)
源地址:http://www.cnblogs.com/qlee/archive/2011/07/04/2097055.html 成员函数的重载.覆盖与隐藏成员函数的重载.覆盖(override)与隐藏 ...
为Delphi程序增加UAC功能（每个步骤都很详细）
相关资料:http://bbs.csdn.net/topics/320071356# 操作方法: 在Source\VCL目录下应该有这样两个文件sample.manifest和WindowsXP.rc ...
docker 创建本地镜像服务器
1.docker pull registry //下载registry 镜像,registry 为docker 官方提供的一个镜像, 我们可以用它来创建本地的docker私有仓库. docker:/r ...
mysql 高可用方案MHA介绍
概述 MHA是一位日本MySQL大牛用Perl写的一套MySQL故障切换方案,来保证数据库系统的高可用.在宕机的时间内(通常10—30秒内),完成故障切换,部署MHA,可避免主从一致性问题,节约购买新 ...
Lua学习笔记9：多文件
一终端中运行多个文件:-l 增加在文件一中定义了一个变量,在还有一文件里输出这个变量.代码例如以下: --file1.lua num = 100 --file2.lua print(num) 终端输 ...
(step 8.2.13)hdu 1524(A Chess Game)
题目大意 : 在一个有向无环图顶点上面有几个棋子, 2个人轮流操作, 每次操作就是找一个棋子往它能够移动的地方移动一格, 不能操作的人输. 输入第一行为一个 N , 表示有 N 个顶点 0 -& ...
解析汽车B2C商城网站四种盈利模式
汽车已成为家庭的日常用品,汽车的配套设施也成为销售的热点,汽车B2C电子商城为行业营销的新平台,汽车B2C电子商务网站盈利的模式是怎样的?创新的盈利模式才能在行业竞争中生存. 资讯产品一体模式网站的 ...
SpringMVC与Mybatis框架整合遇到的坑（转）
最近在做springmvc与mybatis的项目,遇到一些比较坑的问题.花了许多时间却发现其实解决的办法很简单.这里主要是讲我自己在整合这两个框架的时候遇到的一些问题做一个整理.希望遇到和我同样问题的 ...
[WPF]使用Pack URI路径訪问二进制资源
一.路径格式定义完整的URI定义为: pack://application,,,[/可选程序集名称;][可选版本;][目录名称/]文件名缩略后的写法是: [目录名称/]文件名二.在XAML代码中 ...

【互动问答分享】第15期决胜云计算大数据时代Spark亚太研究院公益大讲堂

【互动问答分享】第15期决胜云计算大数据时代Spark亚太研究院公益大讲堂的更多相关文章

随机推荐

热门专题