之前分析过spark RPC的基本流程（spark RPC详解），其实无论是RPC还是Spark内部的数据（Block）传输，都依赖更底层的网络通信，本文将对spark的网络通信做一下剖析。

1，概要

对于大数据相关的基础组件（Hadoop，HBase，Spark，Kafka），网络通信部分主要有两类：Java NIO和Netty。对于Hadoop，Spark，HBase以及kafka具体使用情况如下表：

大数据组件	Java NIO	Netty
Hadoop	✔️
Spark		✔️
HBase	✔️（2.0之前）	✔️（2.0之后）
Kafka	✔️

Hadoop和Kafka是基于Java NIO的，Spark之前是基于Akka，1.6之后全面改成了Netty。而HBase 2.0之前的实现是借鉴Hadoop也是基于Java NIO，2.0之后才有了Netty实现。无论是基于Netty框架还是Java NIO，网络通信的线程模型都是基于React。只不过Java NIO是显示的（从代码中可以直接看到Acceptor， Listener，Reader，Responder等相关组件），而Netty是隐形。总的来说， Netty提供了更抽象的封装，在易用性以及性能上会比Java NIO好一些（通过HBase来看，好像性能提升也不是特别明显）。

2，Spark实现

Spark网络通信实现所涉及的主要类图及之间的关系如下图所示：

要点如下：

1，TransportContext是入口，通过TransportContext可以创建TransportServer和TransportClientFactory，而TransportClientFactory可以创建TransportClient。这样负责发送数据的TransportClient和接收请求的TransportServer便创建完毕。

2，TransportClientFactory的作用不仅仅是创建TransportClient，同时它还含有一个缓存池，用来缓存到各个不同远端的TransportClient对象。如果获取不到，则基于Netty创建Bootstrap，设置相关参数，对应的Handler，最终创建TransportClient对象。

3，TransportServer和TransportClient都使用TransportContext中的initializePipeline来初始化一系列的handler。这些handler包括编解码器，以及TransportChannelHandler。TransportChannelHandler是一个处理输入消息的handler（Inbound），将根据不同的请求（RequestMessage or ResponseMessage）交由对应的handler（TransportRequestHandler or TransportResponseHandler）进行处理。

4，在以上图中，有一个非常重要的类RpcHandler。RpcHandler有很多不同的具体实现（如NettyRpcHandler主要实现基于Netty的Rpc实现，ExternalShuffleBlockHandler主要用来在External Shuffle service中发送和接收数据）。可以看到不同的RpcHandler经过TransportContext→TransportChannelHandler→TransprotRequestHandler嵌入到上面的通信框架中，从而使得该框架能够适应不同的网络通信需求。总的来说：整体通信框架不变，但是通过RpcHandler让不同网络通信场景很好的融入了。

除此之外，网络通信过程中还涉及到了一些列的不同的消息，以及编码等，由于比较简单，不再做深入介绍。

3，小结

在以上基于Netty实现的网络通信中，应用主要的逻辑都封装在不同的handler中，然后通过层次感的handler设计便能够很快摸清楚整个网络通信的过程。

Spark网络通信分析的更多相关文章

Spark源代码分析之六：Task调度（二）
话说在<Spark源代码分析之五:Task调度(一)>一文中,我们对Task调度分析到了DriverEndpoint的makeOffers()方法.这种方法针对接收到的ReviveOffe ...
Spark原理分析目录
1 Spark原理分析 -- RDD的Partitioner原理分析 2 Spark原理分析 -- RDD的shuffle简介 3 Spark原理分析 -- RDD的shuffle框架的实现概要分析 ...
从0到1进行Spark history分析
一.总体思路以上是我在平时工作中分析spark程序报错以及性能问题时的一般步骤.当然,首先说明一下,以上分析步骤是基于企业级大数据平台,该平台会抹平很多开发难度,比如会有调度日志(spark-sub ...
Spork: Pig on Spark实现分析
介绍 Spork是Pig on Spark的highly experimental版本号,依赖的版本号也比較久,如之前文章里所说.眼下我把Spork维护在自己的github上:flare-spork. ...
hive Spark SQL分析窗口函数
Spark1.4发布,支持了窗口分析函数(window functions).在离线平台中,90%以上的离线分析任务都是使用Hive实现,其中必然会使用很多窗口分析函数,如果SparkSQL支持窗口分 ...
Spark案例分析
一.需求:计算网页访问量前三名 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} /* ...
Spark源代码分析之中的一个：Job提交执行总流程概述
Spark是一个基于内存的分布式计算框架.执行在其上的应用程序,依照Action被划分为一个个Job.而Job提交执行的总流程.大致分为两个阶段: 1.Stage划分与提交 (1)Job依照RDD之间 ...
spark job分析
spark job spark job提交三级调度框架, DagSch,计算stage,提交阶段,将stage映射成taskset,提交taskset给tasksch. TaskSch Backen ...
spark复习笔记(4):spark脚本分析
1.[start-all.sh] #!/usr/bin/env bash # # Licensed to the Apache Software Foundation (ASF) under one ...

随机推荐

Flume-ng-sdk源码分析
Flume 实战(2)--Flume-ng-sdk源码分析 - mumuxinfei - 博客园 http://www.cnblogs.com/mumuxinfei/p/3823266.html
OPENCV在ARM平台的移植
两篇别人推荐给我的文章,我想直接复制过来,呵呵,但一想真不好,等我做一遍了再来写一遍.还是贴链接. OpenCV在ARM上的移植:http://www.cnblogs.com/emouse/archi ...
POJ3436 ACM Computer Factory —— 最大流
题目链接:https://vjudge.net/problem/POJ-3436 ACM Computer Factory Time Limit: 1000MS Memory Limit: 655 ...
easyui 日期范围前后台的设置以及实现
1.页面部分(引入相应的js) <td class="w40 tl pl10">从日期:</td> <td> <input class=& ...
一步一步学Silverlight 2系列（29）：使用Transform实现更炫的效果（上）
概述 Silverlight 2 Beta 1版本发布了,无论从Runtime还是Tools都给我们带来了很多的惊喜,如支持框架语言Visual Basic, Visual C#, IronRuby, ...
Identifier expected after this token
Cursor cursor = db.query(true, "user", new String[]{"id","mode"}, &quo ...
codevs1148传球游戏
传送门 1148 传球游戏 2008年NOIP全国联赛普及组时间限制: 1 s 空间限制: 128000 KB 题目等级 : 白银 Silver 题目描述 Description 上体 ...
详细讲解：零知识证明之 ZCash 完整的匿名交易流程
作者:林冠宏 / 指尖下的幽灵博客:http://www.cnblogs.com/linguanh/ 掘金:https://juejin.im/user/587f0dfe128fe100570ce2 ...
洛谷 - P2045 - 方格取数加强版 - 费用流
原来这种题的解法是费用流. 从一个方格的左上走到右下,最多走k次,每个数最多拿走一次. 每次走动的流量设为1,起始点拆点成限制流量k. 每个点拆成两条路,一条路限制流量1,费用为价值相反数.另一条路无 ...
sublime text3安装配置c++环境(windows+ubuntu)
1.下载sublime text3 官网地址:http://www.sublimetext.com/3 ubuntu直接在Ubuntu Software中搜索sublime安装 2.配置环境变量(wi ...

Spark网络通信分析

1，概要

2，Spark实现

3，小结

Spark网络通信分析的更多相关文章

随机推荐

热门专题