基本架构

Akka Actor式RPC架构

Spark采用的是AkkaActor架构实现RPC，但是实际使用过程为了兼容不同节点之间的文件下载，采用Netty来实现Actor功能。
Spark RPC由三部分组成：

RpcEnv RPC的执行上下文，等同于ActorSystem,用于管理RpcEndpoint和RpcEndpointRef
RpcEndpoint RPC通信实体的抽象，等同于Actor，用于接收客户端发送来的请求，方法主要有receive,onConnected, onDisconnnected, onStart, onStop, onError等
RpcEndpointRef RPC通信实体的引用，等同于ActorRef，在客户端被调用，用来向服务端请求，主要方法是ask和askWithRetry

核心组件

Dispatcher

InboxMessage: 外部发送过来的消息(onStart, onStop, RPCMessage, OneWayMessage...)
EndpointData: 包装(RpcEndpoint, NettyRpcEndpointRef, Inbox(InboxMessge队列))
MessageLoop: 通过线程池调度，读取阻塞队列中是否有消息，有的话就直接读取，否则阻塞
Inbox来源（消息来源）:
[x] - 注册RpcEndpoint（会生成OnStart消息）
[x] - 去注册RpcEndpoint(会生成onStop消息)
[x] - postMessage, 投递消息给指定的RpcEndpoint
[x] - 停止Dispatcher

TransportClientFactory

RPC客户端的工厂类，用于批量生成TransportClient

ClientPool，ClientFactory内部通过<sokectAddress, ClientPool> 建立套接字(Socket网络连接)与ClientPool(TransportClient)的关联，同时通过object与TransportClient建立1V1的锁关联关系；即对于一个socket，会有多个TransportClient与其关联，spark通过每一个TransportClient使用不同的lock(object)，来进行并行，本质还是一个利用线程池（连接缓冲池）的思想

其类型定义为

class TransClientFactory {

    ConcurrentHashMap<SocketAddress, ClientPool> connectionPool;

}

class ClientPool {

    TransportClient[] clients;

    Object[] locks;

}

TransportClient

包含5种发送消息的方法: fetchChunk, stream, sendRPC, sendRPCSyns, send
TransportClientBootstrap 由TransportContext传入，启动加载（如 SAAL和加密认证之类的启动操作）

TransportContext

通过createClientFactory创建TransportClientFactory，间接通过createClient创建TransportClient; 通过createServer创建TransServer实例

TransportConf 配置稳健加载
RpcHandler，是一个abstract类，实现类为NettyRpcHandler,internalReceive负责将ByteBuffer转换成RequestMessage; postMessage用于投递消息，然后交由对应的RPCEndpoint处理

val msgDispatch = internalReceive(client, message)

dispatcher.postMessage(msgDispatch, callback)

NettyStreamMessage: 提供文件服务能力

NettyRPCEnv

timeoutScheduler 超时请求的调度器，使用的ScheduleredExcutorService
clientConnectExecutor
outboxes: 在send()时在messages中add消息，然后调用drainOutbox()循环遍历发送messages中所有消息;drainOutbox()在没有client时会调用launchuConnectTask()创建TransportClient

private val outboxes = new ConcurrentHashMap[RpcAddress, Outbox]()

class Outbox {

    nettyEnv;   //所在环境

    address;    //远端NettyRpcEnv地址

    messages;   //向外发送的消息列表

    client; // TransportClient

    connectFuture; //连接任务的Future引用

    stopped; //是否停止

    draining;   //Outbox正有线程处理消息

}

RPC客户端发送请求流程

调用NettyRpcEndpointRef的send/ask方法向RpcEndpoint发送消息;

a) 如果是同一节点，直接使用Dispatcher的postLocalMessage和postOneWayMessage，直接将消息放入EndpointData的Inbox中；

b) 如果发送方在远处，将消息封装成OutboxMessage，放入远端RpcEndpoint对应的Outbox的messages列表中；
Outbox的drainOutbox循环从messages获取OutboxMessage，调用TransportClient向远端发送消息;
与远端的TransportServer建立连接之后，经Netty管道，NettyRpcHandler处理，投递到远端的Dispatcher的EndpointData的Inbox中进行处理

TransportServer

-TransportRequestHandler：主要是handle()方法，该方法根据request的类型，调用不同的 processXX()方法进行处理

processFetchRequest 处理获取块请求

processRPCRequest 处理RPC请求

processStreamRequest 处理Stream请求

processOneWayMessage 处理无需回复的请求

RPC服务端实现

TransportServer

要点总结

Spark RPC是用Netty实现了数据流传输，以及Actor这种RPC框架的，其中NettyRpcEnv相当于ActorySysm, RpcEndpoint相当于Actor（远端的服务，或者说接口，注册在服务端）, RpcEndpointRef相当于ActorRef（服务引用，在客户端使用），双方通信通过Message这个载体;
客户端发送消息时，通过<address, Outbox[messages, client]>这种结构，向address不断地发送消息；
服务端通过NettyRpcHandler进行消息的receive，转换成InboxMessage，放入Dispatcher中，Dispatcher使用messageLoop循环遍历Inbox，取出InboxMessage，根据消息路由，调用相应方法进行处理，即路由功能

Spark-RPC理解的更多相关文章

Spark RPC框架源码分析（一）简述
Spark RPC系列: Spark RPC框架源码分析(一)运行时序 Spark RPC框架源码分析(二)运行时序 Spark RPC框架源码分析(三)运行时序一. Spark rpc框架概述 S ...
Spark RPC框架源码分析（二）RPC运行时序
前情提要: Spark RPC框架源码分析(一)简述一. Spark RPC概述上一篇我们已经说明了Spark RPC框架的一个简单例子,Spark RPC相关的两个编程模型,Actor模型和Re ...
Spark RPC框架源码分析（三）Spark心跳机制分析
一.Spark心跳概述前面两节中介绍了Spark RPC的基本知识,以及深入剖析了Spark RPC中一些源码的实现流程. 具体可以看这里: Spark RPC框架源码分析(二)运行时序 Spark ...
org.apache.spark.rpc.RpcTimeout$$anonfun$1.applyOrElse
跑sparkPis示例程序 [root@node01 bin]# ./spark-submit --master spark://node01:7077 --class org.apache.spar ...
Spark在StandAlone模式下提交任务，spark.rpc.message.maxSize太小而出错
1.错误信息org.apache.spark.SparkException: Job aborted due to stage failure:Serialized task 32:5 was 172 ...
spark RPC详解
前段时间看spark,看着迷迷糊糊的.最近终于有点头绪,先梳理了一下spark rpc相关的东西,先记录下来. 1,概述个人认为,如果把分布式系统(HDFS, HBASE,SPARK等)比作一个人, ...
Spark RPC
在Spark中,对于网络调用的底层封装(粘包拆包,编解码,链路管理等)都是在common/network-common包中实现的(详见[common/network-common]).在common/ ...
spark 源码分析之十二 -- Spark内置RPC机制剖析之八Spark RPC总结
在spark 源码分析之五 -- Spark内置RPC机制剖析之一创建NettyRpcEnv中,剖析了NettyRpcEnv的创建过程. Dispatcher.NettyStreamManager.T ...
spark 源码分析之六--Spark RPC剖析之Dispatcher和Inbox、Outbox剖析
在上篇 spark 源码分析之五 -- Spark内置RPC机制剖析之一创建NettyRPCEnv 中,涉及到了Diapatcher 内容,未做过多的剖析.本篇来剖析一下它的工作原理. Dispatc ...
spark 源码分析之七--Spark RPC剖析之RpcEndPoint和RpcEndPointRef剖析
RpcEndpoint 文档对RpcEndpoint的解释:An end point for the RPC that defines what functions to trigger given ...

随机推荐

UGUI学习——Canvas基础组件
UGUI的分辨率自适应的机制 UGUI中,Canvas(画布)可以看成电脑屏幕,其功能和属性都是一样的.游戏中的分辨率自适应主要包括两部分: 1. 缩放适应:是在不同尺寸的屏幕下,整体缩放比例的计算方 ...
清除cookie
function clearCookie(){ if(document.cookie.length < 2048){ return; } //cookie大于2kb,清除cookie var c ...
VIM快速复制多行
在vim中快速复制粘贴多行用vim写代码时,经常遇到这样的场景,复制多行,然后粘贴. 这样做:1. 将光标移动到要复制的文本开始的地方,按v进入可视模式.2. 将光标移动到要复制的文本的结束的地 ...
Python学习之路基础篇--05Python基础+列表和元组
1 list # 增 city = ["wuhan", "shanghai", "chongqing", "changsha&qu ...
java语言基础--接口
接口定义: 是一个特殊的抽象类,在接口里面的所有方法都是抽象的. 接口用interface来声明. 注意: 接口中只能出现常量和抽象方法: 接口里面没有构造方法,无法创建接口的对象: 接口和接口之间支 ...
ROS使用小知识点
输入 rosrun rqt_graph rqt_graph 可以打开一个界面观察节点与话题的关系绿色和蓝色的是节点红色的是话题查看ros中额的tf转换信息 rosrun rqt_tf_tree ...
兄弟连学python---Socket介绍
UDP协议 UDP:用户数据报协议,不可靠性,只是把应用程序传给IP层数据报送出去,但是不能保证他们是否能到达目的地,传输数据报钱不用再客户端和服务器之间建立连接,并且没有超时重发机制,所以传输速度快 ...
SDL播放YUV——循环
#include "SDL.h" #include "as_lesson_log.h" #define PATH_YUV420 "/sdcard/ou ...
链路聚合trunk实现
用户需求 1,在原有网络基础上实现用户接入Internet 2,监控摄像头不改变原有功能配置思路 1,首先确定接入交换机是否为管理型交换机 2, 确认接入交换机管理IP 3,划分Vlan 创建tr ...
终于懂得Perl句柄是什么意思了
一直以来就对Perl语言特别感兴趣,去年特别膨胀的直接买了一本大骆驼书,想好好看看Perl编程,结果看到I/O,句柄的时候就觉得云山雾罩,不知道是在说啥了, 最近,京东打折,终于有机会又买了本小骆驼 ...

Spark-RPC理解