[源码解析] TensorFlow 分布式环境(8) --- 通信机制 目录 [源码解析] TensorFlow 分布式环境(8) --- 通信机制 1. 机制 1.1 消息标识符 1.1.1 定义 1.1.2 创建 1.2 Rendezvous 1.2.1 接口类 1.2.2 基础实现 Rendezvous 1.2.3 跨进程 RemoteRendezvous 1.2.4 BaseRemoteRendezvous 1.2.5 RpcRemoteRendezvous 1.3 管理类 1.3.1…
[源码解析] TensorFlow 分布式环境(1) --- 总体架构 目录 [源码解析] TensorFlow 分布式环境(1) --- 总体架构 1. 总体架构 1.1 集群角度 1.1.1 概念 1.1.2 示意图 1.1.3 创建 1.1.3.1 创建集群 1.1.3.2 创建任务 1.1.3.3 指定设备 1.2 分布式角度 1.2.1 概念 1.2.2 示意图 1.3 系统角度 1.3.1 概念 1.3.2 示意图 1.4 图操作角度 1.5 通信角度 2. Server 2.1 接…
[源码解析] TensorFlow 分布式环境(2)---Master 静态逻辑 目录 [源码解析] TensorFlow 分布式环境(2)---Master 静态逻辑 1. 总述 2. 接口 2.1 接口规范 2.2 MasterInterface 2.3 调用 3. LocalMaster 3.1 定义 3.2 注册 3.3 查找 3.4 功能 4. GrpcRemoteMaster 4.1 定义 4.2 功能 4.2.1 CreateSession 4.2.2 Master Service…
[源码解析] TensorFlow 分布式环境(3)--- Worker 静态逻辑 目录 [源码解析] TensorFlow 分布式环境(3)--- Worker 静态逻辑 1. 继承关系 1.1 角色概念 1.2 接口 1.3 WorkerInterface 派生类 2. GrpcRemoteWorker 2.1 定义 2.2 生成 2.3 发送请求 3. Worker Service 3.3.1 WorkerInterface 3.3.2 概念梳理 3.3.4 WorkerInterface…
[源码解析] TensorFlow 分布式环境(4) --- WorkerCache 目录 [源码解析] TensorFlow 分布式环境(4) --- WorkerCache 1. WorkerCache 1.1 如何使用 1.2 配置 1.3 工厂类 1.3.1 ParseChannelSpec 1.3.2 NewGrpcChannelCache 1.3.3 NewGrpcWorkerCacheWithLocalWorker 1.4 WorkerCacheInterface 1.4.1 接口…
[源码解析] TensorFlow 分布式环境(5) --- Session 目录 [源码解析] TensorFlow 分布式环境(5) --- Session 1. 概述 1.1 Session 分类 1.2 会话流程 1.2.1 MasterSession 生命周期 1.2.2 WorkerSession 生命周期 2. GrpcSession 2.1 定义 2.2 注册&工厂类 2.3 创建GrpcSession 2.4 创建MasterSession 2.4.1 GrpcRemoteMa…
[源码解析] TensorFlow 分布式环境(6) --- Master 动态逻辑 目录 [源码解析] TensorFlow 分布式环境(6) --- Master 动态逻辑 1. GrpcSession 1.1 运行 1.2 GrpcRemoteMaster 2. Master 2.1 总体概述 2.2 建立 & 剪枝 2.2.1 建立计算图 2.2.2 剪枝 2.3 切分注册 2.2.1 原理 2.2.2 配置 2.2.3 切分 2.2.3.1 Partition 2.2.3.2 AddD…
[源码解析] TensorFlow 分布式环境(7) --- Worker 动态逻辑 目录 [源码解析] TensorFlow 分布式环境(7) --- Worker 动态逻辑 1. 概述 1.1 温故 1.2 知新 2. 注册子图 2.1 GrpcWorker 2.2 GraphMgr 2.2.1 定义 2.2.2 注册图 3. 运行子图 3.1 Service 3.2 GrpcWorker 3.3 GraphMgr 3.4 小结 4. 总结 0xFF 参考 前文中,Master 在流程之中先…
[源码解析] TensorFlow 分布式 DistributedStrategy 之基础篇 目录 [源码解析] TensorFlow 分布式 DistributedStrategy 之基础篇 1. StrategyBase 1.1 初始化 1.2 使用 1.3 CTL 1.4 Scope 1.4.1 使用 1.4.2 功能 1.4.3 Scope 范围 1.5 StrategyExtendedV2 1.5.1 locality 1.5.2 如何更新 1.6 继承关系 2. 读取数据 2.1 直…
[源码解析] TensorFlow 分布式之 MirroredStrategy 目录 [源码解析] TensorFlow 分布式之 MirroredStrategy 1. 设计&思路 1.1 主要逻辑 1.2 使用 1.3 分析思路 2. 定义 2.1 MirroredStrategy 2.2 MirroredExtended 3. 初始化 3.1 初始化多worker 3.1.1 MultiWorkerMirroredStrategy 3.1.2 CollectiveAllReduceExte…