[源码解析] TensorFlow 分布式之 ParameterServerStrategy V2 目录 [源码解析] TensorFlow 分布式之 ParameterServerStrategy V2 1. 如何使用 1.1 训练方法 1.2 集群 1.3 使用 Model.fit API 进行训练 1.4 使用自定义循环进行训练 1.5 建立集群 2. 初始化 2.1 用例 2.2 集群设置 2.2.1 设置 "TF_CONFIG" 环境变量 2.2.2 使用二进制文件 2.3…
[源码解析] TensorFlow 分布式之 ParameterServerStrategy V1 目录 [源码解析] TensorFlow 分布式之 ParameterServerStrategy V1 1. 思路 1.1 总体逻辑 1.2 使用 1.3 定义 2. ParameterServerStrategyExtended 2.1 初始化 2.2 分配设备 2.2.1 replica_device_setter 2.2.2 _RoundRobinStrategy 2.2.3 _Repli…
[源码解析] TensorFlow 分布式之 ClusterCoordinator 目录 [源码解析] TensorFlow 分布式之 ClusterCoordinator 1. 思路 1.1 使用 1.2 问题点 2. 定义 2.1 Schedule 2.2 Join 2.3 Done 2.4 Fetch 3. 数据 3.1 建立数据集 3.2 PerWorkerDistributedDataset 3.3 PerWorkerDatasetFromDatasetFunction 3.4 _cr…
[源码解析] TensorFlow 分布式 DistributedStrategy 之基础篇 目录 [源码解析] TensorFlow 分布式 DistributedStrategy 之基础篇 1. StrategyBase 1.1 初始化 1.2 使用 1.3 CTL 1.4 Scope 1.4.1 使用 1.4.2 功能 1.4.3 Scope 范围 1.5 StrategyExtendedV2 1.5.1 locality 1.5.2 如何更新 1.6 继承关系 2. 读取数据 2.1 直…
[源码解析] TensorFlow 分布式之 MirroredStrategy 目录 [源码解析] TensorFlow 分布式之 MirroredStrategy 1. 设计&思路 1.1 主要逻辑 1.2 使用 1.3 分析思路 2. 定义 2.1 MirroredStrategy 2.2 MirroredExtended 3. 初始化 3.1 初始化多worker 3.1.1 MultiWorkerMirroredStrategy 3.1.2 CollectiveAllReduceExte…
[源码解析] TensorFlow 分布式环境(1) --- 总体架构 目录 [源码解析] TensorFlow 分布式环境(1) --- 总体架构 1. 总体架构 1.1 集群角度 1.1.1 概念 1.1.2 示意图 1.1.3 创建 1.1.3.1 创建集群 1.1.3.2 创建任务 1.1.3.3 指定设备 1.2 分布式角度 1.2.1 概念 1.2.2 示意图 1.3 系统角度 1.3.1 概念 1.3.2 示意图 1.4 图操作角度 1.5 通信角度 2. Server 2.1 接…
[源码解析] TensorFlow 分布式环境(2)---Master 静态逻辑 目录 [源码解析] TensorFlow 分布式环境(2)---Master 静态逻辑 1. 总述 2. 接口 2.1 接口规范 2.2 MasterInterface 2.3 调用 3. LocalMaster 3.1 定义 3.2 注册 3.3 查找 3.4 功能 4. GrpcRemoteMaster 4.1 定义 4.2 功能 4.2.1 CreateSession 4.2.2 Master Service…
[源码解析] TensorFlow 分布式环境(3)--- Worker 静态逻辑 目录 [源码解析] TensorFlow 分布式环境(3)--- Worker 静态逻辑 1. 继承关系 1.1 角色概念 1.2 接口 1.3 WorkerInterface 派生类 2. GrpcRemoteWorker 2.1 定义 2.2 生成 2.3 发送请求 3. Worker Service 3.3.1 WorkerInterface 3.3.2 概念梳理 3.3.4 WorkerInterface…
[源码解析] TensorFlow 分布式环境(4) --- WorkerCache 目录 [源码解析] TensorFlow 分布式环境(4) --- WorkerCache 1. WorkerCache 1.1 如何使用 1.2 配置 1.3 工厂类 1.3.1 ParseChannelSpec 1.3.2 NewGrpcChannelCache 1.3.3 NewGrpcWorkerCacheWithLocalWorker 1.4 WorkerCacheInterface 1.4.1 接口…
[源码解析] TensorFlow 分布式环境(5) --- Session 目录 [源码解析] TensorFlow 分布式环境(5) --- Session 1. 概述 1.1 Session 分类 1.2 会话流程 1.2.1 MasterSession 生命周期 1.2.2 WorkerSession 生命周期 2. GrpcSession 2.1 定义 2.2 注册&工厂类 2.3 创建GrpcSession 2.4 创建MasterSession 2.4.1 GrpcRemoteMa…