当我们在大型的数据集上面进行深度学习的训练时,往往需要大量的运行资源,而且还要花费大量时间才能完成训练. 1.分布式TensorFlow的角色与原理 在分布式的TensorFlow中的角色分配如下: PS:作为分布式训练的服务端,等待各个终端(supervisors)来连接. worker:在TensorFlow的代码注释中被称为终端(supervisors),作为分布式训练的计算资源终端. chief supervisors:在众多的运算终端中必须选择一个作为主要的运算终端.该终端在运算终端中…
[源码解析] TensorFlow 分布式 DistributedStrategy 之基础篇 目录 [源码解析] TensorFlow 分布式 DistributedStrategy 之基础篇 1. StrategyBase 1.1 初始化 1.2 使用 1.3 CTL 1.4 Scope 1.4.1 使用 1.4.2 功能 1.4.3 Scope 范围 1.5 StrategyExtendedV2 1.5.1 locality 1.5.2 如何更新 1.6 继承关系 2. 读取数据 2.1 直…
[源码解析] TensorFlow 分布式之 MirroredStrategy 目录 [源码解析] TensorFlow 分布式之 MirroredStrategy 1. 设计&思路 1.1 主要逻辑 1.2 使用 1.3 分析思路 2. 定义 2.1 MirroredStrategy 2.2 MirroredExtended 3. 初始化 3.1 初始化多worker 3.1.1 MultiWorkerMirroredStrategy 3.1.2 CollectiveAllReduceExte…
[源码解析] TensorFlow 分布式之 MirroredStrategy 分发计算 目录 [源码解析] TensorFlow 分布式之 MirroredStrategy 分发计算 0x1. 运行 1.1 基类 Strategy 1.2 StrategyExtendedV1 1.3 MirroredExtended 0x2. mirrored_run 2.1 call_for_each_replica 2.2 建立线程 2.3 线程定义 0x3. Context 3.1 ensure_ini…
[源码解析] TensorFlow 分布式之 ClusterCoordinator 目录 [源码解析] TensorFlow 分布式之 ClusterCoordinator 1. 思路 1.1 使用 1.2 问题点 2. 定义 2.1 Schedule 2.2 Join 2.3 Done 2.4 Fetch 3. 数据 3.1 建立数据集 3.2 PerWorkerDistributedDataset 3.3 PerWorkerDatasetFromDatasetFunction 3.4 _cr…
[源码解析] TensorFlow 分布式环境(1) --- 总体架构 目录 [源码解析] TensorFlow 分布式环境(1) --- 总体架构 1. 总体架构 1.1 集群角度 1.1.1 概念 1.1.2 示意图 1.1.3 创建 1.1.3.1 创建集群 1.1.3.2 创建任务 1.1.3.3 指定设备 1.2 分布式角度 1.2.1 概念 1.2.2 示意图 1.3 系统角度 1.3.1 概念 1.3.2 示意图 1.4 图操作角度 1.5 通信角度 2. Server 2.1 接…
[源码解析] TensorFlow 分布式环境(2)---Master 静态逻辑 目录 [源码解析] TensorFlow 分布式环境(2)---Master 静态逻辑 1. 总述 2. 接口 2.1 接口规范 2.2 MasterInterface 2.3 调用 3. LocalMaster 3.1 定义 3.2 注册 3.3 查找 3.4 功能 4. GrpcRemoteMaster 4.1 定义 4.2 功能 4.2.1 CreateSession 4.2.2 Master Service…
[源码解析] TensorFlow 分布式环境(3)--- Worker 静态逻辑 目录 [源码解析] TensorFlow 分布式环境(3)--- Worker 静态逻辑 1. 继承关系 1.1 角色概念 1.2 接口 1.3 WorkerInterface 派生类 2. GrpcRemoteWorker 2.1 定义 2.2 生成 2.3 发送请求 3. Worker Service 3.3.1 WorkerInterface 3.3.2 概念梳理 3.3.4 WorkerInterface…
[源码解析] TensorFlow 分布式环境(4) --- WorkerCache 目录 [源码解析] TensorFlow 分布式环境(4) --- WorkerCache 1. WorkerCache 1.1 如何使用 1.2 配置 1.3 工厂类 1.3.1 ParseChannelSpec 1.3.2 NewGrpcChannelCache 1.3.3 NewGrpcWorkerCacheWithLocalWorker 1.4 WorkerCacheInterface 1.4.1 接口…
[源码解析] TensorFlow 分布式环境(5) --- Session 目录 [源码解析] TensorFlow 分布式环境(5) --- Session 1. 概述 1.1 Session 分类 1.2 会话流程 1.2.1 MasterSession 生命周期 1.2.2 WorkerSession 生命周期 2. GrpcSession 2.1 定义 2.2 注册&工厂类 2.3 创建GrpcSession 2.4 创建MasterSession 2.4.1 GrpcRemoteMa…