TensorFlow分布式计算机制解读：以数据并行为重

Tensorflow 是一个为数值计算(最常见的是训练神经网络)设计的流行开源库。在这个框架中，计算流程通过数据流程图(data flow graph)设计，这为更改操作结构与安置提供了很大灵活性。TensorFlow 允许多个 worker 并行计算，这对必须通过处理的大量训练数据训练的神经网络是有益的。此外，如果模型足够大，这种并行化有时可能是必须的。在本文中，我们将探讨 TensorFlow 的分布式计算机制。

TensorFlow 计算图示例

数据并行 VS. 模型并行

当在多个计算节点间分配神经网络训练时，通常采用两种策略：数据并行和模型并行。在前者中，在每个节点上单独创建模型的实例，并馈送不同的训练样本;这种架构允许更高的训练吞吐量。相反，在模型并行中，模型的单一实例在多个节点间分配，这种架构允许训练更大的模型(可能不一定适合单节点的存储器http://aomenyonli.cn/)。如果需要，也可以组合这两种策略，使给定模型拥有多个实例，每个实例跨越多个节点。在本文中，我们将重点关注数据并行。

数据并行与模型并行的不同形式。左：数据并行;中：模型并行;右：数据并行与模型并行。

TensorFlow 中的数据并行

当使用 TensorFlow 时，数据并行主要表现为两种形式：图内复制(ihttp://dajinnylee.cn/n-graph replication)和图间复制(between-graph replication)。两种策略之间最显著的区别在于流程图的结构与其结果。

图内复制

图内复制通常被认为是两种方法中更简单和更直接(但更不可扩展的)的方法。当采用这种策略时，需要在分布式的主机上创建一个包含所有 worker 设备中副本的流程图。可以想象，随着 worker 数量的增长，这样的流程图可能会大幅扩展，这可能会对模型性能产生不利影响。然而，对于小系统(例如，双 GPU 台式计算机)，由于其简单性，图内复制可能是最优的。

以下是使用单个 GPU 的基线 TensorFlow 方法与应用图内复制方法的代码片段的对比。考虑到图内复制方法与扩展(scaling)相关的问题，我们将仅考虑单机、多 GPU 配置的情况。这两个代码片段之间的差异非常小，它们的差异仅存在于：对输入数据的分块，使得数据在各 worker 间均匀分配，遍历每个含有 worker 流程图的设备，并将来自不同 worker 的结果连接起来。通过少量代码更改，我们可以利用多个设备，这种方法使可扩展性不再成为大障碍，从而在简单配置下更受欢迎。

# single GPU (baseline) import tensorflow as tf # place the initial data on the cpu withtf.device('/cpu:0'): input_data = tf.Variable([[1.,2., 3.], [4., 5., 6.],[7., 8., 9.], [10., 11.,12.]]) b = tf.Variable([[1.],[1.], [2.]]) # compute the result on the 0th gpu withtf.device('/gpu:0'): output = tf.matmul(input_data, b) # create a session and run with tf.Session() as sess:sess.run(tf.global_variables_initializer()) print sess.run(output) # in-graph replication import tensorflow as tf num_gpus = 2 # place the initial data on the cpuwith tf.device('/cpu:0'): input_data = tf.Variable([[1.,2., 3.], [4., 5., 6.],[7., 8., 9.], [10., 11.,12.]]) b = tf.Variable([[1.],[1.], [2.]]) # split the data into chunks for each gpu inputs= tf.split(input_data, num_gpus) outputs = [] # loop over available gpus and pass input data for i in range(num_gpus): withtf.device('/gpu:'+str(i)):outputs.append(tf.matmul(inputs[i], b)) # merge the results of the devices with tf.device('/cpu:0'): output = tf.concat(outputs,axis=0) # create a session and run with tf.Session() as sess:sess.run(tf.global_variables_initializer()) print sess.run(output)

这些更改也可以通过检查下面的 TensorFlow 流程图来可视化。增加的 GPU 模块说明了原始方法的扩展方式。

图内复制的可视化。左：原始图。右：图内复制的结果图

TensorFlow分布式计算机制解读：以数据并行为重的更多相关文章

分布式机器学习系统笔记（一）——模型并行，数据并行，参数平均，ASGD
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术.应用感兴趣的同学加入. 文章索引::"机器学 ...
C#并行编程-PLINQ:声明式数据并行
目录 C#并行编程-相关概念 C#并行编程-Parallel C#并行编程-Task C#并行编程-并发集合 C#并行编程-线程同步原语 C#并行编程-PLINQ:声明式数据并行背景通过LINQ可 ...
转载：Java Lock机制解读
Java Lock机制解读欢迎转载: https://blog.csdn.net/chengyuqiang/article/details/79181229 1.synchronized synch ...
C#并行编程-PLINQ:声明式数据并行-转载
C#并行编程-PLINQ:声明式数据并行目录 C#并行编程-相关概念 C#并行编程-Parallel C#并行编程-Task C#并行编程-并发集合 C#并行编程-线程同步原语 C#并行编程-P ...
一、并行编程 - 数据并行 System.Threading.Tasks.Parallel 类
一.并行概念 1.并行编程在.NET 4中的并行编程是依赖Task Parallel Library(后面简称为TPL) 实现的.在TPL中,最基本的执行单元是task(中文可以理解为"任 ...
SIMD数据并行（三）——图形处理单元（GPU）
在计算机体系中,数据并行有两种实现路径:MIMD(Multiple Instruction Multiple Data,多指令流多数据流)和SIMD(Single Instruction Multip ...
SIMD数据并行（二）——多媒体SIMD扩展指令集
在计算机体系中,数据并行有两种实现路径:MIMD(Multiple Instruction Multiple Data,多指令流多数据流)和SIMD(Single Instruction Multip ...
Redisson 分布式锁实战与 watch dog 机制解读
Redisson 分布式锁实战与 watch dog 机制解读目录 Redisson 分布式锁实战与 watch dog 机制解读背景普通的 Redis 分布式锁的缺陷 Redisson 提供的 ...
[源码解析] PyTorch分布式优化器(2)----数据并行优化器
[源码解析] PyTorch分布式优化器(2)----数据并行优化器目录 [源码解析] PyTorch分布式优化器(2)----数据并行优化器 0x00 摘要 0x01 前文回顾 0x02 DP 之 ...

随机推荐

创建Web API并使用
昨晚有教一个网友在ASP.NET MVC里,创建Web API和在MVC视图中应用此API. 可以在ASP.NET MVC中,创建程序的model: namespace Insus.NET.Model ...
vue 动态加载组建
<component :is="comp1"></component> data () { return { comp1:'', } } require.e ...
Java 中单引号和双引号的区别
引自:https://blog.csdn.net/hubianyu/article/details/39700367 单引号引的数据是char类型的双引号引的数据是String类型的char定义 ...
绍一集训Round#1
到了之后看题,T1一看发现真熟悉,和之前做的一道题真的像,然后内心: 这里是绍一啊,不可能就出这么简单的题我题意没理解错啊,这不是单独计算每条边的贡献么维护一个人数的大小,然后直接搞一波就可以了吧 ...
Linux性能评测工具之一：gprof篇
这些天自己试着对项目作一些压力测试和性能优化,也对用过的测试工具作一些总结,并把相关的资料作一个汇总,以便以后信手拈来! 1 简介改进应用程序的性能是一项非常耗时耗力的工作,但是究竟程序中是哪些函数 ...
IOS 上架到App Store被拒的常见问题总结
Guideline 2.3.3 - Performance - Accurate Metadata 2017年11月16日上午12:52 发件人 Apple 2. 3 Performance: Ac ...
mysql操作命令梳理（1）-索引
1.创建索引索引的创建可以在CREATE TABLE语句中进行,也可以单独用CREATE INDEX或ALTER TABLE来给表增加索引.以下命令语句分别展示了如何创建主键索引(PRIMARY KE ...
Python-集合-17
''' 集合:可变的数据类型,他里面的元素必须是不可变的数据类型,无序,不重复. {} ''' set1 = set({1,2,3}) # set2 = {1,2,3,[2,3],{'name':'a ...
PAT甲级题解（慢慢刷中）
博主欢迎转载,但请给出本文链接,我尊重你,你尊重我,谢谢~http://www.cnblogs.com/chenxiwenruo/p/6102219.html特别不喜欢那些随便转载别人的原创文章又不给 ...
第六周-总结&结对编程
1.结对编程结对编程的Partner依旧是郑蕊师姐(博客:http://www.cnblogs.com/zhengrui0452/) 我们一起改进的是郑蕊师姐做的“四则运算” 郑蕊师姐之前完成四则运 ...

TensorFlow分布式计算机制解读：以数据并行为重

TensorFlow分布式计算机制解读：以数据并行为重的更多相关文章

随机推荐

热门专题