INTERSPEECH 2015 | Scalable Distributed DNN Training Using Commodity GPU Cloud Computing

一般来说，全连接层的前向和后向传递所需的计算量与权重的数量成正比。此外，数据并行训练中所需的带宽与可训练权重的数量成比例。因此，随着每个节点计算速度的提高，所需的网络带宽也随之增加。这篇文章主要是根据阈值进行梯度的稀疏化和量化操作，从而降低分布式训练中的通信开销。稀疏化指的是只传输那些比较重要的梯度（例如绝对值较大的梯度），而量化则是使用较少的比特来表示原始梯度，二者的差别由下图描述[1]：

本文提出的梯度压缩方法基于以下两个观点：（1）很多加速SGD的方法，包括minibatch SGD、动量法、双缓冲以及异步SGD，都可以在某种程度上视为延迟更新的变体；（2）节点上的子梯度是非常稀疏的，这就意味着只有少量的权值需要更新，换句话说，我们只需要传递那些对权值更新产生较大作用的梯度，而不再传输其余的梯度，这样就能降低带宽占用。

因为只传输那些大于某一阈值的梯度，所以我们必须记住这些梯度的索引，以在接收端对其进行重构。在实现上，我们可以使用字典存储索引和对应的梯度值。为了保证精度，我们并不直接在原始梯度上进行操作，而是操纵一个名为梯度残差的东西。在处理每个minibatch时，我们首先将上一次迭代的梯度残差与本次迭代的原始梯度相加，得到本次迭代的梯度残差。随后，对于残差向量中的每个元素，如果该元素大于正阈值，就将该元素的索引与正阈值编码进字典中，再从对应的残差元素中减去阈值；如果该元素小于负阈值，就将该元素的索引与负阈值编码进字典中，再从对应的残差元素中加上阈值。对于那些绝对值小于阈值的残差元素，我们不再传输它们。但是，随着迭代次数的增加，这些元素可能在某次迭代时就超过了阈值，从而完成一次更新。在某种程度上来说，这就是一种延迟更新策略。算法伪代码如下所示：

在实现中，我们将每个梯度（残差）元素编码为两个数字：整数元素索引和浮点梯度元素。为了进一步降低通信开销，本文使用1比特来编码梯度元素，使用31比特编码元素索引，这样就使用4个字节编码了1个整数和1个浮点数。为了保证模型精度，同样需要使用1 Bit SGD中提到的误差补偿技术。需要注意的是，本文使用的是对等结构而非参数服务器架构，而且整个训练过程中只进行梯度的传输，不进行权值的传输。为了降低GPU与OS之间的I/O瓶颈，作者还使用了CUDA中的某些字符串压缩函数。

参考资料

[1] Tang Z, Shi S, Chu X, et al. Communication-Efficient Distributed Deep Learning: A Comprehensive Survey[J]. arXiv preprint arXiv:2003.06307, 2020.

INTERSPEECH 2015 | Scalable Distributed DNN Training Using Commodity GPU Cloud Computing的更多相关文章

Meet Dgraph — an open source, scalable, distributed, highly available and fast graph databas
https://dgraph.io/ Meet Dgraph — an open source, scalable, distributed, highly available and fast gr ...
Scalable, Distributed Systems Using Akka, Spring Boot, DDD, and Java--转
原文地址:https://dzone.com/articles/scalable-distributed-systems-using-akka-spring-boot-ddd-and-java Whe ...
论文阅读笔记六十四: Architectures for deep neural network based acoustic models defined over windowed speech waveforms(INTERSPEECH 2015)
论文原址:https://pdfs.semanticscholar.org/eeb7/c037e6685923c76cafc0a14c5e4b00bcf475.pdf 摘要本文研究了利用深度神经网络 ...
（转）分布式深度学习系统构建简介 Distributed Deep Learning
HOME ABOUT CONTACT SUBSCRIBE VIA RSS DEEP LEARNING FOR ENTERPRISE Distributed Deep Learning, Part ...
https ddos检测——研究现状
from: https://jyx.jyu.fi/bitstream/handle/123456789/52275/1/URN%3ANBN%3Afi%3Ajyu-201612125051.pdf 相关 ...
77-CCI，Commodity Channel Index，商品通道指标.(2015.7.1)
CCI,Commodity Channel Index 商品通道指标 Channel Index,商品通道指标.(2015.7.1)" title="77-CCI,Commodit ...
分布式系统(Distributed System)资料
这个资料关于分布式系统资料,作者写的太好了.拿过来以备用网址:https://github.com/ty4z2008/Qix/blob/master/ds.md 希望转载的朋友,你可以不用联系我．但 ...
[专题论文阅读]【分布式DNN训练系统】 FireCaffe
FireCaffe Forrest N. Iandola FireCaffe: near-linear acceleration of deep neural network training on ...
Toward Scalable Systems for Big Data Analytics: A Technology Tutorial (I - III)
ABSTRACT Recent technological advancement have led to a deluge of data from distinctive domains (e.g ...

随机推荐

使用Python 爬取京东，淘宝。商品详情页的数据。（避开了反爬虫机制）
以下是爬取京东商品详情的Python3代码,以excel存放链接的方式批量爬取.excel如下代码如下 from selenium import webdriver from lxml import ...
在 k8s 中的 jenkins 集成 sonarqube 实现代码质量检查
不乱于心,不困于情,不畏将来,不念过往,如此安好 --<不宠无惊过一生>丰子恺概述关于在 k8s 中安装 jenkins 和 sornarqube 可以查看下面的文章: 在 k8s 中 ...
CentOS7搭建Docker私有仓库----Docker
有时候使用Docker Hub这样的公共仓库可能不方便,这种情况下用户可以使用registry创建一个本地仓库供私人使用,这点跟Maven的管理类似.目前Docker Registry已经升级到了v2 ...
多线程-创建线程第二种方式-实现Runnable接口-细节和好处
1 package multithread2; 2 3 /* 4 * 创建线程的第一种方法:继承Thread类 5 * 6 * 创建线程的第二种方式:实现Runnable接口 7 * 8 * 1,定义 ...
一：linux安装nginx
目录 1.yun安装 2.二进制安装 3.编译安装 1.yun安装 nginx官网:https://nginx.org/ [root@web01 ~]# vim /etc/yum.repos.d/ng ...
HTTP状态码1XX深入理解
前段时间看了<御赐小仵作>,里面有很多细节很有心.看了一些评论都是:终于在剧里能够看到真正在搞事业.发了工资第一时间还钱的正常人了.我印象比较深的是王府才能吃上的葡萄.觉得非常合理.剧里说 ...
python matplotlib通过 plt.scatter在图上画圆
import matplotlib.pyplot as plt lena = mpimg.imread(r'C:\Users\Administrator.WIN-QV9HPTF0DHS\Desktop ...
微信小程序之多选功能
思路:把向得到的数组中添加一个布尔值,默认都为false,然后通过数组的映射功能把选中的布尔值,存储到数组中,在组件属性中,用三元运算符做判断即可 data:{ sampleArray: [{ id: ...
Atcoder ARC-060
ARC060(2020.7.8) A 背包板子 B 首先感觉这个东西应该不能直接 \(O(1)\) 算出来,那么复杂度应该就是 \(O(\log n), O(\sqrt{n}), O(\sqrt{n} ...
python编写购物车
上次的学习又没有坚持下来,工作忙的不可开交,但我反思了一下还是自己没有下定决心好好学习,所以这次为期3个月的学习计划开始了,下面是这次学习后重新编写的购物车初版代码. 1 # 功能要求: 2 # 要求 ...

INTERSPEECH 2015 | Scalable Distributed DNN Training Using Commodity GPU Cloud Computing

INTERSPEECH 2015 | Scalable Distributed DNN Training Using Commodity GPU Cloud Computing的更多相关文章

随机推荐

热门专题