ICLR 2018 | Deep Gradient Compression: Reducing the Communication Bandwidth for Distributed Training

为了降低大规模分布式训练时的通信开销,作者提出了一种名为深度梯度压缩(Deep Gradient Compression, DGC)的方法.DGC通过稀疏化技术,在每次迭代时只选择发送一部分比较"重要"的梯度元素,以达到降低整个训练过程通信量的目的.为了保证使用DGC后模型的精度,作者还使用了几种花里胡哨的技术,包括动量修正(momentum correction).本地梯度裁剪(local gradient cliping).动量因子遮蔽(momentum factor maskin…

INTERSPEECH 2014 | 1-Bit Stochastic Gradient Descent and its Application to Data-Parallel Distributed Training of Speech DNNs

这篇文章之前也读过,不过读的不太仔细,论文中的一些细节并没有注意到.最近为了写开题报告,又把这篇论文细读了一遍.据笔者了解,这篇论文应该是梯度量化领域的开山之作,首次使用了梯度量化技术来降低分布式神经网络训练的通信开销.除此之外,这篇文章还提出了误差补偿机制,这种机制可以缓解梯度量化的负面影响,降低信息丢失所带来的模型精度损失. 对于数据并行式训练来说,最佳节点数量\(\hat{K}\)能够使得节点中计算和数据通信完全重叠,即同时使通信和计算资源饱和: \[T_{calc}(\hat{K}) =…

[CVPR2018] Context-aware Deep Feature Compression for High-speed Visual Tracking

基于内容感知深度特征压缩的高速视觉跟踪论文下载:http://cn.arxiv.org/abs/1803.10537对于视频这种高维度数据,作者训练了多个自编码器AE来进行数据压缩,至于怎么选择具体的网络,作者又训练了一个基于目标选择具体AE的网络,再根据压缩后的特征图,进行协相关过滤操作追踪目标. 本文有趣的地方在于:1. 两种加噪声的操作,既增加了鲁棒性,又相当于数据增强.2. 为了自编码器的平稳训练和防过拟合提出了multi-stage distance loss.3. 最后移除相应低的…

论文笔记——Deep Model Compression Distilling Knowledge from Noisy Teachers

论文地址:https://arxiv.org/abs/1610.09650 主要思想这篇文章就是用teacher-student模型,用一个teacher模型来训练一个student模型,同时对teacher模型的输出结果加以噪声,然后来模拟多个teacher,这也是一种正则化的方法. 1. teacher输出的结果加噪声以后,然后和student的输出结果计算L2 loss,作为student网络的反馈. 2. 加噪声 3. 计算L2 loss 4. 反向传播,更新参数 5. 算法过程注意…

NASH：基于丰富网络态射和爬山算法的神经网络架构搜索 | ICLR 2018

论文提出NASH方法来进行神经网络结构搜索,核心思想与之前的EAS方法类似,使用网络态射来生成一系列效果一致且继承权重的复杂子网,本文的网络态射更丰富,而且仅需要简单的爬山算法辅助就可以完成搜索,耗时0.5GPU day 来源:晓飞的算法工程笔记公众号论文: Simple And Efficient Architecture Search for Convolutional Neural Networks 论文地址:https://arxiv.org/pdf/1711.04528.pdf…

基于层级表达的高效网络搜索方法 | ICLR 2018

论文基于层级表达提出高效的进化算法来进行神经网络结构搜索,通过层层堆叠来构建强大的卷积结构.论文的搜索方法简单,从实验结果看来,达到很不错的准确率,值得学习来源:[晓飞的算法工程笔记] 公众号论文: Hierarchical Representations for Efficient Architecture Search 论文地址:https://arxiv.org/abs/1711.00436 Introduction 由于网络的验证需要耗费很长的时间,神经网络结构搜索计算量非常…

MLHPC 2016 | Communication Quantization for Data-parallel Training of Deep Neural Networks

本文主要研究HPC上进行数据并行训练的可行性.作者首先在HPC上实现了两种通信量化算法(1 Bit SGD以及阈值量化),然后提出了自适应量化算法以解决它们的缺点.此外,发挥出量化算法的性能,作者还自己实现了一个Allreduce算法. 1 Bit SGD可以实现良好的重构和较低的误差,但与阈值量化相比,它的计算开销更大,并且压缩率不能达到32倍以上.阈值量化速度很快,但是不同的模型需要设置不同的阈值,而且选择好的阈值也很困难,并且使用阈值\(\tau\)作为重建值是次优的.如果阈值设置的比较小…

A Deep Neural Network Approach To Speech Bandwidth Expansion

题名:一种用于语音带宽扩展的深度神经网络方法作者:Kehuang Li:Chin-Hui Lee 2015年出来的摘要本文提出了一种基于深度神经网络(DNN)的语音带宽扩展(BWE)方法.利用对数谱功率作为输入输出特征进行所需的非线性变换,训练神经网络来实现这种高维映射函数.在10小时的大型测试集上对该方法进行评估时,我们发现与传统的基于高斯混合模型(GMMs)的BWE相比,DNN扩展语音信号在信噪比和对数谱失真方面具有很好的客观质量度量.在假定相位信息已知的情况下,主观听力测试对DNN扩…

Federated Machine Learning: Concept and Applications

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Qiang Yang, Yang Liu, Tianjian Chen, and Yongxin Tong. 2019. Federated Machine Learning: Concept and Applications. ACM Trans. Intell. Syst. Technol. 10, 2, Article 12 (February 2019), 19 pages. https://doi.org/0000001.0…

AI系统——梯度累积算法

明天博士论文要答辩了,只有一张12G二手卡,今晚通宵要搞定10个模型实验挖槽,突然想出一个T9开天霹雳模型,加载不进去我那张12G的二手卡,感觉要错过今年上台Best Paper领奖上面出现的问题主要是机器不够.内存不够用.在深度学习训练的时候,数据的batch size大小受到GPU内存限制,batch size大小会影响模型最终的准确性和训练过程的性能.在GPU内存不变的情况下,模型越来越大,那么这就意味着数据的batch size智能缩小,这个时候,梯度累积(Gradient Ac…

Distributed Deep Learning

安利一下刘铁岩老师的<分布式机器学习>这本书以及一个大神的blog: https://zhuanlan.zhihu.com/p/29032307 https://zhuanlan.zhihu.com/p/30976469 分布式深度学习原理在很多教程中都有介绍DL training的原理.我们来简单回顾一下: 那么如果scale太大,需要分布式呢?分布式机器学习大致有以下几个思路: 对于计算量太大的场景(计算并行),可以多线程/多节点并行计算.常用的一个算法就是同步随机梯度下降(synch…

[源码解析] PyTorch 分布式(1)------历史和概述

[源码解析] PyTorch 分布式(1)------历史和概述目录 [源码解析] PyTorch 分布式(1)------历史和概述 0x00 摘要 0x01 PyTorch分布式的历史 1.1 Multiprocessing 1.2 THD 底层库 1.3 torch.distributed 库 1.4 c10d库 1.5 RPC框架 1.6 弹性训练 1.7 流水线训练 0x02 分布式概述 2.1 引论 2.1.1 torch.distributed 包 2.1.2 知识链接 2.2…

[综述]Deep Compression/Acceleration深度压缩/加速/量化

Survey Recent Advances in Efficient Computation of Deep Convolutional Neural Networks, [arxiv '18] A Survey of Model Compression and Acceleration for Deep Neural Networks [arXiv '17] Quantization The ZipML Framework for Training Models with End-to-En…

网络压缩论文集(network compression)

Convolutional Neural Networks ImageNet Models Architecture Design Activation Functions Visualization Fast Convolution Low-Rank Filter Approximation Low Precision Parameter Pruning Transfer Learning Theory 3D Data Hardware ImageNet Models 2017 CVPR Xc…

Policy Gradient Algorithms

Policy Gradient Algorithms 2019-10-02 17:37:47 This blog is from: https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html Abstract: In this post, we are going to look deep into policy gradient, why it works, and many new polic…

Communication-Efficient Learning of Deep Networks from Decentralized Data

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Proceedings of the 20th International Conference on Artificial Intelligence and Statistics (AISTATS) 2017, Fort Lauderdale, Florida, USA. JMLR: W&CP volume 54. Copyright 2017 by the author(s). Abstract 现代移动设备可以访问大量适合模型学…

Deep Learning-Based Video Coding: A Review and A Case Study

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! 1.Abstract: 本文主要介绍的是2015年以来关于深度图像/视频编码的代表性工作,主要可以分为两类:深度编码方案以及基于传统编码方案的深度工具.对于深度编码方案,像素概率建模和自动编码器是两种方法,分别可以看作是预测编码方案和变换编码方案.对于深度工具,有几种使用深度学习来执行帧内预测.帧间预测.跨通道预测.概率分布预测.变换.后处理.环内滤波器.上/下采样以及编码优化的建议技术.为了倡导基于深度学习的视频编码研究,本文对我们…

（转）分布式深度学习系统构建简介 Distributed Deep Learning

HOME ABOUT CONTACT SUBSCRIBE VIA RSS DEEP LEARNING FOR ENTERPRISE Distributed Deep Learning, Part 1: An Introduction to Distributed Training of Neural Networks Oct 3, 2016 3:00:00 AM / by Alex Black and Vyacheslav Kokorin Tweet inShare27 This pos…

Deep Learning中的Large Batch Training相关理论与实践

背景 [作者:DeepLearningStack,阿里巴巴算法工程师,开源TensorFlow Contributor] 在分布式训练时,提高计算通信占比是提高计算加速比的有效手段,当网络通信优化到一定程度时,只有通过增加每个worker上的batch size来提升计算量,进而提高计算通信占比.然而一直以来Deep Learning模型在训练时对Batch Size的选择都是异常敏感的,通常的经验是Large Batch Size会使收敛性变差,而相对小一点的Batch Size才能收敛的更好…

My deep learning reading list

My deep learning reading list 主要是顺着Bengio的PAMI review的文章找出来的.包括几本综述文章,将近100篇论文,各位山头们的Presentation.全部都可以在google上找到.BTW:由于我对视觉尤其是检测识别比较感兴趣,所以关于DL的应用主要都是跟Vision相关的.在其他方面比如语音或者NLP,很少或者几乎没有.个人非常看好CNN和Sparse Autoencoder,这个list也反映了我的偏好,仅供参考. Review Book Lis…

Deep Learning关于Vision的Reading List

最近开始学习深度学习了,加油! 下文转载自:http://blog.sina.com.cn/s/blog_bda0d2f10101fpp4.html 主要是顺着Bengio的PAMI review的文章找出来的.包括几本综述文章,将近100篇论文,各位山头们的Presentation.全部都可以在google上找到. BTW:由于我对视觉尤其是检测识别比较感兴趣,所以关于DL的应用主要都是跟Vision相关的.在其他方面比如语音或者NLP,很少或者几乎没有.个人非常看好CNN和Sparse Au…

[C4] Andrew Ng - Improving Deep Neural Networks: Hyperparameter tuning, Regularization and Optimization

About this Course This course will teach you the "magic" of getting deep learning to work well. Rather than the deep learning process being a black box, you will understand what drives performance, and be able to more systematically get good res…

(zhuan) Deep Reinforcement Learning Papers

Deep Reinforcement Learning Papers A list of recent papers regarding deep reinforcement learning. The papers are organized based on manually-defined bookmarks. They are sorted by time to see the recent papers first. Any suggestions and pull requests…

The Brain vs Deep Learning Part I: Computational Complexity — Or Why the Singularity Is Nowhere Near

The Brain vs Deep Learning Part I: Computational Complexity — Or Why the Singularity Is Nowhere Near July 27, 2015July 27, 2015 Tim Dettmers Deep Learning, NeuroscienceDeep Learning, dendritic spikes, high performance computing, neuroscience, singula…

《MATLAB Deep Learning：With Machine Learning，Neural Networks and Artificial Intelligence》选记

一.Training of a Single-Layer Neural Network 1 Delta Rule Consider a single-layer neural network, as shown in Figure 2-11. In the figure, d i is the correct output of the output node i. Long story short, the delta rule adjusts the weight as the follow…

VGGNet论文翻译-Very Deep Convolutional Networks for Large-Scale Image Recognition

Very Deep Convolutional Networks for Large-Scale Image Recognition Karen Simonyan[‡] & Andrew Zisserman[§] Visual Geometry Group, Department of Engineering Science, University of Oxford {karen,az}@robots.ox.ac.uk 用于大规模图像识别的深度卷积网络 Karen Simonyan[‡] &am…

Deep Learning基础--参数优化方法

1. 深度学习流程简介 1)一次性设置(One time setup) -激活函数(Activation functions) - 数据预处理(Data Preprocessing) - 权重初始化(Weight Initialization) - 正则化(Regularization:避免过拟合的一种技术) - 梯度检查(Gradient checking) 2)动态训练(Training dynamics) - 跟踪学习过程 (Babysitting th…

论文解读第三代GCN《 Deep Embedding for CUnsupervisedlustering Analysis》

Paper Information Titlel:<Semi-Supervised Classification with Graph Convolutional Networks>Authors:Thomas Kipf, M. WellingSource:2016, ICLRPaper:Download Code:Download 致敬 Thomas Kipf 我原以为将 GCN 发扬光大的人应该是一位老先生,毕竟能将一个理论影响全世界的人必应该有很多的知识储备(主观直觉),然后我发现自…

论文解读(GraphDA)《Data Augmentation for Deep Graph Learning: A Survey》

论文信息论文标题:Data Augmentation for Deep Graph Learning: A Survey论文作者:Kaize Ding, Zhe Xu, Hanghang Tong, Huan Liu论文来源:2022, arXiv论文地址:download 1 介绍本文主要总结图数据增强,并对该领域的代表性方法做出归类分析. DGL 存在的两个问题: 次优图问题:图中包含不确定.冗余.错误和缺失的节点特征或图结构边. 有限标签问题:标签数据成本高,目前大部分 DGL 方法是…

Applied Deep Learning Resources

Applied Deep Learning Resources A collection of research articles, blog posts, slides and code snippets about deep learning in applied settings. Including trained models and simple methods that can be used out of the box. Mainly focusing on Convoluti…

【ICLR 2018 | Deep Gradient Compression: Reducing the Communication Bandwidth for Distributed Training】的更多相关文章