(转) ICML2016 TUTORIAL参会分享

ICML2016 TUTORIAL参会分享

本文转自: https://mp.weixin.qq.com/s?__biz=MzI3MDE4NTk4MQ==&mid=2658399541&idx=1&sn=de6da3b595f1843a85acf75110f54e48

原创 2016-07-26 阿里巴巴-探微蝙蝠遐想

本次ICML会议的tutorial安排在主会前一天。这次tutorial内容非常丰富，有微软亚研的hekaiming（已经跳去facebook）介绍深度残差网络，也有deepmind的david silver介绍强化学习，还有一系列优化相关的topic等等。笔者选取了深度残差网络，随机梯度，深度强化学习三个topic，下面简单做一下与会分享：

Deep Residual Network

He Kaiming FACEBOOK

相关介绍链接 http://kaiminghe.com/icml16tutorial/index.html。

He kaiming在这个tutorial中重点介绍了他们组最近提出的深度残差网络。在深度学习过程中，我们习惯把层数加深来获得更深的网络结构和更强的表达能力，但是层数加深往往会给模型参数优化带来困难，让整个结构不可学习。He等人的工作是设计了一套简单清晰的结构框架使得更深的网络可学习，从之前最深的22层网络进行着层数的革命提升到实际可用的100层以上。

从可学习性维度来看，层数的不同我们的设计也需要有相应的变化：如果层数小于5层，那么一般的bp可以直接使用；如果层数大于10层，那么就需要考虑一些初始化，或者batch数据规范化的方式来处理；如果层数大于30层，有效的删减链接是一种方式；如果大于100层，需要引入identity skip connection；大于1000层的方法还在研究当中。

对于初始化和batch数据规范化这里做一个简单的介绍，在Lecun et al 1998 “Efficient Backprop”一文最先提出。从线性激励函数出发，我们知道输出的方差实际上是正比于输入的方差，正比值和权重的方差有关，为了避免随着层数增加的梯度弥散现象，可以设定权重的方差初始化为1，如果是relu函数需要相应的调整。Batch数据规范化，把每层的输入按照零均值单位方差进行规范化，输出要做一下相应的调整，这样也是在一定程度上避免梯度弥散的问题，从实际效果上来讲可以加速训练，对初始化不敏感等。

但是对于构建更加深层的网络，初始化和batch数据规范化还不够，更深层可能会带来更高的训练误差，说明可学习性成为一个问题。但是反过来看，更深的网络拥有更大的解空间，相对于较浅层的网络，不应该训练误差都更大，因为即使新增加的层设计成单位层也应该可以达到和原来浅层网络一样的结构，所以困难主要集中在层数变深之后优化的困难。

基于此，He等人设计了residual net网络。传统结构中我们希望通过两层网络由输入x得到输出H(x)，在residual net中，我们希望引入一个单位映射，使得H(x) = F(x) + x。这样设计的好处是两层结构学习的是残差F(x)，复杂的网络不用学习完整的表达H(x)，只用学习残差即可。当优化时，借助于单位映射，深层的loss可以很容易的传导到浅层。从另外一个维度来讲，引入单位映射，我们在优化时有能力忽略掉一些层。

基于100多层的网络，作者进一步从表示，优化，泛化能力三个层面探讨了深度残差网络的未来。从表达能力维度来看，残差网络并没有新增任何优点，但是可以使得模型变深；从优化维度来看，残差网络的重点突破在于使得正反向传播弥散问题得到缓解；从泛化能力来看，残差网络虽然没有明显的优点但是又深又瘦的网络结构会让泛化能力更好。

而如果要把100层的网络扩展到1000层以上，需要围绕单位映射好好做文章。如果是H(x) = F(x) + x这样的结构，那么X_L = x_l + \sum_{i=l}{L-1} F(x_i)，不同层之间的传导非常平滑，最后的输出可以认为是一个加性模型，而反过来如果不是残差网络，那么输入到输出是一个乘性模型，对于正反向传播都会带来问题。基于此，He等人指出对于正反向传播，不能设计乘性模型来阻碍传播，单位映射和加性模型的设计成为必然。

笔者很认可He等人在深度残差网络设计中的思想。随着模型进一步go deeper，我们的模型设计需要围绕两个方面具体展开：

表达能力，这一块具体看是否捕捉了数据的性质，深度残差网络基于的cnn基本building block已经把这一点考虑进来，而对于我们用户数据，结构上的设计还存在很大空间；
优化能力，这一块看模型是否能真正的被学习到，一个复杂不可学的模型不如一个简单可学习的模型，residual网络通过传导上的优化可以去解决梯度弥散的问题，这样的逻辑应该可以处理所有涉及反向传播的网络结构优化。

Stochastic Gradient Methods for Large-Scale Machine Learning

Leon Bottou (Facebook AI Research), Frank E. Curtis (Lehigh University), and Jorge Nocedal (Northwestern University)

这个talk主要介绍的是随机梯度法在大规模机器学习问题里面的应用，相关文章已经在arxiv上贴出来http://arxiv.org/abs/1606.04838。这个talk具体从三个方面展开，a. 随机梯度的概括，b. 理论分析，c. 二阶方法和减少噪声。

1.sg方法的概括

随机梯度法（SG方法）的思路，简单理解就是每次挑选一个样本计算梯度，然后更新权重。传统的batch learning方法是过一下所有的样本计算所有样本梯度的平均值，再更新权重。从效率层面来看，sg方法要更加优越，但从收敛性角度来看，sg方法相对于梯度下降法是sublinear的收敛速度。

2.从理论维度来看sg方法

随机梯度法的理论分析主要集中其收敛性证明，以及收敛到最优值的可能性。这一块主要偏于纯优化理论分析，如果感兴趣可以深入文章仔细看一下推导。下面分享一些结论：对于凸目标固定步长和步长减小的情况下，sg方法得到的收敛点和最优值之间的gap存在一个上界。而对于dnn所涉及的非凸优化问题，这里的理论集中在前k次迭代梯度模的期望是有上界的，且对于步长减小的情况，要到达收敛，需要步长一阶级数发善，二阶级数收敛。

对于大规模learning的问题，作者分析了batch方法和sg方法在收敛性，达到一定误差情况下所需要的迭代时间上的差异。同时他们也指出，由于通讯，同步成本的一些问题，对于分布式计算也许sg并不是一个很好的方案。

3.sg方法的改进

对于随机梯度法存在两个方面的扩展：1、从noise reduction的角度能否向batch learning方法借鉴；2、选取的方向上面能否引入二阶信息。具体来说，随机梯度法要减少每次仅采用单个样本计算梯度的noise，可以从动态采样，梯度累积，迭代平均等方面优化。梯度累积方法的思路是引入之前存储的全局梯度信息来修正由单个batch计算梯度得到的方向，例如svrg，saga方法。

SVRG方法会记录所有样本对应的梯度，然后每次挑选一个样本确定更新方向的时候，计算这个样本对应的梯度，然后更新的量等于全部的梯度加上当前这个样本梯度减去历史这个样本的梯度，在一个batch样本全部过一遍后，更新一下整体基准的w并计算其对于所有样本的梯度。

SAGA算法是采用一个table记录所有样本的梯度，然后每次随机挑选的样本会把其对应的梯度更新，然后整体上使用所有样本的平均梯度去更新。迭代平均的方法是直接使用过去k步w的平均值作为下一步的w。

选取的方向引入二阶信息是说不仅单计算梯度，也可以使用牛顿法和拟牛顿法计算更新方向，比如lbfgs要应用于随机梯度的情况中，需要考虑逼近的hessian矩阵是一个降采样的hessian矩阵。

笔者认为sg算法目前在dnn优化，大样本优化上应用较广，但是我们目前的方案确实在并行处理维度上考虑的较少，同时对sg方法在采样噪声上的考虑也较少。最近sg方法在降低噪声问题有了不少扎实的工作，例如svrg，saga方法的深入方法和理论研究。结合主会上最新的研究进展，降样本噪声的随机梯度优化方法在理论上也有了一些不错的进展，建议接下来我们可以跟进一下具体方法，可能对我们的整体算法优化有明显的效率提升。

Deep Reinforcement Learning

David Silver Google DeepMind

强化学习是一套通用的目标决策框架：在任何一个状态，用户可以采取一个行动，行动会影响用户未来的状态，并获得一个回报，目标是选择合适的行动最大化未来的收益。而深度学习是一套通用的表示学习框架。我们可以采用rl来定义目标，dl提供具体的表示方法，处理玩游戏，探索，控制，交互等问题。

在rl领域我们重点描述三点，观测的状态，采取的行动，获取的回报。对于这三点，我们采用策略来描述用户的行为函数，用价值函数来评估每一个状态和行为，用模型来建模表示环境。其中策略函数是状态到行为的映射，价值函数是对未来回报的预测，而Q-value函数描述的是状态s时采用行动a得到的预期全部回报。

通常rl的方法分为三种：

value-based RL，希望得到每个状态下最优的Q-value function；
policy-based RL，希望能够直接获得最优的策略；
model-based RL，希望建模环境。这三种方法都可以引入deep nn来做表示，使用sgd方法优化损失函数。

Value-based方法又称为Q函数学习。我们直接把状态和行为当作输入，把回报当作输出构建Q网络，学习到的最优Q函数应该满足Bellman方程，采用sgd方法最小化mse。在采用神经网络描述Q函数的时候要注意两点：

样本之间的相关性，
非平稳状态的target。

具体atari游戏中，DQN是直接把游戏的图片作为输入（可以认为是状态），然后输出是不同操作对应的Q函数值，当然基于DQN的扩展也有一些工作，例如Double DQN方法修改了最后优化的目标函数，将选择action和评价action的网络参数w分开；Prioritised replay，在priority队列里面根据DQN误差存储experience；Dueling network，这个工作获得了ICML2016的best paper，具体思路就是把Q网络拆分为价值函数（和行为无关）和优势函数两个部分。基于此，deepmind构建了名为Gorila的一套RL学习的框架并应用到google的推荐系统。

Policy based的方法则需要学习等到最优的策略函数。我们将策略函数用深度网络来表示，目标函数为预期的整体收益，采用sgd方法进行整体网络优化。

Actor-Critic算法是其中一个经典方法，首先评估Q函数，给定近似最优策略我们可以得到一个近似的Q函数，然后带入Q函数我们进一步优化策略网络。针对Actor-Critic的升级也有一些方法，例如A3C，其并不是直接估计Q函数，而是先估计状态函数，从状态函数出发估计Q函数，策略网络参数和Q函数部分的优化分开。

在解决连续动作空间的问题时，DPG方法是一个不错的解法，具体思路分为3个方面：

采用experience replay的方法构建数据集；
Critic部分采用DQN；
Actor策略函数优化沿着优化Q的方向进行。

对于有多个agent 的游戏中，FSP方法考虑不同agent的策略，学习平均意义上的最优response。

对于直接建模环境的方法目前仍然存在一些挑战，研究进展不大。

笔者认为RL特别是RL和DL的结合接下来会成为机器学习领域的一个热点。当我们将目光投向真实世界时，我们面对的问题不在只是纯粹的预测，分类，聚类问题。RL区别于传统的机器学习问题有几点不同：1、回报滞后；2、序列决策，不同状态采取的决策不一样，同时也会影响下一阶段的状态，整个序列决策的过程是相互联系的，而不是互相独立的。在这个过程中，参数化的方法，dl的引入只是具体的实现手段。我们要应用RL到我们的具体业务之中，需要有准确的切入点，不能生搬硬套。怎样更好的找到业务和技术的结合点，需要大家一起集思广益碰撞出火花。

关注了解更多人工智能内容：

微信扫一扫
关注该公众号

(转) ICML2016 TUTORIAL参会分享的更多相关文章

ICML2016 TUTORIAL参会分享
本次ICML会议的tutorial安排在主会前一天.这次tutorial内容非常丰富,有微软亚研的hekaiming(已经跳去facebook)介绍深度残差网络,也有deepmind的david si ...
探索云网络技术前沿，Sigcomm 2019 阿里云参会分享
Sigcomm 2019简介一年一度的网络顶级学术峰会Sigcomm于8月20日至22日在北京举行.作为ACM Special Interest Group on Data Communicatio ...
Facebook F8|闲鱼高级技术专家参会分享
笔者代表闲鱼参加了Facebook在4月30日举行的为期二天的F8大会,地点加州.将会议概括和一些收获分享给大家.对国内开发者而言,Facebook的产品设计.社区.VR/AR等有一些借鉴意义:对海外 ...
2019 GNTC 阿里云参会分享：开放、弹性的阿里云网络NFV平台
作为全球规模最大的网络技术盛会之一,GNTC全球网络技术大会是网络技术发展的重要风向标,包含战略规划.产业方向.技术趋势.应用创新等皆汇集于此.而作为云服务商代表,阿里云再度受邀以顶级钻石合作伙伴之名 ...
2019 GNTC 阿里云参会分享：云原生SDWAN网络2.0 一站式上云服务
本次10/22-24 南京2019 GNTC大会上,阿里云网络云原生SDWAN网络2.0 由于独特的云原生定位.创新的解决方案,及成熟的应用案例.行业用户,获得行业媒体C114中国通信网.产业专家高度 ...
[Java Tutorial学习分享]接口与继承
目录接口概述 Java 中的接口使用接口作为API 定义一个接口 The Interface Body 实现接口使用接口作为类型进化的接口默认方法扩展包含默认方法的接口静态方法接口总 ...
CNN卷积神经网络_深度残差网络 ResNet——解决神经网络过深反而引起误差增加的根本问题，Highway NetWork 则允许保留一定比例的原始输入 x。（这种思想在inception模型也有，例如卷积是concat并行，而不是串行）这样前面一层的信息，有一定比例可以不经过矩阵乘法和非线性变换，直接传输到下一层，仿佛一条信息高速公路，因此得名Highway Network
from:https://blog.csdn.net/diamonjoy_zone/article/details/70904212 环境:Win8.1 TensorFlow1.0.1 软件:Anac ...
Unite Beijing 2018 参会简要分享
一. Training Day 主讲人:鲍建运操作:马瑞课程包括较为完整的功能,如灯光设置,角色动画控制,Cinemachine,Timeline,AI寻路,以及最新的Post Processin ...
ABP架构设计交流群-上海线下交流会的内容分享（有高清录像视频的链接）
点这里进入ABP系列文章总目录 ABP架构设计交流群-7月18日上海线下交流会内容分享因为最近工作特别忙,很久没有更新博客了,真对不起关注我博客和ABP系列文章的朋友! 原计划在7月11日举行的AB ...

随机推荐

SharePoint 2013 开发——发布SharePoint应用程序
博客地址:http://blog.csdn.net/FoxDave 前几篇我们介绍了开发.部署和调试SharePoint应用程序的基础,本篇介绍更实用的操作,当我们开发一个SharePoint应用 ...
linux下的文件权限管理
权限管理有两个层面第一层区分用户:文件属主(u), 组用户(g), 其它(o) 第二层区分权限:读(r),写(w),可执行(x) 这两个层次构成文件权限管理的二维结构 u g ...
使用struts2的<s>标签出错
15:org.apache.struts2.views.jsp.ActionTag 16:JSP 17:18:19:executeResult Server: Resin/3.1.4a Content ...
Fix a corrupted user profile
Fix a corrupted user profile Applies to Windows 7 Your user profile is a collection of settings that ...
Redis - 介绍及安装
Redis属于key-value数据库,与传统的数据库存在很大区别,Redis以命令的方式代替了复杂的SQL语句,并且属于内存库性质,所以运行速度非常快.内存数据会生成数据库文件保证数据持久化. Re ...
java作业3
Java字段初始化的规律: 静态初始化生成实例之后(就是new之后)变成你赋给它的值 ,先执行静态初始化,如果没有实例化,按照初始化块和构造方法在程序中出现的顺序执行. 当多个类之间有继承关系时,创建 ...
Android布局居中的几种做法
Android的布局文件中,如果想让一个组件(布局或View)居中显示在另一个布局(组件)中,可以由这么几种做法: android:layout_gravity android:gravity and ...
ASP.NET获取客户端及服务器的信息
客户端信息: 1. 在ASP.NET中专用属性: 获取服务器电脑名:Page.Server.ManchineName 获取用户信息:Page.User 获取客户端电脑名:Page.Request.Us ...
mysql主从同步mysql slave_io_running:no的解决方案
在主从同步的时候出现slave_io_running:no 问题,于是查看mysqld.log日志,发现时1042错误解决方案: 编辑/etc/my.cnf,在:[mysqld]内添加一行:skip ...
.csproj文件的配置 IIS可以调试
<ProjectExtensions> <VisualStudio> <FlavorProperties GUID="{349c5851-65df-11da-9 ...

(转) ICML2016 TUTORIAL参会分享

ICML2016 TUTORIAL参会分享

(转) ICML2016 TUTORIAL参会分享的更多相关文章

随机推荐

热门专题