论文笔记——N2N Learning: Network to Network Compression via Policy Gradient Reinforcement Learning

【论文笔记——N2N Learning: Network to Network Compression via Policy Gradient Reinforcement Learning】的更多相关文章

论文笔记——N2N Learning: Network to Network Compression via Policy Gradient Reinforcement Learning

论文地址:https://arxiv.org/abs/1709.06030 1. 论文思想利用强化学习,对网络进行裁剪,从Layer Removal和Layer Shrinkage两个维度进行裁剪. 一个是对层判断是否进行裁剪,一个是判断一层中的参数的裁剪. 2. 原理图 3. 实现细节将层信息进行编码表示,然后送入双端的LSTM中,最后通过Softmax学出多个行为的概率.然后来决定层的裁剪信息. 4. 结果 ResNet-34上实现了10倍的压缩.…

论文笔记之：Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning

论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning 2017-06-06 21:43:53 这篇文章的 Motivation 来自于 MDNet: 本文所提出的 framework 为:…

Deep Learning专栏--强化学习之从 Policy Gradient 到 A3C（3）

在之前的强化学习文章里,我们讲到了经典的MDP模型来描述强化学习,其解法包括value iteration和policy iteration,这类经典解法基于已知的转移概率矩阵P,而在实际应用中,我们很难具体知道转移概率P.伴随着这类问题的产生,Q-Learning通过迭代来更新Q表拟合实际的转移概率矩阵 P,实现了强化学习在大多数实际场景中的应用.但是,在很多情况下,诸多场景下的环境状态比较复杂,有着极大甚至无穷的状态空间,维护这一类问题的Q表使得计算代价变得很高,这时就有了通过Deep网络来…

论文笔记之：Progressive Neural Network Google DeepMind

Progressive Neural Network Google DeepMind 摘要:学习去解决任务的复杂序列 --- 结合 transfer (迁移),并且避免 catastrophic forgetting (灾难性遗忘) --- 对于达到 human-level intelligence 仍然是一个关键性的难题.本文提出的 progressive networks approach 朝这个方向迈了一大步:他们对 forgetting 免疫,并且可以结合 prior knowledg…

论文笔记：Attentional Correlation Filter Network for Adaptive Visual Tracking

Attentional Correlation Filter Network for Adaptive Visual Tracking CVPR2017 摘要:本文提出一种新的带有注意机制的跟踪框架,该框架会选择部分有关联的相关滤波器用于提高跟踪的鲁棒性和计算效率.根据跟踪目标的动态特性,本文利用深度自注网络选择部分滤波器. 本文的主要的贡献在于以下几点: 本文引入自注相关滤波网络,用于动态目标的自适应跟踪利用自注网络,关注最好的候选模型增加相关滤波器的多样性,以覆盖目标的更多的变化本文网…

论文笔记：Cross-Domain Visual Matching via Generalized Similarity Measure and Feature Learning

Cross-Domain Visual Matching,即跨域视觉匹配.所谓跨域,指的是数据的分布不一样,简单点说,就是两种数据「看起来」不像.如下图中,(a)一般的正面照片和各种背景角度下拍摄的照片:(b)摄像头不同角度下拍到的照片:(c)年轻和年老时的人脸照:(d)证件照和草图风格的人脸照,这些图像都存在对应关系,但由于它们属于不同的域,因此必须针对不同的域采用不同的特征提取方法,之后再做特征匹配.这篇论文提出用一种通用的相似模型来匹配两个域之间的特征,并将其和特征提取流程融合在一起,统一…

论文笔记：多标签学习综述（A review on multi-label learning algorithms）

2014 TKDE(IEEE Transactions on Knowledge and Data Engineering) 张敏灵,周志华简单介绍传统监督学习主要是单标签学习,而现实生活中目标样本往往比较复杂,具有多个语义,含有多个标签.本综述主要介绍了多标签学习的一些相关内容,包括相关定义,评价指标,8个多标签学习算法,相关的其它任务. 论文大纲相关定义:学习任务,三种策略评价指标:基于样本的评价指标,基于标签的评价指标学习算法:介绍了8个有代表性的算法,4个基于问题转化的算法和4…

Awesome Reinforcement Learning

Awesome Reinforcement Learning A curated list of resources dedicated to reinforcement learning. We have pages for other topics: awesome-rnn, awesome-deep-vision, awesome-random-forest Maintainers: Hyunsoo Kim, Jiwon Kim We are looking for more contri…

论文笔记之：Active Object Localization with Deep Reinforcement Learning

Active Object Localization with Deep Reinforcement Learning ICCV 2015 最近Deep Reinforcement Learning算是火了一把,在Google Deep Mind的主页上,更是许多关于此的paper,基本都发在ICML,AAAI,IJCAI等各种人工智能,机器学习的牛会顶刊,甚至是Nature,可以参考其官方publication page: https://www.deepmind.com/publicatio…

18 Issues in Current Deep Reinforcement Learning from ZhiHu

深度强化学习的18个关键问题 from: https://zhuanlan.zhihu.com/p/32153603 85 人赞了该文章深度强化学习的问题在哪里?未来怎么走?哪些方面可以突破? 这两天我阅读了两篇篇猛文A Brief Survey of Deep Reinforcement Learning 和 Deep Reinforcement Learning: An Overview ,作者排山倒海的引用了200多篇文献,阐述强化学习未来的方向.原文归纳出深度强化学习中的常见科学问题,…

(转) Deep Learning Research Review Week 2: Reinforcement Learning

Deep Learning Research Review Week 2: Reinforcement Learning 转载自: https://adeshpande3.github.io/adeshpande3.github.io/Deep-Learning-Research-Review-Week-2-Reinforcement-Learning This is the 2nd installment of a new series called Deep Learning Resea…

(转) Deep Reinforcement Learning: Playing a Racing Game

Byte Tank Posts Archive Deep Reinforcement Learning: Playing a Racing Game OCT 6TH, 2016 Agent playing Out Run, session 201609171218_175epsNo time limit, no traffic, 2X time lapse Above is the built deep Q-network (DQN) agent playing Out Run, trained…

[转]Introduction to Learning to Trade with Reinforcement Learning

Introduction to Learning to Trade with Reinforcement Learning http://www.wildml.com/2018/02/introduction-to-learning-to-trade-with-reinforcement-learning/ Thanks a lot to @aerinykim, @suzatweet and @hardmaru for the useful feedback! The academic Deep…

Introduction to Learning to Trade with Reinforcement Learning

http://www.wildml.com/2015/12/implementing-a-cnn-for-text-classification-in-tensorflow/ The academic Deep Learning research community has largely stayed away from the financial markets. Maybe that’s because the finance industry has a bad reputation,…

【资料总结】| Deep Reinforcement Learning 深度强化学习

在机器学习中,我们经常会分类为有监督学习和无监督学习,但是尝尝会忽略一个重要的分支,强化学习.有监督学习和无监督学习非常好去区分,学习的目标,有无标签等都是区分标准.如果说监督学习的目标是预测,那么强化学习就是决策,它通过对周围的环境不断的更新状态,给出奖励或者惩罚的措施,来不断调整并给出新的策略.简单来说,就像小时候你在不该吃零食的时间偷吃了零食,你妈妈知道了会对你做出惩罚,那么下一次就不会犯同样的错误,如果遵守规则,那你妈妈兴许会给你一些奖励,最终的目标都是希望你在该吃饭的时候吃饭,该吃零食…

Tutorials on Inverse Reinforcement Learning

Tutorials on Inverse Reinforcement Learning 2018-07-22 21:44:39 1. Papers: Inverse Reinforcement Learning: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.394.2178&rep=rep1&type=pdf Cooperative Inverse Reinforcement Learning: http://pape…

(zhuan) Paper Collection of Multi-Agent Reinforcement Learning (MARL)

this blog from: https://github.com/LantaoYu/MARL-Papers Paper Collection of Multi-Agent Reinforcement Learning (MARL) This is a collection of research and review papers of multi-agent reinforcement learning (MARL). The sharing principle of these refe…

Deep Reinforcement Learning 基础知识

Introduction 深度增强学习Deep Reinforcement Learning是将深度学习与增强学习结合起来从而实现从Perception感知到Action动作的端对端学习的一种全新的算法.简单的说,就是和人类一样,输入感知信息比如视觉,然后通过深度神经网络,直接输出动作,中间没有hand-crafted工作.深度增强学习具备使机器人实现完全自主的学习一种甚至多种技能的潜力. 虽然将深度学习和增强学习结合的想法在几年前就有人尝试,但真正成功的开端是DeepMind在NIPS 201…

Deep Reinforcement Learning 基础知识（DQN方面）

Introduction 深度增强学习Deep Reinforcement Learning是将深度学习与增强学习结合起来从而实现从Perception感知到Action动作的端对端学习的一种全新的算法.简单的说,就是和人类一样,输入感知信息比如视觉,然后通过深度神经网络,直接输出动作,中间没有hand-crafted工作.深度增强学习具备使机器人实现完全自主的学习一种甚至多种技能的潜力. 虽然将深度学习和增强学习结合的想法在几年前就有人尝试,但真正成功的开端是DeepMind在NIPS 201…

论文笔记之：Dueling Network Architectures for Deep Reinforcement Learning

Dueling Network Architectures for Deep Reinforcement Learning ICML 2016 Best Paper 摘要:本文的贡献点主要是在 DQN 网络结构上,将卷积神经网络提出的特征,分为两路走,即:the state value function 和 the state-dependent action advantage function. 这个设计的主要特色在于 generalize learning across actions w…

论文笔记系列-Neural Network Search ：A Survey

论文笔记系列-Neural Network Search :A Survey 论文笔记 NAS automl survey review reinforcement learning Bayesian Optimization evolutionary algorithm 注:本文主要是结合自己理解对原文献的总结翻译,有的部分直接翻译成英文不太好理解,所以查阅原文会更直观更好理解. 本文主要就Search Space.Search Strategy.Performance Estimatio…

论文笔记《Maxout Networks》 && 《Network In Network》

论文笔记 <Maxout Networks> && <Network In Network> 发表于 2014-09-22 | 1条评论出处 maxout:http://arxiv.org/pdf/1302.4389v4.pdfNIN:http://arxiv.org/abs/1312.4400 参考 maxout和NIN具体内容不作解释下,可以参考:Deep learning:四十五(maxout简单理解)Network In Network 各用一句话…

Deep Learning 25：读论文“Network in Network”——ICLR 2014

论文Network in network (ICLR 2014)是对传统CNN的改进,传统的CNN就交替的卷积层和池化层的叠加,其中卷积层就是把上一层的输出与卷积核(即滤波器)卷积,是线性变换,然后再加上一个非线性变换的激活函数(比如:relu),但是在NIN中并有像CNN中这样, 1.它们的区别之一是卷积层不一样: CNN: 卷积层＝卷积+激活函数 NIN:卷积层＝mlpconv层＝卷积+MLP ＝卷积+1*1卷积+1*1卷积＝卷积+relu+1*1卷积+relu+1*1卷积+relu…

【论文笔记】Malware Detection with Deep Neural Network Using Process Behavior

[论文笔记]Malware Detection with Deep Neural Network Using Process Behavior 论文基本信息会议: IEEE(2016 IEEE 40th Annual Computer Software and Applications Conference) 单位: Nagoya University(名古屋大学).NTT Secure Platform Laboratories(NTT安全平台实验室) 方法概述数据:81个恶意软件日志文件…

论文笔记： Dual Deep Network for Visual Tracking

论文笔记: Dual Deep Network for Visual Tracking 2017-10-17 21:57:08 先来看文章的流程吧 ... 可以看到,作者所总结的三个点在于: 1. 文章将边界和形状信息结合到深度网络中.底层 feature 和高层 feature 结合起来,得到 coarse prior map,然后用 ICA-R model 得到更加显著的物体轮廓,以得到更好的似然性模型: 2. Dual network 分别处理两路不同的网络,使得前景和背景更加具有…

Face Aging with Conditional Generative Adversarial Network 论文笔记

Face Aging with Conditional Generative Adversarial Network 论文笔记 2017.02.28 Motivation: 本文是要根据最新的条件产生式对抗玩网络(CGANs)来完成,人类老年照片的估计. 主要是做了一下两个事情: 1. 根据年龄阶段,进行照片的老年估计,用 acGAN 网络来完成: 2. 提出一种隐层变量优化算法(latent vector optimization approach),允许 acGAN 可以重构输入人脸图像…

论文《Network in Network》笔记

论文:Lin M, Chen Q, Yan S. Network In Network[J]. Computer Science, 2013. 参考:关于CNN中1×1卷积核和Network in Network的理解参考: 深度学习(二十六)Network In Network学习笔记 1. 1×1 convolutions 作用:1×1卷积核可以起到一个跨通道聚合的作用,所以进一步可以起到降维(或者升维)的作用,起到减少参数的目的. 比如当前层为 x*x*m即图像大小为x*x,特征层数为m…

Deep Learning 24：读论文“Batch-normalized Maxout Network in Network”——mnist错误率为0.24%

读本篇论文“Batch-normalized Maxout Network in Network”的原因在它的mnist错误率为0.24%,世界排名第4.并且代码是用matlab写的,本人还没装cafe…… 理论知识本文是台湾新竹国立交通大学的Jia-Ren Chang 写的,其实要说这篇文章有多在的创新,还真没有,实际上它就是把三篇比较新的论文的东西组合起来,分别是这三篇: 1.Network in network :ICLR 2014 2.Maxout Networks :ICML 20…

Deep Learning论文笔记之（四）CNN卷积神经网络推导和实现（转）

Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完过后就会慢慢的淡忘,某一天重新拾起来的时候又好像没有看过一样.所以想习惯地把一些感觉有用的论文中的知识点总结整理一下,一方面在整理过程中,自己的理解也会更深,另一方面也方便未来自己的勘察.更好的还可以放到博客上面与大家交流.因为基础有限,所以对论文的一些理解可能不太正确,还望大家不吝指正…

Deep Learning论文笔记之（四）CNN卷积神经网络推导和实现

https://blog.csdn.net/zouxy09/article/details/9993371 自己平时看了一些论文,但老感觉看完过后就会慢慢的淡忘,某一天重新拾起来的时候又好像没有看过一样.所以想习惯地把一些感觉有用的论文中的知识点总结整理一下,一方面在整理过程中,自己的理解也会更深,另一方面也方便未来自己的勘察.更好的还可以放到博客上面与大家交流.因为基础有限,所以对论文的一些理解可能不太正确,还望大家不吝指正交流,谢谢. 本文的论文来自: Notes on Convolutio…