深度强化学习的18个关键问题 from: https://zhuanlan.zhihu.com/p/32153603 85 人赞了该文章 深度强化学习的问题在哪里?未来怎么走?哪些方面可以突破? 这两天我阅读了两篇篇猛文A Brief Survey of Deep Reinforcement Learning 和 Deep Reinforcement Learning: An Overview ,作者排山倒海的引用了200多篇文献,阐述强化学习未来的方向.原文归纳出深度强化学习中的常见科学问题,…
From: http://wanghaitao8118.blog.163.com/blog/static/13986977220153811210319/ accessed 2016-03-10 深度强化学习(Deep Reinforcement Learning)的资源 Google的Deep Mind团队2013年在NIPS上发表了一篇牛x闪闪的文章,亮瞎了好多人眼睛,不幸的是我也在其中.前一段时间收集了好多关于这方面的资料,一直躺在收藏夹中,目前正在做一些相关的工作(希望有小伙伴一起交流)…
Human-level control through deep reinforcement learning Nature 2015 Google DeepMind Abstract RL 理论 在动物行为上,深入到心理和神经科学的角度,关于在一个环境中如何使得 agent 优化他们的控制,提供了一个正式的规范.为了利用RL成功的接近现实世界的复杂度的环境中,然而,agents 遇到了一个难题:他们必须从高维感知输入中得到环境的有效表示,然后利用这些来将过去的经验应用到新的场景中去.显著地,人…
Playing FPS games with deep reinforcement learning 博文转自:https://blog.acolyer.org/2016/11/23/playing-fps-games-with-deep-reinforcement-learning/ When I wrote up 'Asynchronous methods for deep learning' last month, I made a throwaway remark that after…
Byte Tank Posts Archive Deep Reinforcement Learning: Playing a Racing Game OCT 6TH, 2016 Agent playing Out Run, session 201609171218_175epsNo time limit, no traffic, 2X time lapse Above is the built deep Q-network (DQN) agent playing Out Run, trained…
Andrej Karpathy blog About Hacker's guide to Neural Networks Deep Reinforcement Learning: Pong from Pixels May 31, 2016 This is a long overdue blog post on Reinforcement Learning (RL). RL is hot! You may have noticed that computers can now automatica…
Playing Atari with Deep Reinforcement Learning <Computer Science>, 2013 Abstract: 本文提出了一种深度学习方法,利用强化学习的方法,直接从高维的感知输入中学习控制策略.模型是一个卷积神经网络,利用 Q-learning的一个变种来进行训练,输入是原始像素,输出是预测将来的奖励的 value function.将此方法应用到 Atari 2600 games 上来,进行测试,发现在所有游戏中都比之前的方法有效,甚至在…
Active Object Localization with Deep Reinforcement Learning ICCV 2015 最近Deep Reinforcement Learning算是火了一把,在Google Deep Mind的主页上,更是许多关于此的paper,基本都发在ICML,AAAI,IJCAI等各种人工智能,机器学习的牛会顶刊,甚至是Nature,可以参考其官方publication page: https://www.deepmind.com/publicatio…
已经成为DL中专门的一派,高大上的样子 Intro: MIT 6.S191 Lecture 6: Deep Reinforcement Learning Course: CS 294: Deep Reinforcement Learning Jan 18: Introduction and course overview (Levine, Finn, Schulman) Slides: Levine Slides: Finn Slides: Schulman Video Why deep rei…
Hierarchical Object Detection with Deep Reinforcement Learning NIPS 2016 WorkShop  Paper : https://arxiv.org/pdf/1611.03718v1.pdf Project Page : https://github.com/imatge-upc/detection-2016-nipsws  摘要: 我们提出一种基于深度强化学习的等级物体检测方法 (Hierarchical Object  De…
MIT(Deep Learning for Self-Driving Cars) CMU(Deep Reinforcement Learning and Control ) 参考网址: 1 Deep Learning for Self-Driving Cars  --  6.S094 http://selfdrivingcars.mit.edu/ 2 Deep Reinforcement Learning and Control  --  10703 https://katefvision.gi…
Deep Reinforcement Learning Papers A list of recent papers regarding deep reinforcement learning. The papers are organized based on manually-defined bookmarks. They are sorted by time to see the recent papers first. Any suggestions and pull requests…
1. 知乎上关于DQN入门的系列文章 1.1 DQN 从入门到放弃 DQN 从入门到放弃1 DQN与增强学习 DQN 从入门到放弃2 增强学习与MDP DQN 从入门到放弃3 价值函数与Bellman方程 DQN 从入门到放弃4 动态规划与Q-Learning DQN从入门到放弃5 深度解读DQN算法 DQN从入门到放弃6 DQN的各种改进 DQN从入门到放弃7 连续控制DQN算法-NAF 12/29/2016 看完1和2: 1.2 Deep Reinforcement Learning 深度增…
Dueling Network Architectures for Deep Reinforcement Learning ICML 2016 Best Paper 摘要:本文的贡献点主要是在 DQN 网络结构上,将卷积神经网络提出的特征,分为两路走,即:the state value function 和 the state-dependent action advantage function. 这个设计的主要特色在于 generalize learning across actions w…
Apparently, this ongoing work is to make a preparation for futural research on Deep Reinforcement Learning. The goal of this work is to build a simulation platform that can insert the Deep Reinforcement Learning algorithms as a robot motion planning…
Asynchronous Methods for Deep Reinforcement Learning ICML 2016 深度强化学习最近被人发现貌似不太稳定,有人提出很多改善的方法,这些方法有很多共同的 idea:一个 online 的 agent 碰到的观察到的数据序列是非静态的,然后就是,online的 RL 更新是强烈相关的.通过将 agent 的数据存储在一个 experience replay 单元中,数据可以从不同的时间步骤上,批处理或者随机采样.这种方法可以降低 non-st…
Deep Reinforcement Learning with Double Q-learning Google DeepMind Abstract 主流的 Q-learning 算法过高的估计在特定条件下的动作值.实际上,之前是不知道是否这样的过高估计是 common的,是否对性能有害,以及是否能从主体上进行组织.本文就回答了上述的问题,特别的,本文指出最近的 DQN 算法,的确存在在玩 Atari 2600 时会 suffer from substantial overestimation…
在机器学习中,我们经常会分类为有监督学习和无监督学习,但是尝尝会忽略一个重要的分支,强化学习.有监督学习和无监督学习非常好去区分,学习的目标,有无标签等都是区分标准.如果说监督学习的目标是预测,那么强化学习就是决策,它通过对周围的环境不断的更新状态,给出奖励或者惩罚的措施,来不断调整并给出新的策略.简单来说,就像小时候你在不该吃零食的时间偷吃了零食,你妈妈知道了会对你做出惩罚,那么下一次就不会犯同样的错误,如果遵守规则,那你妈妈兴许会给你一些奖励,最终的目标都是希望你在该吃饭的时候吃饭,该吃零食…
本文来自李纪为博士的论文 Deep Reinforcement Learning for Dialogue Generation. 1,概述 当前在闲聊机器人中的主要技术框架都是seq2seq模型.但传统的seq2seq存在很多问题.本文就提出了两个问题: 1)传统的seq2seq模型倾向于生成安全,普适的回答,例如“I don’t know what you are talking about”.为了解决这个问题,作者在更早的一篇文章中提出了用互信息作为模型的目标函数.具体见A Diversi…
Reinforcement-Learning-Introduction-Adaptive-Computation http://incompleteideas.net/book/bookdraft2017nov5.pdf http://incompleteideas.net/book/ebook/the-book.html https://www.amazon.com/Reinforcement-Learning-Introduction-Adaptive-Computation/dp/0262…
深度学习课程笔记(十八)Deep Reinforcement Learning - Part 1 (17/11/27) Lectured by Yun-Nung Chen @ NTU CSIE 2018-08-11 13:42:23 This video can be found from: https://www.youtube.com/watch?v=yQdD_R_I6vc  Slides: https://www.csie.ntu.edu.tw/~yvchen/f106-adl/doc/1…
Learning how to Active Learn: A Deep Reinforcement Learning Approach 2018-03-11 12:56:04 1. Introduction: 对于大部分 NLP 的任务,得到足够的标注文本来进行模型的训练是一个关键的瓶颈.所以,active learning 被引入到 NLP 任务中以最小化标注数据的代价.AL 的目标是通过识别一小部分数据来进行标注,以此来降低 cost,选来最小化监督模型的精度. 毫无疑问的是,AL 对于其…
论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning  2017-06-06  21:43:53  这篇文章的 Motivation 来自于 MDNet: 本文所提出的 framework 为:…
Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记 arXiv 摘要:本文提出了一种 DRL 算法进行单目标跟踪,算是单目标跟踪中比较早的应用强化学习算法的一个工作.  在基于深度学习的方法中,想学习一个较好的 robust spatial and temporal representation for continuous video data 是非常困难的.  尽管最近的 CNN based tracke…
Deep Reinforcement Learning Based Trading Application at JP Morgan Chase https://medium.com/@ranko.mosic/reinforcement-learning-based-trading-application-at-jp-morgan-chase-f829b8ec54f2 FT released a story today about the new application that will op…
1 前言 Deep Reinforcement Learning可以说是当前深度学习领域最前沿的研究方向,研究的目标即让机器人具备决策及运动控制能力.话说人类创造的机器灵活性还远远低于某些低等生物,比如蜜蜂..DRL就是要干这个事,而是关键是使用神经网络来进行决策控制. 因此,考虑了一下,决定推出DRL前沿系列,第一时间推送了解到的DRL前沿,主要是介绍最新的研究成果,不讲解具体方法(考虑到博主本人也没办法那么快搞懂).也因此,本文对于完全不了解这个领域,或者对这个领域感兴趣的童鞋都适合阅读.…
RL的方案 两个主要对象:Agent和Environment Agent观察Environment,做出Action,这个Action会对Environment造成一定影响和改变,继而Agent会从新的环境中获得Reward.循环上述步骤. 举例: 机器人把水杯打翻了,人类说“不能这么做”,机器人获得人类的这个负向反馈,然后机器人观察到水杯打翻的状态,采取了拖地的行为,获得了人类的“谢谢”的正向反馈. Agent学习的目标就是使得期望的回报(reward)最大化. 注意:State(observ…
Introduction 深度增强学习Deep Reinforcement Learning是将深度学习与增强学习结合起来从而实现从Perception感知到Action动作的端对端学习的一种全新的算法.简单的说,就是和人类一样,输入感知信息比如视觉,然后通过深度神经网络,直接输出动作,中间没有hand-crafted工作.深度增强学习具备使机器人实现完全自主的学习一种甚至多种技能的潜力. 虽然将深度学习和增强学习结合的想法在几年前就有人尝试,但真正成功的开端是DeepMind在NIPS 201…
Heinrich, Johannes, and David Silver. "Deep reinforcement learning from self-play in imperfect-information games." arXiv preprint arXiv:1603.01121(2016). 这篇文章提出了基于深度学习的自我博弈达到纳什均衡的训练方法.这个方法避免了人为的先验知识的误导,采用了端到端的训练方式,达到了人类专家级水平. 方法: 通过自我博弈产生训练数据,用来…
Mnih, Volodymyr, et al. "Asynchronous methods for deep reinforcement learning." International Conference on Machine Learning. 2016. DeepMind rl系列文章之一. 他们提出了一个简单的轻量级框架,使得deep rl能通过异步更新进行训练.在单个多核CPU上只用了一半的训练时间,取得了优于以前模型在GPU上的训练结果.另外,该框架也支持连续输出的控制任…