论文阅读翻译之Deep reinforcement learning from human preferences

【论文阅读翻译之Deep reinforcement learning from human preferences】的更多相关文章

论文笔记之：Deep Reinforcement Learning with Double Q-learning

Deep Reinforcement Learning with Double Q-learning Google DeepMind Abstract 主流的 Q-learning 算法过高的估计在特定条件下的动作值.实际上,之前是不知道是否这样的过高估计是 common的,是否对性能有害,以及是否能从主体上进行组织.本文就回答了上述的问题,特别的,本文指出最近的 DQN 算法,的确存在在玩 Atari 2600 时会 suffer from substantial overestimation…

论文阅读之：Deep Meta Learning for Real-Time Visual Tracking based on Target-Specific Feature Space

Deep Meta Learning for Real-Time Visual Tracking based on Target-Specific Feature Space 2018-01-04 15:58:15 写在前面:为什么要看这个paper?这篇 paper 貌似是第一个将 meta-learning 应用到 visual tracking 领域的,取得了速度和精度较好的平衡. Introduction: 我们知道,tracking 中比较重要的就是 target object…

深度强化学习（Deep Reinforcement Learning）入门：RL base & DQN-DDPG-A3C introduction

转自https://zhuanlan.zhihu.com/p/25239682 过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题.子曰:温故而知新,在进一步深入研究和应用DRL前,阶段性的整理下相关知识点.本文集中在DRL的model-free方法的Value-based和Policy-base方法,详细介绍下RL的基本概念和Value-based DQN,Policy-based DDPG两个主要算法,对目前state-of-art的算法(A3C)详细介绍,其他…

Deep Reinforcement Learning for Dialogue Generation 论文阅读

本文来自李纪为博士的论文 Deep Reinforcement Learning for Dialogue Generation. 1,概述当前在闲聊机器人中的主要技术框架都是seq2seq模型.但传统的seq2seq存在很多问题.本文就提出了两个问题: 1)传统的seq2seq模型倾向于生成安全,普适的回答,例如“I don’t know what you are talking about”.为了解决这个问题,作者在更早的一篇文章中提出了用互信息作为模型的目标函数.具体见A Diversi…

论文阅读之: Hierarchical Object Detection with Deep Reinforcement Learning

Hierarchical Object Detection with Deep Reinforcement Learning NIPS 2016 WorkShop Paper : https://arxiv.org/pdf/1611.03718v1.pdf Project Page : https://github.com/imatge-upc/detection-2016-nipsws 摘要: 我们提出一种基于深度强化学习的等级物体检测方法 (Hierarchical Object De…

论文笔记之：Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning

论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning 2017-06-06 21:43:53 这篇文章的 Motivation 来自于 MDNet: 本文所提出的 framework 为:…

Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记

Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记 arXiv 摘要:本文提出了一种 DRL 算法进行单目标跟踪,算是单目标跟踪中比较早的应用强化学习算法的一个工作. 在基于深度学习的方法中,想学习一个较好的 robust spatial and temporal representation for continuous video data 是非常困难的. 尽管最近的 CNN based tracke…

论文笔记之：Dueling Network Architectures for Deep Reinforcement Learning

Dueling Network Architectures for Deep Reinforcement Learning ICML 2016 Best Paper 摘要:本文的贡献点主要是在 DQN 网络结构上,将卷积神经网络提出的特征,分为两路走,即:the state value function 和 the state-dependent action advantage function. 这个设计的主要特色在于 generalize learning across actions w…

论文笔记之：Asynchronous Methods for Deep Reinforcement Learning

Asynchronous Methods for Deep Reinforcement Learning ICML 2016 深度强化学习最近被人发现貌似不太稳定,有人提出很多改善的方法,这些方法有很多共同的 idea:一个 online 的 agent 碰到的观察到的数据序列是非静态的,然后就是,online的 RL 更新是强烈相关的.通过将 agent 的数据存储在一个 experience replay 单元中,数据可以从不同的时间步骤上,批处理或者随机采样.这种方法可以降低 non-st…

论文笔记之：Playing Atari with Deep Reinforcement Learning

Playing Atari with Deep Reinforcement Learning <Computer Science>, 2013 Abstract: 本文提出了一种深度学习方法,利用强化学习的方法,直接从高维的感知输入中学习控制策略.模型是一个卷积神经网络,利用 Q-learning的一个变种来进行训练,输入是原始像素,输出是预测将来的奖励的 value function.将此方法应用到 Atari 2600 games 上来,进行测试,发现在所有游戏中都比之前的方法有效,甚至在…