2015年,DeepMind团队在Nature杂志上发表了一篇文章名为“Human-level control through deep reinforcement learning”的论文,在这篇论文中,他们提出了DQN算法的改进版本,他们将改进的算法应用到49种不同的Atari 2600游戏中,并且其中的一半实现了超过人类玩家的性能。现在,深度强化学习已经成为了人工智能(Artificial Intelligence,简称AI)领域最前沿的研究方向,在各个应用领域也是备受推崇,如同David Silver认为的那样,未来的人工智能一定是深度学习(Deep Learning)和强化学习(Reinforcement Learning)的结合。

基于此磐小仙会给大家带来关于深度强化学习的一个专栏。这个专栏主要针对想要学习深度强化学习相关领域研究人员与相关从业者。通过专栏的学习,快速带你弄懂深度强化学习原理,与上手深度强化学习实战!

1. 专栏介绍

除了Facebook之外,Twitter、GMU和Salesforce等机构

近年来,强化学习的应用和研究越来越受到大家的关注,强化学习和深度学习一样,都是机器学习研究的重要分支,纵观强化学习的发展,它有着自己的一套理论和方法,尤其将深度学习和强化学习结合之后,其内容则被更加丰富了。虽然目前强化学习已经逐渐应用于人工智能、任务调度以及工业控制等领域,并展现出了其潜在的巨大应用价值,但是由于现实环境的复杂性,导致仍然有很多问题需要解决。

本专栏是实战类的,所以不便花大量的篇幅去介绍强化学习的理论知识,在本专栏的前两节内容里,我们会简单的介绍一下强化学习的基础知识;在第三节和第四节内容里,我们会学习一些最基础的强化学习算法,帮助读者快速入门;第五节内容是三个强化学习算法的项目实战,通过几个小的项目帮助读者加深对算法的理解;第六节内容里会结合实战项目介绍几个常见的深度强化学习算法,实现这些深度强化学习算法是以前面所有内容为基础的;另外,如果读者有兴趣深入研究强化学习和深度强化学习的知识,推荐读者去学习本专栏小结里给出的推荐学习资料。

2. 专栏目录

1. 引言

  • 专栏知识结构

  • 从AlphaGo看深度强化学习

2. 强化学习基础知识

  • 强化学习问题

  • 马尔科夫决策过程

  • 最优价值函数和贝尔曼方程

3. 有模型的强化学习方法

  • 价值迭代

  • 策略迭代

4. 无模型的强化学习方法

  • 蒙特卡洛方法

  • 时序差分学习

  • 值函数近似

  • 策略搜索

5. 实战强化学习算法

  • Q-learning 算法

  • Monte Carlo Policy Gradient 算法

  • Actor Critic 算法

6. 深度强化学习算法

  • Deep Q-Networks(DQN)

  • Deep Deterministic Policy Gradient(DDPG)

7. 专栏小结

3. 更新计划

更新频率:一周一篇

开始时间:下周开始

4. 学习交流

为了方便大家更好地与作者进行沟通交流,为此磐小仙针对这个专栏成立了QQ和微信读者交流群,同时邀请了专栏的作者小猴锅坐镇交流群,大家想近距离与作者沟通,都可以来加入。

加入方式:扫描下方微信群二维码,或者QQ群二维码,即可加入交流群。

扫描上方二维码,加入微信交流群

扫描上方二维码,加入QQ交流群

深度强化学习(DRL)专栏开篇的更多相关文章

  1. 深度学习-深度强化学习(DRL)-Policy Gradient与PPO笔记

    Policy Gradient 初始学习李宏毅讲的强化学习,听台湾的口音真是费了九牛二虎之力,后来看到有热心博客整理的很细致,于是转载来看,当作笔记留待复习用,原文链接在文末.看完笔记再去听一听李宏毅 ...

  2. 深度强化学习(DRL)专栏(一)

    目录: 1. 引言 专栏知识结构 从AlphaGo看深度强化学习 2. 强化学习基础知识 强化学习问题 马尔科夫决策过程 最优价值函数和贝尔曼方程 3. 有模型的强化学习方法 价值迭代 策略迭代 4. ...

  3. 一文读懂 深度强化学习算法 A3C (Actor-Critic Algorithm)

    一文读懂 深度强化学习算法 A3C (Actor-Critic Algorithm) 2017-12-25  16:29:19   对于 A3C 算法感觉自己总是一知半解,现将其梳理一下,记录在此,也 ...

  4. 深度强化学习——连续动作控制DDPG、NAF

    一.存在的问题 DQN是一个面向离散控制的算法,即输出的动作是离散的.对应到Atari 游戏中,只需要几个离散的键盘或手柄按键进行控制. 然而在实际中,控制问题则是连续的,高维的,比如一个具有6个关节 ...

  5. 深度强化学习(Deep Reinforcement Learning)入门:RL base & DQN-DDPG-A3C introduction

    转自https://zhuanlan.zhihu.com/p/25239682 过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题.子曰:温故而知新,在进一步深入研究和应 ...

  6. 5G网络的深度强化学习:联合波束成形,功率控制和干扰协调

    摘要:第五代无线通信(5G)支持大幅增加流量和数据速率,并提高语音呼叫的可靠性.在5G无线网络中共同优化波束成形,功率控制和干扰协调以增强最终用户的通信性能是一项重大挑战.在本文中,我们制定波束形成, ...

  7. 深度强化学习中稀疏奖励问题Sparse Reward

    Sparse Reward 推荐资料 <深度强化学习中稀疏奖励问题研究综述>1 李宏毅深度强化学习Sparse Reward4 ​ 强化学习算法在被引入深度神经网络后,对大量样本的需求更加 ...

  8. 【资料总结】| Deep Reinforcement Learning 深度强化学习

    在机器学习中,我们经常会分类为有监督学习和无监督学习,但是尝尝会忽略一个重要的分支,强化学习.有监督学习和无监督学习非常好去区分,学习的目标,有无标签等都是区分标准.如果说监督学习的目标是预测,那么强 ...

  9. 深度学习课程笔记(十四)深度强化学习 --- Proximal Policy Optimization (PPO)

    深度学习课程笔记(十四)深度强化学习 ---  Proximal Policy Optimization (PPO) 2018-07-17 16:54:51  Reference: https://b ...

随机推荐

  1. Java工厂模式解耦 —— 理解Spring IOC

    Java工厂模式解耦 -- 理解Spring IOC 最近看到一个很好的思想来理解Spring IOC,故记录下来. 资源获取方式 主动式:(要什么资源都自己创建) 被动式:(资源的获取不是我们创建, ...

  2. Filter过滤器Listener:监听器

    Filter过滤器 1. 概念 web中的过滤器:当访问服务器资源是,过滤器可以将请求拦截下来,完成一些特殊功能: 过滤器的作用 完成通用的操作:例如登录验证.统一编码处理.敏感字符过滤... 快速入 ...

  3. cooking和session

    ## Cookie ## # 基本概念: >> 用于保存一次会话中的记录,存放在客户端(浏览器); |-- "一次会话" |-- 当客户端打开一个界面时 被称作一次会话 ...

  4. git上传命令步骤

    1.登陆github后,进入Github首页,点击New repository新建一个项目 2. 填写相应信息后点击create repository即可 Repository name: 仓库名称( ...

  5. Spring Boot从入门到精通(六)集成Redis实现缓存机制

    Redis(Remote Dictionary Server ),即远程字典服务,是一个开源的使用ANSI C语言编写.支持网络.可基于内存亦可持久化的日志型.Key-Value数据库,并提供多种语言 ...

  6. 算法入门——二分查找,旅行商问题,大O表示法

    一. 算法入门 博主在市面上发现了很多,很多有关书算法的书籍,但是真正能够让初学者易懂的算法书籍,只是一点点,以下我讲以 Aditya Bhargava写的一本关于算法的入门书籍,为参考,这本书非常的 ...

  7. python3编写程序,实现打印100以内的素数。

    代码如下: for x in range(2, 100): for y in range(2, x): if x % y == 0: break else: print(x, end="\t ...

  8. 开发RTSP 直播软件 H264 AAC 编码

    上一篇对摄像头预览,拍照做了大概的介绍,现在已经可以拿到视频帧了,在加上 RTSP 实现,就是直播的雏形,当然还要加上一些 WEB 管理和手机平台的支援,就是一整套直播软件. 介绍一些基础概念:RTP ...

  9. selenium中js定位

    学习selenium的时候经常用扫的定位方式WebDriver定位方式,但是一些Windows的窗口就无力了,这时候可以用js定位 使用js定位的时候是用DOM树定位方式 eg: document.g ...

  10. html 5 cavans 简易祖玛

    <!doctype html> <html> <head> <meta charset="utf-8"> <title> ...