Reinforcement Learning: An Introduction读书笔记(1)--Introduction

> 目录 <

learning & intelligence 的基本思想
RL的定义、特点、四要素
与其他learning methods、evolutionary methods的比较
例子(井字棋 tic-tac-toe)及早期发展史

> 笔记 <

learning & intelligence 的基本思想：learning from interaction

RL的定义：

RL is learning what to do--how to map situations and actions--so as to maximize a numerical reward signal.

RL problems: a learning agent interacting over time with its environment to achieve a goal.

（sensation，action & goal三要素： agent需要能够感知环境的states，采取actions来影响state，有1个or多个与环境中的state相关的目标。）

2个特点：

1. trial-and-error search：不告诉learner该如何做，而是让他通过不断地尝试来发现该采取什么行为来获得更多的奖励。

2. delayed reward: 行为不仅仅影响immediate reward，还影响next situation，甚至是随后所有的subsequent rewards。

RL四要素：

1. policy: 定义了learning agent在特定时刻的行为表现。

2. reward signal: 定义了RL problem的目标，反映了what is good in an immediate sense

3. value function：定义了what is good in the long run。也就是说，某一state的value指的是，agent从现在开始一直到未来可以得到的累计回报的期望。

4. model of the environment (optional, only for model-based methods)：它模仿了环境的行为，也就是说给出state和action，model可以预测next state和reward。

与其他learning methods比较：

1. RL不同于supervised learning，因为监督学习是learning for a training set of labelled examples provided by a knowledgeable external supervisor.

2. RL不同于unsupervised learning，因为非监督学习主要是finding structure hidden in collections of unlabeled data。虽然RL一定程度上可以看成是非监督学习 (∵不依赖examples of correct behavior)，但实际上两者并不相同，因为RL的目的是maximize a reward signal而非trying to find hidden structure. 此外，RL和时间有很大的关系，而且反馈都是具有时间效应的。

3. RL其他特点：

(1) trade-off between exploration and exploitation是其独有的challenge;

(2) 关注的不是isolated subproblems，而是whole problem of a goal-directed agent interacting with an uncertain environment；

(3) 多学科交叉：数学、心理学、神经科学......

与evolutionary methods (e.g. 遗传算法)的比较：

在(1) 问题空间不大 or 有足够时间去搜索的情况下, (2)或者learning agent不能获知环境完整state的情况下，evolutionary methods比较有效。

但是，RL利用了每个个体与环境交互所得到的信息去学习，因此多数情况下RL更好。

具体例子—井字棋(tic-tac-toe)：

分析了用不同的方法 (e.g. minimax、动态规划、进化方法、RL )来解决

RL早期发展史：

略

Reinforcement Learning: An Introduction读书笔记(1)--Introduction的更多相关文章

Reinforcement Learning: An Introduction读书笔记(3)--finite MDPs
> 目录 < Agent–Environment Interface Goals and Rewards Returns and Episodes Policies and Val ...
Reinforcement Learning: An Introduction读书笔记(4)--动态规划
> 目录 < Dynamic programming Policy Evaluation (Prediction) Policy Improvement Policy Iterat ...
Reinforcement Learning: An Introduction读书笔记(2)--多臂机
> 目录 < k-armed bandit problem Incremental Implementation Tracking a Nonstationary Problem ...
《Machine Learning Yearing》读书笔记
——深度学习的建模.调参思路整合. 写在前面最近偶尔从师兄那里获取到了吴恩达教授的新书<Machine Learning Yearing>(手稿),该书主要分享了神经网络建模.训练.调节 ...
Machine Learning for hackers读书笔记(六)正则化：文本回归
data<-'F:\\learning\\ML_for_Hackers\\ML_for_Hackers-master\\06-Regularization\\data\\' ranks < ...
Machine Learning for hackers读书笔记(三)分类：垃圾邮件过滤
#定义函数,打开每一个文件,找到空行,将空行后的文本返回为一个字符串向量,该向量只有一个元素,就是空行之后的所有文本拼接之后的字符串 #很多邮件都包含了非ASCII字符,因此设为latin1就可以读取 ...
Machine Learning for hackers读书笔记_一句很重要的话
为了培养一个机器学习领域专家那样的直觉,最好的办法就是,对你遇到的每一个机器学习问题,把所有的算法试个遍,直到有一天,你凭直觉就知道某些算法行不通.
Machine Learning for hackers读书笔记(十二)模型比较
library('ggplot2')df <- read.csv('G:\\dataguru\\ML_for_Hackers\\ML_for_Hackers-master\\12-Model_C ...
Machine Learning for hackers读书笔记(十)KNN：推荐系统
#一,自己写KNN df<-read.csv('G:\\dataguru\\ML_for_Hackers\\ML_for_Hackers-master\\10-Recommendations\\ ...

随机推荐

学习C++后感
c++是一门系统级语言,记得大一是要学习这门课时还上网找过学习方法.但网上很多学习方法看的我都头晕,都说学习C++很难,有的说学C++前最好先学C语言,有的说学C++最好不要学C语言,当翻了C++课本 ...
MySQL优化--INSERT ON DUPLICATE UPDATE死锁
INSERT ON DUPLICATE UPDATE与死锁在MySQL中提供两种插入更新的方式:REPLACE INTO和INSERT ON DUPLICATE UPDATE,简化了“存在则更新,不 ...
关于git的reset指令说明-soft、mixed、hard
在开发过程中,git的版本管理越来越普及.在版本管理中,最常用和最重要的是重置提交的版本,恢复后悔做了的事.大家都知道用reset命令.但是有几种形态需要整理共享一下,也方便我自己查阅. 一.首先解析 ...
弹性盒子模型属性之flex-shrink
上一次,我们已经了解过flex-grow的具体用法后,这周,让我们一起来见一下flex-basis这个属性. flex-shrink 定义项目的缩小比例,默认值为1,注意前提是空间不足的情况下,项目缩 ...
网络编程懒人入门(八)：手把手教你写基于TCP的Socket长连接
本文原作者:“水晶虾饺”,原文由“玉刚说”写作平台提供写作赞助,原文版权归“玉刚说”微信公众号所有,即时通讯网收录时有改动. 1.引言好多小白初次接触即时通讯(比如:IM或者消息推送应用)时,总是不 ...
python写的压缩软件
import tkinterimport tkinter.filedialogimport osimport zipfileimport tkinter.messagebox #创建住窗口root = ...
如何把web.xml中的context-param、Servlet、Listener和Filter定义添加到SpringBoot中
把传统的web项目迁移到SpringBoot中,少不了web.xml中的context-param.Servlet.Filter和Listener等定义的迁移. 对于Servlet.Filter和Li ...
【翻译】JavaScript中5个值得被广泛使用的数组方法
原文地址:http://colintoh.com/blog/5-array-methods-that-you-should-use-today?utm_source=javascriptweekly& ...
Struts框架(6)---action接收请求参数
action接收请求参数在web开发中,去接收请求参数来获得表单信息非常的常见,自己也总结整理了有关Struts2通过action接收请求参数的几种方法. Struts2 提供三种数据封装的方式: ...
Velocity CheckingForNull
Q: I want to check for null, something like this: #if ($car.fuel == null) A: There are several appro ...

Reinforcement Learning: An Introduction读书笔记(1)--Introduction

Reinforcement Learning: An Introduction读书笔记(1)--Introduction的更多相关文章

随机推荐

热门专题