Reinforcement Learning: An Introduction读书笔记(1)--Introduction
> 目 录 <
- learning & intelligence 的基本思想
- RL的定义、特点、四要素
- 与其他learning methods、evolutionary methods的比较
- 例子(井字棋 tic-tac-toe)及早期发展史
> 笔 记 <
learning & intelligence 的基本思想:learning from interaction
RL的定义:
RL is learning what to do--how to map situations and actions--so as to maximize a numerical reward signal.
RL problems: a learning agent interacting over time with its environment to achieve a goal.
(sensation,action & goal三要素: agent需要能够感知环境的states,采取actions来影响state,有1个or多个与环境中的state相关的目标。)
2个特点:
1. trial-and-error search:不告诉learner该如何做,而是让他通过不断地尝试来发现该采取什么行为来获得更多的奖励。
2. delayed reward: 行为不仅仅影响immediate reward,还影响next situation,甚至是随后所有的subsequent rewards。
RL四要素:
1. policy: 定义了learning agent在特定时刻的行为表现。
2. reward signal: 定义了RL problem的目标,反映了what is good in an immediate sense
3. value function:定义了what is good in the long run。也就是说,某一state的value指的是,agent从现在开始一直到未来可以得到的累计回报的期望。
4. model of the environment (optional, only for model-based methods):它模仿了环境的行为,也就是说给出state和action,model可以预测next state和reward。
与其他learning methods比较:
1. RL不同于supervised learning,因为监督学习是learning for a training set of labelled examples provided by a knowledgeable external supervisor.
2. RL不同于unsupervised learning,因为非监督学习主要是finding structure hidden in collections of unlabeled data。虽然RL一定程度上可以看成是非监督学习 (∵不依赖examples of correct behavior),但实际上两者并不相同,因为RL的目的是maximize a reward signal而非trying to find hidden structure. 此外,RL和时间有很大的关系,而且反馈都是具有时间效应的。
3. RL其他特点:
(1) trade-off between exploration and exploitation是其独有的challenge;
(2) 关注的不是isolated subproblems,而是whole problem of a goal-directed agent interacting with an uncertain environment;
(3) 多学科交叉:数学、心理学、神经科学......
与evolutionary methods (e.g. 遗传算法)的比较:
在(1) 问题空间不大 or 有足够时间去搜索的情况下, (2)或者learning agent不能获知环境完整state的情况下,evolutionary methods比较有效。
但是,RL利用了每个个体与环境交互所得到的信息去学习,因此多数情况下RL更好。
具体例子—井字棋(tic-tac-toe):
分析了用不同的方法 (e.g. minimax、动态规划、进化方法、RL )来解决
RL早期发展史:
略
Reinforcement Learning: An Introduction读书笔记(1)--Introduction的更多相关文章
- Reinforcement Learning: An Introduction读书笔记(3)--finite MDPs
> 目 录 < Agent–Environment Interface Goals and Rewards Returns and Episodes Policies and Val ...
- Reinforcement Learning: An Introduction读书笔记(4)--动态规划
> 目 录 < Dynamic programming Policy Evaluation (Prediction) Policy Improvement Policy Iterat ...
- Reinforcement Learning: An Introduction读书笔记(2)--多臂机
> 目 录 < k-armed bandit problem Incremental Implementation Tracking a Nonstationary Problem ...
- 《Machine Learning Yearing》读书笔记
——深度学习的建模.调参思路整合. 写在前面 最近偶尔从师兄那里获取到了吴恩达教授的新书<Machine Learning Yearing>(手稿),该书主要分享了神经网络建模.训练.调节 ...
- Machine Learning for hackers读书笔记(六)正则化:文本回归
data<-'F:\\learning\\ML_for_Hackers\\ML_for_Hackers-master\\06-Regularization\\data\\' ranks < ...
- Machine Learning for hackers读书笔记(三)分类:垃圾邮件过滤
#定义函数,打开每一个文件,找到空行,将空行后的文本返回为一个字符串向量,该向量只有一个元素,就是空行之后的所有文本拼接之后的字符串 #很多邮件都包含了非ASCII字符,因此设为latin1就可以读取 ...
- Machine Learning for hackers读书笔记_一句很重要的话
为了培养一个机器学习领域专家那样的直觉,最好的办法就是,对你遇到的每一个机器学习问题,把所有的算法试个遍,直到有一天,你凭直觉就知道某些算法行不通.
- Machine Learning for hackers读书笔记(十二)模型比较
library('ggplot2')df <- read.csv('G:\\dataguru\\ML_for_Hackers\\ML_for_Hackers-master\\12-Model_C ...
- Machine Learning for hackers读书笔记(十)KNN:推荐系统
#一,自己写KNN df<-read.csv('G:\\dataguru\\ML_for_Hackers\\ML_for_Hackers-master\\10-Recommendations\\ ...
随机推荐
- Senparc.Weixin SDK v5.0 升级公告
经过五年半的持续维护,Senparc.Weixin SDK 逐步丰满和完善,在升级的过程中,我们为基础库(Senparc.Weixin.dll)加入了许多通用的功能,例如加密/解密算法.通用缓存方法等 ...
- 从Java到JVM到OS线程睡眠
Java 中有时需要将线程进入睡眠状态,这时一般我们就会通过 Thread.sleep 使线程进入睡眠状态,接下去就看看执行该语句在 JVM 中做了什么. 简单例子 以下是一个简单的例子,使主线程睡眠 ...
- 基于HTTP的长轮询简单实现
Web客户端与服务器之间基于Ajax(http)的常用通信方式,分为短连接与长轮询. 短连接:客户端和服务器每进行一次HTTP操作,就建立一次连接,任务结束就中断连接. 在长轮询机制中,客户端像传统轮 ...
- Javascript高级编程学习笔记(17)—— 引用类型(6)基本包装类
基本包装类 基本包装类这个概念或许有的小伙伴没有听说过 但是小伙伴们有没有想过,为什么基本数据类型的实例也有方法呢? 其实这些方法都来自基本包装类型 这是JS为了方便操作基础数据类型而创建的特殊引用类 ...
- Android开发技术周报176学习记录
Android开发技术周报176学习记录 教程 当 OkHttp 遇上 Http 2.0 http://fucknmb.com/2018/04/16/%E5%BD%93OkHttp%E9%81%87% ...
- 博客Hexo + github pages + 阿里云绑定域名搭建个人博客
申请域名 万网购买的域名,地址:https://wanwang.aliyun.com/domain/com?spm=5176.8142029.388261.137.LoKzy7 控制台进行解析 控制台 ...
- linux 下zip的用法实例
zip命令可以用来将文件压缩成为常用的zip格式.unzip命令则用来解压缩zip文件. 1. 我想把一个文件abc.txt和一个目录dir1压缩成为yasuo.zip: # zip -r yasuo ...
- 橙色优学:Java编程怎么提升技术,Java编程思维至关重要
橙色优学了解做为程序员,一旦进入技术行列,就开启了持续学习的道路,更迭迅速的互联网时代,技术自然也是一代一代的更新,在技术进阶的道路上,要不断吸收新的想法和技术知识. 牛逼的人总是让人羡慕,但如何才能 ...
- iReport 5.6.0 启动闪退的问题 解决方案
问题描述 本人使用的Windows版本的 iReport 5.6.0,安装成功后,双击桌面上的iReport-5.6.0图标,出现了闪退,无法正常启动的现象.现象如下: 问题原因 iReport 5. ...
- vue 解决无法设置滚动位置的问题
问题描述 在实现锚点定位的时候发现无法设置滚动条的位置. 在Vue中,使用 document.body.scrollTop=952 无法设置滚动条的高度. document.body.scrollTo ...