我在机器学习读书会的分享slides,关于DP.MC.TD方法: https://mp.weixin.qq.com/s/r8wZw4iZwFCz0nnakutY3Q 内容如下:…
 > 目  录 <  Agent–Environment Interface Goals and Rewards Returns and Episodes Policies and Value Functions Optimal Policies and Optimal Value Functions  > 笔  记 <  Agent–Environment Interface MDPs are meant to be a straightforward framing of th…
网易公开课,第16课 notes,12 前面的supervised learning,对于一个指定的x可以明确告诉你,正确的y是什么 但某些sequential decision making问题,比如下棋或直升机自动驾驶 无法确切知道,下一步怎么样是正确的,因为这是一个连续和序列化的决策,比如直到最终直升机crash或下棋输了,你才知道之前的选择是不好的,但中间那么多步决策,到底是哪部分出了问题,可见这是个比较复杂的问题 强化学习,基本思路就是,既然不知道怎样是正确的,那就随便try,然后根据…
  > 目  录 <   learning & intelligence 的基本思想 RL的定义.特点.四要素 与其他learning methods.evolutionary methods的比较 例子(井字棋 tic-tac-toe)及早期发展史    > 笔  记 <  learning & intelligence 的基本思想:learning from interaction RL的定义: RL is learning what to do--how to…
 > 目  录 <  Dynamic programming Policy Evaluation (Prediction) Policy Improvement Policy Iteration Value Iteration Asynchronous Dynamic Programming Generalized Policy Iteration  > 笔  记 <  Dynamic programming(DP) 定义:a collection of algorithms th…
 > 目  录 <  k-armed bandit problem Incremental Implementation Tracking a Nonstationary Problem Initial Values (*) Upper-Confidence-Bound Action Selection(UCB) (*) Gradient Bandit Algorithms (*) Associative Search (Contextual Bandits)  > 笔  记 < …
声明:本文翻译自Vishal Maini在Medium平台上发布的<Machine Learning for Humans>的教程的<Part 5: Reinforcement Learning>的英文原文(原文链接).该翻译都是本人(tomqianmaple@outlook.com)本着分享知识的目的自愿进行的,欢迎大家交流! 关键词:探索和利用.马尔科夫决策过程.Q-Learning.策略学习.深度增强学习. [Update 9/2/17] 现在本系列教程已经出了电子书了,可以…
强化学习入门最经典的数据估计就是那个大名鼎鼎的  reinforcement learning: An Introduction 了,  最近在看这本书,第一章中给出了一个例子用来说明什么是强化学习,那就是tic-and-toc游戏, 感觉这个名很不Chinese,感觉要是用中文来说应该叫三子棋啥的才形象. 这个例子就是下面,在一个3*3的格子里面双方轮流各执一色棋进行对弈,哪一方先把自方的棋子连成一条线则算赢,包括横竖一线,两个对角线斜连一条线. 上图,则是  X 方赢,即: reinforc…
Dictum:  To spark, often burst in hard stone. -- William Liebknecht 强化学习(Reinforcement Learning)是模仿人类的学习方式(比如,学习一种新的技能,从入门到掌握总是不断地去寻错,改正,直至完全掌握),强化学习的主要思想就是智能体在与环境的交互过程中不断调整,以达到理想结果. 强化学习的框架 Reinforcement learning is learning what to do--how to map s…
在机器学习中,我们经常会分类为有监督学习和无监督学习,但是尝尝会忽略一个重要的分支,强化学习.有监督学习和无监督学习非常好去区分,学习的目标,有无标签等都是区分标准.如果说监督学习的目标是预测,那么强化学习就是决策,它通过对周围的环境不断的更新状态,给出奖励或者惩罚的措施,来不断调整并给出新的策略.简单来说,就像小时候你在不该吃零食的时间偷吃了零食,你妈妈知道了会对你做出惩罚,那么下一次就不会犯同样的错误,如果遵守规则,那你妈妈兴许会给你一些奖励,最终的目标都是希望你在该吃饭的时候吃饭,该吃零食…