之前讲了监督学习和无监督学习，今天主要讲“强化学习”。

马尔科夫决策过程；Markov Decision Process（MDP）

价值函数；value function

值迭代；value iteration(算法，解决MDP)

政策迭代；policy iteration(算法，解决MDP)

什么是强化学习？

强化学习(reinforcement learning，又称再励学习，评价学习)是一种重要的机器学习方法，在智能控制机器人及分析预测等领域有许多应用。但在传统的机器学习分类中没有提到过强化学习，而在连接主义学习中，把学习算法分为三种类型，即非监督学习(unsupervised learning)、监督学习(supervised leaning)和强化学习。

根据Agent当前状态，选择了动作a，这时与环境发生了交互，Agent观测到下一个状态，并收到了一定的奖赏r（有好有坏）。
如此反复的与环境进行交互，在一定条件下，Agent会学习到一个最优/次优的策略。

马尔科夫决策过程

马尔可夫决策过程是基于马尔可夫过程理论的随机动态系统的最优决策过程。马尔可夫决策过程是序贯决策的主要研究领域。它是马尔可夫过程与确定性的动态规划相结合的产物，故又称马尔可夫型随机动态规划，属于运筹学中数学规划的一个分支。

（以下转自：http://blog.csdn.net/dark_scope/article/details/8252969）

马尔科夫决策是一个五元组，，用一个机器人走地图的例子来说明它们各自的作用

S：状态集：就是所有可能出现的状态，在机器人走地图的例子中就是所有机器人可能出现的位置

A：action，也就是所有可能的行动。机器人走地图的例子假设机器人只能朝四个方向走，那么A就是{N，S，E，W}表示四个方向

P：就是机器人在S状态时采取a行动的概率

γ：叫做discount factor，是一个0到1之间的数，这个数决定了动作先后对于结果的影响度，在棋盘上的例子来说就是影响了这一步

棋对于最结果的影响有多大可能说起来比较模糊，通过后面的说明可能会讲得比较清楚。

R：是一个reward function，也就是可能是一个，也可能是，对应来说就是地图上的权值

有了这样一个决策过程，那么机器人在地图上活动的过程也可以表现为如下的形式：

也就是从初始位置开始，选择一个action到达另一个状态，直到到达终状态，因此我们这样来定义这个过程的价值：

可以看出越早的决定对价值影响越大，其后则依次因为γ而衰减

其实可以看出，给出一个MDP之后，因为各个元都是定值，所以存在一个最优的策略(ploicy)，策略即是对于每个状态给出一个action，最优

策略就是在这样的策略下从任意一个初始状态能够以最大的价值到达终状态。策略用π表示。用

表示在策略π下以s为初始状态所能取得的价值，而通过Bellman equation，上式又等于：

注意这是一个递归的过程，在知道s的价值函数之前必去知道所有的s'的价值函数。(价值函数指的是Vπ())

而我们定义最优的策略为π*，最优的价值函数为V*，可以发现这两个东西互为因果，都能互相转化。

价值迭代(Value iteration )

这个过程其实比较简单，因为我们知道R的值，所以通过不断更新V，最后V就是converge到V*，再通过V*就可以得到最优策略π*，通

过V*就可以得到最优策略π*其实就是看所有action中哪个action最后的value值最大即可，此处是通过bellman equation，可以通过解bellman equation得到

所有的V的值，这里有一个动归的方法，注意马尔科夫决策过程中的P其实是指客观存在的概率，比如机器人转弯可能没法精确到一个方向，而不是指在s状态

机器人选择a操作的概率，刚才没说清楚

在此说明，也就是说：

是一个客观的统计量。

策略迭代(policy iteration)

策略迭代法（policy iteration method），动态规划中求最优策略的基本方法之一。它借助于动态规划基本方程，交替使用“求值计算”和“策略改进”两个步骤，求出逐次改进的、最终达到或收敛于最优策略的策略序列。

这次就是通过每次最优化π来使π converge到π*，V到V*。但因为每次都要计算π的value值，所以这种算法并不常用

【cs229-Lecture16】马尔可夫决策过程的更多相关文章

增强学习（二）----- 马尔可夫决策过程MDP
1. 马尔可夫模型的几类子模型大家应该还记得马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model,HMM).它们具有的一个共同性质就是 ...
[Reinforcement Learning] 马尔可夫决策过程
在介绍马尔可夫决策过程之前,我们先介绍下情节性任务和连续性任务以及马尔可夫性. 情节性任务 vs. 连续任务情节性任务(Episodic Tasks),所有的任务可以被可以分解成一系列情节,可以看作 ...
强化学习-MDP(马尔可夫决策过程)算法原理
1. 前言前面的强化学习基础知识介绍了强化学习中的一些基本元素和整体概念.今天讲解强化学习里面最最基础的MDP(马尔可夫决策过程). 2. MDP定义 MDP是当前强化学习理论推导的基石,通过这套框 ...
David Silver强化学习Lecture2：马尔可夫决策过程
课件:Lecture 2: Markov Decision Processes 视频:David Silver深度强化学习第2课 - 简介 (中文字幕) 马尔可夫过程马尔可夫决策过程简介马尔可夫决 ...
【RL系列】马尔可夫决策过程——状态价值评价与动作价值评价
请先阅读上两篇文章: [RL系列]马尔可夫决策过程中状态价值函数的一般形式 [RL系列]马尔可夫决策过程与动态编程状态价值函数,顾名思义,就是用于状态价值评价(SVE)的.典型的问题有“格子世界(G ...
【RL系列】马尔可夫决策过程中状态价值函数的一般形式
请先阅读上一篇文章:[RL系列]马尔可夫决策过程与动态编程在上一篇文章里,主要讨论了马尔可夫决策过程模型的来源和基本思想,并以MAB问题为例简单的介绍了动态编程的基本方法.虽然上一篇文章中的马尔可夫 ...
【RL系列】马尔可夫决策过程——Jack‘s Car Rental
本篇请结合课本Reinforcement Learning: An Introduction学习 Jack's Car Rental是一个经典的应用马尔可夫决策过程的问题,翻译过来,我们就直接叫它“租 ...
马尔可夫决策过程MDP
1. 马尔可夫模型的几类子模型马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model,HMM).它们具有的一个共同性质就是马尔可夫性(无 ...
转：增强学习（二）----- 马尔可夫决策过程MDP
1. 马尔可夫模型的几类子模型大家应该还记得马尔科夫链(Markov Chain),了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model,HMM).它们具有的一个共同性质就是 ...

随机推荐

atitit.查看预编译sql问号本质and原理ａｎｄ查看原生ｓｑｌ语句
atitit.查看预编译sql问号本质and原理and查看原生sql语句 1. 预编译原理. 1 2. preparedStatement 有三大优点: 1 3. How to look gene ...
paip.重装系统后firefox火狐收藏夹的恢复
paip.重装系统后firefox火狐收藏夹的恢复 1.使用procmon跟踪ff保存收藏时候的读写文件.. D:\Users\attilax\AppData\Roaming\Mozilla\Fire ...
啊哈C！思考快你一步——用编程轻松提升逻辑力
啊哈C!思考快你一步——用编程轻松提升逻辑力(双色)(每个人都应该学习如何编程,因为它教会你如何思考.——史蒂夫.乔布斯) 啊哈磊著 ISBN 978-7-121-21336-6 2013年9月出版 ...
TF Boys (TensorFlow Boys ) 养成记（二）
TensorFlow 的 How-Tos,讲解了这么几点: 1. 变量:创建,初始化,保存,加载,共享: 2. TensorFlow 的可视化学习,(r0.12版本后,加入了Embedding Vis ...
JAVA学习Swing章节标签JLabel中图标的使用
package com.swing; import java.awt.Color; import java.awt.Component; import java.awt.Container; impo ...
VC2010 调用 Webservice
开发环境:VC2010,gsoap_2.8.23 http://blog.csdn.net/zhaiwenjuan/article/details/6590941 使用soapcpp2的时候要加参数- ...
Clojure上手
Clojure,这是什么鬼?一门基于JVM(现在也有基于.NET CLR的了:Clojure CLR) 的函数式编程语言.在JVM平台运行的时候,会被编译为JVM的字节码进行运算..为什么要学它?其设 ...
RTTI的实现(vc)--转载
RTTI (Run Time Type info) 这个神奇的东西用于存储类的相关信息,用于在运行时识别类对象的信息.C++ 里面只记录的类的名字和类的继承关系链.使得编译成二进制的代码,对象可以知道 ...
在IE7下使用angularjs(转)
在我的环境中,主要支持的浏览器为:ie7, ie8, ie9, chrome等.在试验angularjs时,发现在ie7环境下运行有问题,于是在网上搜了一下相关的内容,说HTML标签的写法要这样: & ...
SVO实时全局光照：Sparse Voxel Octree based Global Illumination (SVO GI)
功能已实现,初步集成进来,暂未进行重度优化.但GI的效果已很明显.这里特地给出了开启实时GI前后的效果对比,比对场景如下:1.只有直接光照(方向光源)的场景.2在直接光照(方向光源)基础上开启了实时G ...

【cs229-Lecture16】马尔可夫决策过程

马尔科夫决策过程

价值迭代(Value iteration )

策略迭代(policy iteration)

【cs229-Lecture16】马尔可夫决策过程的更多相关文章

随机推荐

热门专题