[入门,来自wiki] 强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益.其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为.这个方法具有普适性,因此在其他许多领域都有研究,例如博弈论.控制论.运筹学.信息论.模拟优化方法.多主体系统学习.群体智能.统计学以及遗传算法.在运筹学和控制理论研究的语境下,强化学习被称作“近似动态规划”(approximate dynamic program
之前讲到强化学习可以用马尔科夫决策过程来描述,通常情况下,马尔科夫需要知道 {S A P R γ},γ是衰减因子,那为什么还需要蒙特卡罗呢? 首先什么是蒙特卡罗? 蒙特卡罗实际上是一座赌城的名字,蒙特卡罗方法是冯 诺依曼 用这座赌城的名字起的. 蒙特卡罗方法的主要思想是:当求解的问题是某随机事件出现的概率,或者某随机变量的期望时,可以采用多次采样,以该事件出现的频率来估计其概率,以该变量的均值来估计其期望.并以此来代替问题的解. 那么为什么要用蒙特卡罗方法? 在真实的场景中,我们经常没法确定状