RL分为三大类: (1)通过行为的价值来选取特定行为的方法,具体 包括使用表格学习的 q learning, sarsa, 使用神经网络学习的 deep q network: (2)直接输出行为的 policy gradients: (3)了解所处的环境, 想象出一个虚拟的环境并从虚拟的环境中学习. 另一种分类方式: Model-free and Model-based Model-free:不理解环境…
随着AlphaGo和AlphaZero的出现,强化学习相关算法在这几年引起了学术界和工业界的重视.最近也翻了很多强化学习的资料,有时间了还是得自己动脑筋整理一下. 强化学习定义 先借用维基百科上对强化学习的标准定义: 强化学习(Reinforcement Learning,简称RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益. 从本质上看,强化学习是一个通用的问题解决框架,其核心思想是 Trial & Error. 强化学习可以用一个闭环示意图来表示: 强化学习四元素…
https://www.zhihu.com/question/277325426 https://github.com/jinglescode/reinforcement-learning-tic-tac-toe/blob/master/README.md Intuition After a long day at work, you are deciding between 2 choices: to head home and write a Medium article or hang o…
写在前面的话:从今日起,我会边跟着硅谷大牛Siraj的MOVE 37系列课程学习Reinforcement Learning(强化学习算法),边更新这个系列.课程包含视频和文字,课堂笔记会按视频为单位进行整理. 课程表地址:https://github.com/llSourcell/Move_37_Syllabus 带字幕课程视频地址:https://www.bilibili.com/video/av31518766 本课作为导论,大致普及了一下机器学习和强化学习的概念和用途.其次,捎带介绍了一…
<Machine Learning - 李宏毅> 学习笔记 b站视频地址:李宏毅2019国语 第一章 机器学习介绍 Hand crafted rules Machine learning ≈ looking for a function from data Speech recognition Image recognition Playing go Dialogue system Framework define a set of function goodness of function…
什么是强化学习? 强化学习(Reinforcement learning,简称RL)是和监督学习,非监督学习并列的第三种机器学习方法,如下图示: 首先让我们举一个小时候的例子: 你现在在家,有两个动作选择:打游戏和读书.如果选择打游戏的话,你就跑到了网吧,选择读书的话,就坐在了书桌面前.你爸妈下班回家,如果发现你在网吧,就会给你一套社会主义的铁拳,如果你在书桌面前的话,就会买根棒棒糖给你吃. 首先,你在家的时候并不知道选择哪一个动作,因此你可能会选择study或者game.但是,当你接受了多次社…
Supervised Learning Unsupervised Learning Reinforced Learning Goal: How to apply these methods How to evaluate each methods What is Machine Learning? 1.computational statistics 2.computational artifacts(人工制品) that learn over time based on experience…
课程记录笔记如下: 1.目前ML的应用 包括:数据挖掘database mining.邮件过滤email anti-spam.机器人autonomous robotics.计算生物学computational biology.搜索引擎Google/Bing. 自动直升机autonomous helicopter.自然语言处理Natural Language Processing 2.ML的定义 3.目前ML的分类 监督学习Supervised Learning.无监督学习Unsupervised…
强化学习读书笔记 - 13 - 策略梯度方法(Policy Gradient Methods) 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 参照 Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 20…
强化学习读书笔记 - 12 - 资格痕迹(Eligibility Traces) 学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 参照 Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016 强化学习…