在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL),本篇我们讨论最后一种强化学习流派,基于模型的强化学习(Model Based RL),以及基于模型的强化学习算法框架Dyna. 本篇主要参考了UCL强化学习课程的第8讲和Dyna-2的论文. 1. 基于模型的强化学习简介 基于价值的强化学习模型和基于策略的强化学习模型都不是基于模型的,它们从价值函数,策略函数中直接去学习,不用学习环境的状态转化概率模型,即在状态$s$下采…
[说在前面]本人博客新手一枚,象牙塔的老白,职业场的小白.以下内容仅为个人见解,欢迎批评指正,不喜勿喷![握手][握手] [再啰嗦一下]本文衔接上一个随笔:人工智能中小样本问题相关的系列模型演变及学习笔记(一):元学习.小样本学习 三.生成对抗网络 GAN 综述 说到小样本学习,就想说比较时髦的生成对抗网络GAN.别误会,生成对抗网络并不是只针对小样本生成,还有很多别的丰富应用. 1. GAN GANs是一种结构化的概率模型,由两个对立的模型组成:生成模型(G)用于捕获数据分布,判别模型(D)用…