Policy Gradient 初始学习李宏毅讲的强化学习,听台湾的口音真是费了九牛二虎之力,后来看到有热心博客整理的很细致,于是转载来看,当作笔记留待复习用,原文链接在文末.看完笔记再去听一听李宏毅老师的视频,就可以听懂个大概了.当然了还有莫凡的强化学习更具实战性,听莫凡的课基本上可以带我们入门. 术语和基本思想 基本组成: 1.actor (即policy gradient要学习的对象, 是我们可以控制的部分) 2.环境 environment (给定的,无法控制) 3.回报函数 rewar…