之前讲到Sarsa和Q Learning都不太适合解决大规模问题,为什么呢? 因为传统的强化学习都有一张Q表,这张Q表记录了每个状态下,每个动作的q值,但是现实问题往往极其复杂,其状态非常多,甚至是连续的, 比如足球场上足球的位置,此时,内存将无力承受这张Q表. 价值函数近似 既然Q表太大,那么怎么办呢? 假设我们可以找到一种方法来预测q值,那么在某个状态下,就可以估计其每个动作的q值,这样就不需要Q表了,这就是价值函数近似. 假设这个函数由参数w描述,那么 状态价值函数就表示为 v(s)≍f(…