简介 最近AlphaGo Zero又火了一把,paper和各种分析文章都有了,有人看到了说不就是普通的Reinforcement learning吗,有人还没理解估值网络.快速下子网络的作用就放弃了. 实际上,围棋是一种零和.信息对称的combinatorial game,因此AlphaGo用的是蒙特卡罗树搜索算法的一种,在计算树节点Q值时使用了ResNet等神经网络模型,只是在论文中也归类为增强学习而已. 如果你想真正了解AlphaGo的原理(或者不被其他AI将统治人类的文章所忽悠),理解蒙特…