一.PolicyNetwork(走棋网络) 首先来讲一下走棋网络.我们都知道,围棋的棋盘上有19条纵横交错的线总共构成361个交叉点,状态空间非常大,是不可能用暴力穷举的方式来模拟下棋的.但是我们可以换一种思路,就是让计算机来模拟职业棋手来下棋.DeepMind团队首先想到的是用深度卷积神经网络,即DCNN来学习职业棋手下棋.他们将围棋棋盘上的盘面视为19*19的图片作为输入,黑子标为1,白子标为-1,无子标为0.但是还不能仅仅将这一张图送入网络中进行训练,因为围棋盘面的情况非常复杂,棋子之间的…