作者用action, reward, state等当做lalbel,进行有监督训练。

