强化学习(Reinforcement Learing),机器学习重要分支,解决连续决策问题.强化学习问题三概念,环境状态(Environment State).行动(Action).奖励(Reward),目标获得最多累计奖励.强化学习模型根据环境状态.行动和奖励,学习出最佳策略,以最终结果为目标,不能只看某个行动当下带来的利益,还要看行动未来带来的价值. AutoEncoder属于无监督学习,MLP.CNN.RNN属于监督学习,强化学习目标变化.不明确,或不存绝对正确标签. Google Dee…