注:以下第一段代码是 文章 提供的代码,但是简书的代码粘贴下来不换行,所以我在这里贴了一遍.其原理在原文中也说得很明白了. 算个旅行商问题 基本介绍 戳 代码解释与来源 代码整个计算过程使用的以下公式-QLearning 在上面的公式中,S表示当前的状态,a表示当前的动作,s~表示下一个状态,a~表示下一个动作,γ为贪婪因子,0<γ<1,一般设置为0.8.Q表示的是,在状态s下采取动作a能够获得的期望最大收益,R是立即获得的收益,而未来一期的收益则取决于下一阶段的动作 算法过程 面对问题 这是…