# 强化学习读书笔记 - 02 - 多臂老O虎O机问题 学习笔记: [Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016](https://webdocs.cs.ualberta.ca/~sutton/book/) ## 数学符号的含义 * 通用 $a$ - 行动(action). $A_t$ - 第t次的行动(select action).通常指求解的
理解IOC inversion of control 控制反转 与 DI Dependency Injection 依赖注入概念之前,我们需要知道在一个系统的设计过程中,降低各模块之间的相互依赖,达到高内聚低耦合,是判断设计好坏的标准: 所以Robert Martin大师提出了面向对象设计原则----依赖倒置原则: A. 上层模块不应该依赖于下层模块,它们共同依赖于一个抽象. B. 抽象不能依赖于具象,具象依赖于抽象 这其实就是要求系统设计中面向接口编程思想的一种表达,而IOC模式