强化学习学习笔记（1）：MDPs and Bellman Equations

学习目标

1.了解Agent-Environment交互
2.了解什么是MDP（马尔可夫决策过程）以及如何解释过渡图
3.了解价值函数，动作价值函数和策略函数
4.了解价值函数和动作值函数的Bellman方程和Bellman最优性方程

1.智能体和环境交互：智能体在每个步骤t接收状态S_t，执行动作A_t并接收奖励R_ {t + 1}。根据策略函数pi选择动作。
2.总回报G_t是从时间t开始的所有奖励之和。未来奖励以折扣率g ^ k折价。
3.马尔可夫性质：在时间t + 1处环境的响应仅取决于时间t处的状态和动作表示。未来与现在无关，与过去无关。即使环境不能完全满足Markov属性，我们仍将其视为真实，并尝试将状态表示构造为近似Markov。
4.马尔可夫决策过程（MDP）：由状态集S，动作集A和单步动力学p（s'，r | s，a）定义。如果我们对环境有完整的了解，我们就会知道过渡动态。在实践中，我们通常不知道完整的MDP（但我们知道这是一些MDP）。