强化学习学习笔记（四）：具有时差（TD）和Q学习的无模型预测与控制

学习目标

1.了解TD（0）进行预测
2.了解SARSA对策略的控制
3.了解Q-Learning以进行异策略控制
4.了解TD算法相对于MC和DP方法的优势
5.了解n步方法如何统一MC和TD方法
6.了解TD-Lambda的前后视图

总结

1.D-Learning是Monte Carlo和动态规划思想的结合。像蒙特卡洛一样，根据样本工作，不需要环境模型。像动态规划一样，TD使用 bootstrapping进行更新。
2.MC还是TD更好取决于问题，并且没有理论结果证明是明显的赢家。

Sarsa: On-policy TD Control

Q-learning: 异策略 TD 控制

强化学习的早期突破之一是异策略 TD控制算法的开发，该算法称为Q学习（Watkins，1989），其定义为：
(Qleft( {{S_t},{A_t}} ight) leftarrow Qleft( {{S_t},{A_t}} ight) + alpha left[ {{R_{t + 1}} + gamma mathop {max }limits_a Qleft( {{S_{t + 1}},a} ight) - Qleft( {{S_t},{A_t}} ight)} ight])