强化学习学习笔记(四):具有时差(TD)和Q学习的无模型预测与控制

学习目标

1.了解TD(0)进行预测
2.了解SARSA对策略的控制
3.了解Q-Learning以进行异策略控制
4.了解TD算法相对于MC和DP方法的优势
5.了解n步方法如何统一MC和TD方法
6.了解TD-Lambda的前后视图

总结

1.D-Learning是Monte Carlo和动态规划思想的结合。 像蒙特卡洛一样,根据样本工作,不需要环境模型。 像动态规划一样,TD使用 bootstrapping进行更新。
2.MC还是TD更好取决于问题,并且没有理论结果证明是明显的赢家。

Sarsa: On-policy TD Control

Q-learning: 异策略 TD 控制

强化学习的早期突破之一是异策略 TD控制算法的开发,该算法称为Q学习(Watkins,1989),其定义为:
(Qleft( {{S_t},{A_t}} ight) leftarrow Qleft( {{S_t},{A_t}} ight) + alpha left[ {{R_{t + 1}} + gamma mathop {max }limits_a Qleft( {{S_{t + 1}},a} ight) - Qleft( {{S_t},{A_t}} ight)} ight])

原文地址:https://www.cnblogs.com/feifanrensheng/p/13458522.html