强化学习相关知识的整理

从强化学习到深度强化学习再到强化学习的应用和展望

对于强化学习，之前有一种说法：深度学习是昨天，强化学习是今天，迁移学习是明天。虽说有些言过其实，但强化学习的思想，笔者看来还是最接近于人工智能的思想。
刚刚开始接触强化学习时，研究生刚刚入学，组里需要做关于自动驾驶决策相关方面的研究，导师就把这任务给了我。
emm...
现在想想，让一个当时机器学习是什么都不了解的小白，接触强化学习简直就是个笑话。

哈哈，言归正传，已经有半年没有接触过强化学习，之前在忙论文的事情，一直相对强化学习相关的知识进行总结，奈何没有时间，趁着年关将近，就将之前知识码出来，以后用不用的上也说不准。

从强化学习到深度强化学习再到强化学习的应用和展望

强化学习解决的是什么样的问题？

[ ] TODO

举出强化学习与有监督学习的异同点。有监督学习靠样本标签训练模型，强化学习靠的是什么？

[ ] TODO

强化学习的损失函数（loss function）是什么？

[ ] TODO

写贝尔曼方程（Bellman Equation）

[ ] TODO

参考资料

贝尔曼方程

最优值函数和最优策略为什么等价？

[ ] TODO

求解马尔科夫决策过程都有哪些方法？

[ ] TODO

简述蒙特卡罗估计值函数的算法。

[ ] TODO

简述时间差分算法

[ ] TODO

介绍Q-Learning

[ ] TODO

参考资料

DQN 算法

基本原理

参考资料

DQN的两个关键trick分别是什么？

[ ] TODO

DQN 都有哪些变种？DQN有哪些改进方向？

[ ] TODO

引入状态奖励的是哪种DQN？

[ ] TODO
Double -DQN
优先经验回放
Dueling-DQN

Dueling DQN和DQN有什么区别？

[ ] TODO

介绍OpenAI用的PPO算法

[ ] TODO

介绍TRPO算法

[ ] TODO

为什么TRPO能保证新策略的回报函数单调不减？

[ ] TODO

介绍DDPG算法

画出DDPG框架

DDPG中的第二个D 为什么要确定？

[ ] TODO

介绍A3C算法

[ ] TODO

参考资料

A3C中优势函数意义

[ ] TODO

强化学习如何用在推荐系统中？

[ ] TODO

参考资料

介绍Sarsa算法

[ ] TODO

参考资料

AI学习笔记——Sarsa算法

Sarsa 和 Q-Learning区别

[ ] TODO

参考资料

强化学习中有value-based 和 policy-based，这两种的优缺点分别是什么？应用场景分别是什么？

[ ] TODO

value-based方法学习的目标是什么？

[ ] TODO

强化学习 DQN，DDQN，AC，DDPG 的区别

[ ] TODO

参考资料

再励学习面试真题
[强化学习面经](