强化学习总结（0）—RL基本介绍

本人硕士期间就对RL比较感兴趣，当时AlpahGo还没火，可能更多是对于Strong AI的前景和未来有着较大期待吧，后来随着AlphaGo--Master---zero版本的不断更新，再加上OpenAI的星际争霸等，RL逐步焕发出了新的生机。因此，自从2016年下半年开始断断续续地学习强化学习到现在，中间因为要发各种paper，断断续续地看了一遍，只有一个大致印象，但了解不够深入，仅停留在表面。现在静下心来，开始第二遍系统学习，打算借着博客来对所学进行总结，争取有更深入的理解吧，也希望能和大家多多交流、相互学习，中间的见解可能比较浅显，还希望各位大神、大牛能多多批评指正，促进自己更好地学习。

自从2015年以来，关于RL的资料、教程越来越多，有些写的非常不错，比如莫凡python、天津包子馅的知乎专栏、其他一些博客等，还有一些视频课程也非常多，比如Divid silver在UCL的授课、优达学城的课程、伯克利、斯坦福的大学课程等，考虑到本人的实际，不习惯英文课程，看不到一半就坚持不住了，还是比较喜欢看教材、博客和代码，经过一番对比考量，本人此次RL学习的主要参考资料如下：

1.Reinforcement Learning: An Introduction.Second edition, in process.(2017 Draft). 这是自己的主要参考教材，也建议大家多看几遍，书里面有全套的对应github代码（matlab、C、python版本都有，网上很方便可以找到）。RL经典教材，现代强化学习之父sutton的著作，非常详细，由浅入深、娓娓道来，感觉入门是非常合适的。本人英语水平及其一般（CET6 < 500），但读起来并不觉得特别费劲儿，每次读感觉收获都很多。

2.莫凡python系列教程。对于python、机器学习、神经网络等都有介绍，建议整个教程都可以反复读看几遍，RL部分虽然都是一些基本算法，但手把手教的可不多，小白入门必备，自己也打算再多看几遍。

3.已有的博客系列：（这里只列举几个自己收藏的，配合上面的书和视频，对比着看效果会更好）

a).http://www.cnblogs.com/steven-yang/p/6481772.html

b).http://www.cnblogs.com/jinxulin/p/3511298.html

c). http://www.algorithmdog.com/ml/rl-series

d).https://zhuanlan.zhihu.com/p/28563483

其他还有一些比较好的进阶版教材，比如Reinforcement Learning State-of-Art (Wiering M.A.)、强化学习原理及应用（王雪松2014版，介绍感觉比较全，但感觉不适合当作教材学习，适当看看就行）还有其他一些国外近几年的博士论文、各种顶会、期刊论文等，难度层次也略大，这些就因人而异，毕竟RL的方向很多，不是每一个都适合自己，但建议多读读多涉猎一些，每个论文都有自己看RL的角度，或许从别人的论文中看你能发现一些属于自己的东西，这应该是多读论文的意义吧。这些进阶版内容后续会找时间分享总结吧。

RL基本介绍

既然是总结，那就不能长篇大论的描述，否则不是抄书么，干脆把sutton的书翻译一遍得了，其实是自己一度想翻译的，但工作量是在太大了~~不说废话，只把自己总结出来的干货展现出来就行了。

1. What is RL? Why learn RL?

答：RL是一种以目标为直接导向、基于马尔科夫的序列决策方法，本质就是追求最大回报，寻找对应的最优策略。现代RL方法大体可分为三个分支：Trial and error 分支（1980s前后）、基于值函数和动态规划的优化控制（包括现在还很火的ADP，基本都算是RL的分支）、以sutton为代表的TD算法及后续系列（也是现在RL的主流方法）。RL是机器学习的四个组成部分之一（其他为监督学习、无监督学习、迁移学习）。

RL的思想决定了它是通往Strong AI的必经之路，这也是为什么国外很多大牛愿意将其作为博士课题的原因。尽管RL已经发展了近三十年，并且这几年做的工作也非常多，但这些都只是皮毛而已，离Strong AI还非常远，自身发展也远远没有什么大的突破（包括AlphaGo系列，并没有理论上的大创新，还是以前的算法和思想，只是工程实现做的非常好，当然这也很了不起了），可以继续做的内容也是非常多的。 RL的学习过程其实很奇怪，你可以跑几个算法如Q-learning、sarsa、DQN等的程序，做几个不一样的应用就说我会RL了（这是我学习初期的表现），但当自己开始设计一些算法，实际做一些东西的时候，会发现还是啥也不会。这也使得我总感觉自己并没有真正入门，但又说不上来，因此就打算重新从头开始学习，希望自己不只是懂那些基本算法，更能深入地了解RL，厚积薄发，由基础看到前沿吧。

2.RL---个人看法。

a.相比于其他领域，机器学习的发展可以说是非常缓慢的（指基础研究领域，个人看法，仅供参考），RL也是如此，虽然你可以说现在围棋都被攻破了，这是多么大的成就，但懂行的都知道，这个过程中，RL的基础研究取得的进展并不大，更多的依赖于深度网络和很多工程实现的技巧，本身算法研究并没有大的进步。

b.RL的训练样本也是非常巨大的，尤其是面对一些复杂问题，这个难题现在依然无法彻底解决。

c.当状态过多时，维数灾难问题依然可怕。

3.RL的几个主要研究方向

a.多智能体强化学习。

b.带有迁移属性的强化学习.

c.元强化学习。

d.分层强化学习。

e.强化学习与神经生物学的联系。