深度强化学习（DRL）专栏开篇

2015年，DeepMind团队在Nature杂志上发表了一篇文章名为“Human-level control through deep reinforcement learning”的论文，在这篇论文中，他们提出了DQN算法的改进版本，他们将改进的算法应用到49种不同的Atari 2600游戏中，并且其中的一半实现了超过人类玩家的性能。现在,深度强化学习已经成为了人工智能（Artificial Intelligence，简称AI）领域最前沿的研究方向，在各个应用领域也是备受推崇，如同David Silver认为的那样，未来的人工智能一定是深度学习（Deep Learning）和强化学习（Reinforcement Learning）的结合。

基于此磐小仙会给大家带来关于深度强化学习的一个专栏。这个专栏主要针对想要学习深度强化学习相关领域研究人员与相关从业者。通过专栏的学习，快速带你弄懂深度强化学习原理，与上手深度强化学习实战！

1. 专栏介绍

640

除了Facebook之外，Twitter、GMU和Salesforce等机构

近年来，强化学习的应用和研究越来越受到大家的关注，强化学习和深度学习一样，都是机器学习研究的重要分支，纵观强化学习的发展，它有着自己的一套理论和方法，尤其将深度学习和强化学习结合之后，其内容则被更加丰富了。虽然目前强化学习已经逐渐应用于人工智能、任务调度以及工业控制等领域，并展现出了其潜在的巨大应用价值，但是由于现实环境的复杂性，导致仍然有很多问题需要解决。

本专栏是实战类的，所以不便花大量的篇幅去介绍强化学习的理论知识，在本专栏的前两节内容里，我们会简单的介绍一下强化学习的基础知识；在第三节和第四节内容里，我们会学习一些最基础的强化学习算法，帮助读者快速入门；第五节内容是三个强化学习算法的项目实战，通过几个小的项目帮助读者加深对算法的理解；第六节内容里会结合实战项目介绍几个常见的深度强化学习算法，实现这些深度强化学习算法是以前面所有内容为基础的；另外，如果读者有兴趣深入研究强化学习和深度强化学习的知识，推荐读者去学习本专栏小结里给出的推荐学习资料。

640

2. 专栏目录

640

1. 引言

专栏知识结构
从AlphaGo看深度强化学习

2. 强化学习基础知识

强化学习问题
马尔科夫决策过程
最优价值函数和贝尔曼方程

3. 有模型的强化学习方法

价值迭代
策略迭代

4. 无模型的强化学习方法

蒙特卡洛方法
时序差分学习
值函数近似
策略搜索

5. 实战强化学习算法

Q-learning 算法
Monte Carlo Policy Gradient 算法
Actor Critic 算法

6. 深度强化学习算法

Deep Q-Networks(DQN)
Deep Deterministic Policy Gradient(DDPG)

7. 专栏小结

640

3. 更新计划

640

更新频率：一周一篇

开始时间：下周开始

640

4. 学习交流

640

为了方便大家更好地与作者进行沟通交流，为此磐小仙针对这个专栏成立了QQ和微信读者交流群，同时邀请了专栏的作者小猴锅坐镇交流群，大家想近距离与作者沟通，都可以来加入。

加入方式：扫描下方微信群二维码，或者QQ群二维码，即可加入交流群。

640?wx_fmt=png

扫描上方二维码，加入微信交流群

640?wx_fmt=png 扫描上方二维码，加入QQ交流群

640