1 强化学习概述

随着 Alpha Go 的成功，强化学习（Reinforcement Learning，RL）成为了当下机器学习中最热门的研究领域之一。与常见的监督学习和非监督学习不同，强化学习强调智能体（agent）与环境（environment）的交互，交互过程中智能体需要根据自身所处的状态（state）选择接下来采取的动作（action），执行动作后，智能体会进入下一个状态，同时从环境中得到这次状态转移的奖励（reward）。

强化学习的目标就是从智能体与环境的交互过程中获取信息，学出状态与动作之间的映射，指导智能体根据状态做出最佳决策，最大化获得的奖励。

2 强化学习要素

强化学习通常使用马尔科夫决策过程（Markov Decision Process，MDP）来描述。MDP数学上通常表示为五元组的形式，分别是状态集合，动作集合，状态转移函数，奖励函数以及折扣因子。

近些年有研究工作将强化学习应用到更为复杂的MDP形式，如部分可观察马尔科夫决策过程（Partially Observable Markov Decision Process，POMDP），参数化动作马尔科夫决策过程（Parameterized Action Markov Decision Process，PAMDP）以及随机博弈（Stochastic Game，SG）。

状态（S）:一个任务中可以有很多个状态，且我们设每个状态在时间上是等距的；

动作（A）:针对每一个状态，应该有至少1个操作可选；

奖励（R）:针对每一个状态，环境会在下一个状态直接给予一个数值回馈，这个值越高，说明该状态越值得青睐；

策略（π）:给定一个状态，经过π的处理，总是能产生唯一一个操作a，即a=π(s),π可以是个查询表，也可以是个函数；

3 强化学习的算法分类

强化学习的算法分类众多，比较常见的算法有马尔科夫决策过程算法（MDP），Q-Learning算法等。在阿法狗人机大战中，就得益于强化学习算法。

同时，强化学习也引发了博弈论的讨论，用强化学习算法求解博弈论，用博弈论指导强化学习算法。二者是相辅相成的关系。在这些强化学习算法中都可以看到博弈论的思想。

4 强化学习应用

强化学习的经典应用案例有：非线性二级摆系统（非线性控制问题）、棋类游戏、机器人学习站立和走路、无人驾驶、机器翻译、人机对话，博弈论等。概括来说，强化学习所能解决的问题为序贯决策问题，就是需要连续不断做出决策，才能实现最终目标的问题。强化学习与其它的机器学习方法相比，专注于从交互中进行以目标为导向的学习。

强化学习

1 强化学习概述

2 强化学习要素

3 强化学习的算法分类

4 强化学习应用

5 强化学习相关论文

一. 开山鼻祖DQN

二. DQN的各种改进版本（侧重于算法上的改进）

三. DQN的各种改进版本（侧重于模型的改进）

四. 基于策略梯度的深度强化学习

五. 分层DRL

六. DRL中的多任务和迁移学习

七. 基于外部记忆模块的DRL模型

八. DRL中探索与利用问题

九. 多Agent的DRL

十. 逆向DRL

十一. 探索+监督学习

十二. 异步DRL

十三：适用于难度较大的游戏场景

十四：单个网络玩多个游戏

十五：德州poker

十六：Doom游戏

十七：大规模动作空间

十八：参数化连续动作空间

十九：Deep Model

二十：DRL应用

二十一：其它方向