强化学习新思潮1：值分布强化学习（01）

原文：https://zhuanlan.zhihu.com/p/65116688

经典强化学习：

在标准强化学习任务中，智能体与环境之间的交互作用常常建模为马尔科夫决策过程，本专栏的第一讲就是马尔科夫决策过程，不熟悉的读者可以到第一讲去看看。为了保证行文连贯性，这里再简单重复下马尔科夫决策过程。

马尔科夫决策过程可以用五元组来描述，即 $left( mathcal{X}, mathcal{A}, R, P, gamma ight)$ ，其中 $mathcal{X}$ 和 $mathcal{A}$ 分别表示状态空间和动作空间， $R$ 为状态和动作依赖的立即回报函数， $Pleft( cdot |x,a ight)$ 为状态转移矩阵， $gamma in left( 0,1 ight)$ 为折扣因子。策略用 $pi$ 来表示，即状态空间向动作空间分布上的映射，即 $pi left( cdot |x ight)$ 。

智能体从状态 $x$ 开始，采用策略 $pi left( cdot |x ight)$ 与环境进行交互，可以得到一个状态-动作-立即回报序列，则这些序列立即回报的折扣累计回报我们用 $Z^{pi}$ 来表示，则 $Z^{pi}left( x,a ight) =sum_{t=0}^{infty}{gamma ^tRleft( x_t,a_t ight)}$ ，由于状态转移概率的随机性和策略的随机性，该折扣累积回报 $Z^{pi}$ 是一个随机变量，即 $Z^{pi}left( x,a ight)$ 可能会取不同的值。行为值函数 $Q^{pi}left( x,a ight)$

定义为随机变量 $Z^{pi}left( x,a ight)$ 的期望，即： $Q^{pi}left( x,a ight) =mathbb{E}left[ Z^{pi}left( x,a ight) ight]$

行为值函数的贝尔曼方程为：

$Q^{pi}left( x,a ight) =mathbb{E}left[ Rleft( x,a ight) ight] +gamma mathbb{E}_{P,pi}left[ Q^{pi}left( x',a' ight) ight]$

强化学习的目标就是找到最优的策略 $pi ^*$ ，以最大化行为值函数，也就是说最大化随机变量

$Z^{pi}$ 的期望 $mathbb{E}left[ Z^{pi} ight]$ ，即在所有的状态行为对处，对于所有的策略 $pi$ ，应该有

$Q^{pi ^*}left( x,a ight) ge Q^{pi}left( x,a ight)$ 。

从经典强化学习到值分布强化学习

从上面经典强化学习算法的形式化我们可以看到，经典强化学习算法的目标函数是最大化行为值函数，即最大化折扣累计回报 $Z^{pi}left( x,a ight)$ 的期望。这个目标函数是个标量，有很多很好的性质，可是……

可是，不要忘了，折扣累计回报 $Z^{pi}left( x,a ight)$ 是一个随机变量，而随机变量是有分布的，这个分布所包含的信息量要比均值所包含的信息量多太多东西了。折扣累计回报的分布包含更多的环境交互信息。

从这个视角来看，经典强化学习的形式化的过程其实已经忽略了很多有价值的东西。或许这就直接导致了现有的强化学习算法不鲁棒、学习速度慢、样本效率低，调试难、训练难等等问题。

一个很自然的问题是：我们能不能考虑这些分布信息，重新将强化学习的问题进行形式化呢？

答案是肯定的。

那么该如何去用这个分布呢？

在回答这个问题之前，我们先看一看，什么时候这个分布是有用的。

答案很简单：当这个分布确实是个分布时，也就是说在策略 $pi$ 下，状态-动作对 $(x,a)$

处的折扣累计回报 $Z^{pi}left( x,a ight)$ 确实是个随机变量的时候。

这个答案看上去很平凡，但是意义非凡。

比如：对于确定性环境，确定性策略，从理论上来说折扣累计回报 $Z^{pi}left( x,a ight)$

是一个确定的数，而非随机变量。但是，当状态空间无穷大时，值函数往往采用函数逼近的方法进行表示，而函数逼近的方法从本质上来说是将无穷的状态空间进行编码，这就导致了对应不同值函数的状态编成距离很近甚至是相同的编码，从而使得相同编码所对应的折扣累计回报具有不同的值，使得该折扣累计回报变成了随机变量。即函数逼近的引入带入了状态表示的随机性。这也是为什么函数逼近的方法难以像表格型强化学习那样有很好的收敛性保证。

所以，当采用函数逼近的方法表示值函数时，这个分布是有意义的。2013年以来的深度强化学习便是采用深度神经网络逼近值函数或者强化学习形式化中的其他元素，如状态表示，回报，折扣因子。这些深度神经网络的表示都会引入随机性。

所以值分布强化学习在深度强化学习算法中效果非常明显。

那么如何利用这个分布呢？

在接下来的文章中，我会逐步介绍强化学习大神Marc G. Bellemare在值分布强化学习领域的一些探索性工作。

下一篇要介绍的工作为：

Bellemare M G , Dabney W , Munos, Rémi. A Distributional Perspective on Reinforcement Learning. 2017.

小伙伴们可以先下载下来自己看看，然后坐等我下一篇的分析和讲解