增强学习与马尔科夫决策过程

2015年11月17日

写在前面

现有的机器学习算法根据模型的学习过程大致可以分为四类：监督式学习，无监督式学习，半监督式学习和增强学习。监督式学习是从标记好的训练数据中进行模型的训练，常用来做分类和回归，例如逻辑回归、反向神经网络；无监督式学习是根据数据的特征直接对数据的结构和数值进行归纳，常用来做聚类，例如周知的K-均值，谱聚类；半监督式学习是根据部分标记的和部分没有标记的训练数据进行模型的学习，常用来做回归和分类；增强学习，作为今天要讨论的主角，是机器学习中最酷的分支之一，其通过不断的试错、反馈进行学习，常用来做序列决策或者控制问题，例如Q-Learning、TD-Learning。

增强学习和人类学习的机制非常相近，在实际应用中也有这很Cool的表现，如直升机自动飞行、各种通过增强学习实现的打败人类最强选手的棋牌博弈机器，包括最近非常火的DeepMind将深度学习和增强学习融合实现的玩Atari游戏的超强程序。下面将结合一个实例，从增强学习的数学本质——马尔科夫决策过程进行阐述。

一个栗子

下面是摘自《人工智能：一种现代方法》中的一个例子：

假设一个智能体处于下图（a）中所示的4x3的环境中。从初始状态开始，它需要每个时间选择一个行动（上、下、左、右）。在智能体到达标有+1或-1的目标状态时与环境的交互终止。如果环境是确定的，很容易得到一个解:[上，上，右，右，右]。可惜智能体的行动不是可靠的（类似现实中对机器人的控制不可能完全精确），环境不一定沿这个解发展。下图（b）是一个环境转移模型的示意，每一步行动以0.8的概率达到预期，0.2的概率会垂直于运动方向移动，撞到（a）图中黑色模块后会无法移动。两个终止状态分别有+1和-1的回报，其他状态有-0.4的回报。现在智能体要解决的是通过增强学习（不断的试错、反馈、学习）找到最优的策略（得到最大的回报）。

上述问题可以看作为一个马尔科夫决策过程，最终的目标是通过一步步决策使整体的回报函数期望最优。下面介绍马尔科夫决策过程。

马尔科夫决策过程

一个马尔科夫决策过程（Markov Decision Processes, MDP）有一个五个关键元素组成 ${S, A, {P_{s a}}, γ, R}$

$S$

$A$

$P_{s a}$

$γ \in [0, 1)$

$R : S \times A \mapsto R$

MDP的动态过程如下：智能体在状态 $s_{0}$

${s0a0⟶s1a1⟶s2a2⟶s3a3⟶\cdot\cdot\cdots0⟶a0s1⟶a1s2⟶a2s3⟶a3\cdot\cdot\cdot}_{0a0⟶s1a1⟶s2a2⟶s3a3⟶\cdot\cdot\cdots0⟶a0s1⟶a1s2⟶a2s3⟶a3\cdot\cdot\cdot}$

经过上面的转移路径，我们可以得到相应的回报函数和如下：

$R(s0,a0)+γR(s1,a1)+γ2R(s2,a2)+\cdot\cdot\cdotR(s0,a0)+γR(s1,a1)+γ2R(s2,a2)+\cdot\cdot\cdot$

如果回报函数 $R$

$R(s0)+γR(s1)+γ2R(s2)+\cdot\cdot\cdotR(s0)+γR(s1)+γ2R(s2)+\cdot\cdot\cdot$

我们的目标是选择一组最佳的动作，使得全部的回报加权和期望最大：

$Reward=E[R(s0)+γR(s1)+γ2R(s2)+\cdot\cdot\cdot]Reward=E[R(s0)+γR(s1)+γ2R(s2)+\cdot\cdot\cdot]$

从上式可以发现，在t时刻的回报值是被打了 $γ^{t}$

下图是上述内容的一个直观示意

下一部分将对上述过程进行进一步数学表示，以方便求解。

进一步数学表示

首先我们来定义策略，一个策略 $π$

为每一个策略 $π$

${Vπ(s)=E[R(s0)+γR(s1)+γ2R(s2)+\cdot\cdot\cdot|s0=s,π]Vπ(s)=E[R(s0)+γR(s1)+γ2R(s2)+\cdot\cdot\cdot|s0=s,π]}^{π(s)=E[R(s0)+γR(s1)+γ2R(s2)+\cdot\cdot\cdot|s0=s,π]Vπ(s)=E[R(s0)+γR(s1)+γ2R(s2)+\cdot\cdot\cdot|s0=s,π]}$

即给定初始状态 $s_{0}$

对于一个固定的策略，它的值函数 $V^{π}$

${Vπ(s)=R(s)+γ\sums'\inSPsπ(s)(s')Vπ(s')Vπ(s)=R(s)+γ\sums'\inSPsπ(s)(s')Vπ(s')}^{π(s)=R(s)+γ\sums'\inSPsπ(s)(s')Vπ(s')Vπ(s)=R(s)+γ\sums'\inSPsπ(s)(s')Vπ(s')}$

其中 $s^{'}$

利用贝尔曼等式能够有效的解出 $V^{π}$

当然，我们求解 $V^{π}$

${V*(s)=maxπVπ(s)V*(s)=maxπVπ(s)}^{*(s)=maxπVπ(s)V*(s)=maxπVπ(s)}$

其贝尔曼等式的形式为：

${V*(s)=R(s)+maxa\inAγ\sums'\inSPsa(s')V*(s')V*(s)=R(s)+maxa\inAγ\sums'\inSPsa(s')V*(s')}^{*(s)=R(s)+maxa\inAγ\sums'\inSPsa(s')V*(s')V*(s)=R(s)+maxa\inAγ\sums'\inSPsa(s')V*(s')}$

也可表示为增强学习中的Q函数形式：

${V*(s)=maxaQ(s,a)V*(s)=maxaQ(s,a)}^{*(s)=maxaQ(s,a)V*(s)=maxaQ(s,a)}$

其中 $Q (s, a) \equiv R (S) + γ P_{s a} (s^{'}) V^{*} (s^{'})$

对应最优值函数的最优的策略为：

${π*(s)=argmaxa\inA\sums'\inSPsa(s')V*(s')π*(s)=argmaxa\inA\sums'\inSPsa(s')V*(s')}^{*(s)=argmaxa\inA\sums'\inSPsa(s')V*(s')π*(s)=argmaxa\inA\sums'\inSPsa(s')V*(s')}$

需要注意的是， $π^{*}$

现在我们有了优化目标的数学表达（最优值函数，最优策略），下一部分讨论两种求解方法（针对有限状态、有限动作的MDP）。

值迭代方法和策略迭代方法

值迭代方法

算法步骤：

1 将每一个状态 $s$

2 循环直至收敛{

对于每一个状态 $s$

$V (s) := R (s) + max_{a \in A} γ \sum_{s^{'}} V (s^{'})$

}

值迭代方法里面的内循环又有两种策略：同步迭代，异步迭代。同步迭代就是得到 $V (s)$

策略迭代方法

于值迭代方法不同，策略迭代法之间关注 $π$

算法步骤：

1 随机初始化话一个 $S$

2 循环直至收敛{

2.1 令 $V := V^{π}$

2.2 对每一个状态s,对 $π (s)$

$π (s) := a r g max_{a \in A} \sum_{s^{'}} P_{s a} (s^{'}) V (s^{'})$

}

其中2.1步即为上述对于一个给定策略 $π$

2.2是根据2.1步的结果，挑选出当前状态 $s$

两者比较

对于规模较小的MDP，策略迭代一般能够更快的收敛；但对于规模较大的MDP（状态多），值迭代更容易些（没有线性方程组的计算）。

MDP中的参数估计

到目前为止，我们讨论的MDP和MDP求解算法都是在已知状态转移概率 $P_{s a}$

假设我们已知很多条状态转移路径如下：

${s(1)0a(1)0⟶s(1)1a(1)1⟶s(1)2a(1)2⟶s(1)3a(1)3⟶\cdot\cdot\cdots0(1)⟶a0(1)s1(1)⟶a1(1)s2(1)⟶a2(1)s3(1)⟶a3(1)\cdot\cdot\cdot}$

${s(2)0a(2)0⟶s(2)1a(2)1⟶s(2)2a(2)2⟶s(2)3a(2)3⟶\cdot\cdot\cdots0(2)⟶a0(2)s1(2)⟶a1(2)s2(2)⟶a2(2)s3(2)⟶a3(2)\cdot\cdot\cdot}$

$\cdot\cdot\cdot\cdot\cdot\cdot$

其中 $s_{i}^{(j)}$

当我们获得了很多类似上面的转移路径后（样本），我们可以用最大似然估计来估计状态转移概率。

${Psa(s')=#times took we action a in state s and got to s'#times we took action a in state sPsa(s')=#times took we action a in state s and got to s'#times we took action a in state s}_{sa(s')=#times took we action a in state s and got to s'#times we took action a in state sPsa(s')=#times took we action a in state s and got to s'#times we took action a in state s}$

上式分子表示在状态 $s$

对于未知的回报函数，我们令 $R (s)$

得到状态转移概率和回报函数的估值后，就简化为了前面部分讲述的问题，用第三部分将的值迭代或者策略迭代方法即可解决。例如我们将值迭代和参数估计结合到一块：

算法流程如下：

1 随机初始化话一个 $S$

2 循环直至收敛{

2.1 在MDP中执行策略 $π$

2.2 通过2.1得到的样本估计 $P_{s a}$

2.3 使用上一节提到的值迭代方法和估计得到的参数来更新 $V$

2.4 对于得到的 $V$

}

其中2.3步，是一个循环迭代的过程。上一节中我们通过将 $V$

小结

至此我们讨论完了增强学习的数学本质—马尔科夫决策过程（MDP）的数学表示及求解过程（这里的MDP是非确定的MDP，即状态转移函数和回报函数是有概率的,，对于确定性的，求解会更简单些，感兴趣可参考[3]最后一章：增强学习）。全文很大部分是对Andrew Ng讲义[1]的翻译，加上了部分自己的理解。推荐大家根据参考文献进行进一步理解和学习。

参考文献

[1] 机器学习公开课-讲义-马尔科夫决策过程.Andrew Ng

[2] 机器学习公开课-视频-马尔科夫决策过程.Andrew Ng

[3] 人工智能：一种现代方法

[4] 机器学习.Tom M.Mitchell

[5] 看DeepMind如何用Reinforcement learning玩游戏