强化学习总结（2）--马尔科夫决策

RL问题的基础就是马尔科夫决策过程(MDP)，因此，这一块内容虽然基础，但确是不得不总结的内容。网上虽然有很多博客、专栏介绍，但总感觉似是而非，有些还有些许错误。这里打算按照教材中的体系再度总结一下吧。这一块概念性的东西比较多，比如马尔科夫性质（无后效性），比如值函数、最优值函数、最优动作价值函数等等。下面会一一进行介绍。

1.几种马尔科夫模型的关系，引用一篇博客的图就是：

2.马尔科夫决策过程

一个马尔科夫决策过程由一个五元组构成M=(S,A,P_s,a,R,γ )，具体如下：

S：表示一组状态集合。

A：表示一组动作。

P_s,a表示状态转移概率。Ps,a表示当前状态下，经过动作a后，可能转移到其他各种状态的概率分布情况。比如，在状态s下执行动作a，转移到s'的概率可以表示为p(s'|s,a).

R:奖励函数。

γ是折扣率，又叫折扣因子。

回报(return)：时刻t在某一状态下的表示：

[egin{array}{c}
{G_t} = {R_{t + 1}} + gamma {R_{t + 2}} + {gamma ^2}{R_{t + 3}} + cdots \
{ m{ = }}{R_{t + 1}} + gamma {G_{t + 1}}
end{array}](2.1)

其中γ是一个参数，属于[0,1]，就是所谓的折扣率。

MDP的决策过程非常好理解，学过随机过程的应该都知道，就是：某个agent的初始状态为s0，然后根据策略选择一个动作a0执行，然后状态会按照P_s,a的转移概率转移到下一个状态s1,然后继续执行下一个动作a1,转移到s2，接下来继续执行....这个过程也比较好理解，不再赘述。

2.值函数

这个是MDP的核心，也是RL的核心概念。举个例子，下棋的时候，如果在第n步输了棋，那么只有状态sn和an，然后获得的一个立即奖励，但这个奖励怎么说明策略到底是好还是坏呢，这样就太草率了吧？因此，我们想到再定义一个函数，我们不用直接奖励作为最终的返回值，我们用一个历次奖励的累加组合，这样这个函数中就包括了前面每一步的信息，如果将这个作为每一步的返回值，那肯定比立即奖励函数好点吧，这就是值函数的由来。值函数可以表明当前状态下策略Π的长期奖赏。

值函数（就是状态值函数）定义为：[{v_pi }(s) = {{ m E}_pi }[{G_t}|{S_t} = s] = {{ m E}_pi}left[ {sumlimits_{k = 0}^infty {{gamma ^k}{R_{t + k + 1}}|{S_t} = s} } ight]](2.2)

简单说就是，在策略π下状态s的值，这个值怎么来的呢，就是当前状态下回报return的期望。

然而，有了状态值函数还不够，如果考虑采取某个确定动作后得到的状态，这该怎么确定值呢，那就再定义一个值函数-----状态动作值函数。表示为：

[{q_pi }(s,a) = {{ m E}_pi }[{G_t}|{S_t} = s,{A_t} = a] = {{ m E}_pi }left[ {sumlimits_{k = 0}^infty {{gamma ^k}{R_{t + k + 1}}|{S_t} = s,{A_t} = a} } ight]](2.3)

接下来，上述公式感觉没法用啊，能不能再继续展开一下呢，完全可以，bellman方程就是干这个事情的。于是就有了下式：

(2.4)

这个式子比较清晰，离散情况的，没什么具体可以说的，就是这个式子给出了值函数和下一个值函数的递推关系。

3.值函数的优化

有了值函数，接下来该怎么寻找最优策略呢，RL的工作就是寻找能使最终目标回报最大的策略。对于每一个状态，如果整个任务重复的回数足够多，那么每一个状态都会有许许多多的状态值函数，这中间，一定会有一个最大值，当然可能几个都是最大并列，这关系不大。定义最优值函数为[{v_*}(s) = mathop {max }limits_pi {v_pi }(s)]

对应的最优动作状态值函数定义为：[{q_*}(s,a) = mathop {max }limits_pi {q_pi }(s,a)](2.5)

然后，就该找到可以求解的公式了，如下所示：

3.价值函数和动作价值函数的关系

策略迭代属于下一节的内容，就不放在这里讲了。

参考文献

[1]. Reinforcement learning: an introduction.2017 Draft.

[2].http://blog.csdn.net/greent2008/article/details/53995974

[3].http://blog.csdn.net/zz_1215/article/details/44138823