强化学习总结(2)--马尔科夫决策

RL问题的基础就是马尔科夫决策过程(MDP),因此,这一块内容虽然基础,但确是不得不总结的内容。网上虽然有很多博客、专栏介绍,但总感觉似是而非,有些还有些许错误。这里打算按照教材中的体系再度总结一下吧。这一块概念性的东西比较多,比如马尔科夫性质(无后效性),比如值函数、最优值函数、最优动作价值函数等等。下面会一一进行介绍。

1.几种马尔科夫模型的关系,引用一篇博客的图就是:

2.马尔科夫决策过程

   一个马尔科夫决策过程由一个五元组构成M=(S,A,Ps,a,R,γ ),具体如下:

   S:表示一组状态集合。

   A:表示一组动作。

   Ps,a表示状态转移概率。Ps,a表示当前状态下,经过动作a后,可能转移到其他各种状态的概率分布情况。比如,在状态s下执行动作a,转移到s'的概率可以表示为p(s'|s,a).

   R:奖励函数。

   γ是折扣率,又叫折扣因子。

   回报(return):时刻t在某一状态下的表示:

[egin{array}{c}
{G_t} = {R_{t + 1}} + gamma {R_{t + 2}} + {gamma ^2}{R_{t + 3}} + cdots \
{ m{ = }}{R_{t + 1}} + gamma {G_{t + 1}}
end{array}](2.1)

   其中γ是一个参数,属于[0,1],就是所谓的折扣率。

   MDP的决策过程非常好理解,学过随机过程的应该都知道,就是:某个agent的初始状态为s0,然后根据策略选择一个动作a0执行,然后状态会按照Ps,a的转移概率转移到下一个状态s1,然后继续执行下一个动作a1,转移到s2,接下来继续执行....这个过程也比较好理解,不再赘述。

2.值函数

    这个是MDP的核心,也是RL的核心概念。举个例子,下棋的时候,如果在第n步输了棋,那么只有状态sn和an,然后获得的一个立即奖励,但这个奖励怎么说明策略到底是好还是坏呢,这样就太草率了吧?因此,我们想到再定义一个函数,我们不用直接奖励作为最终的返回值,我们用一个历次奖励的累加组合,这样这个函数中就包括了前面每一步的信息,如果将这个作为每一步的返回值,那肯定比立即奖励函数好点吧,这就是值函数的由来。值函数可以表明当前状态下策略Π的长期奖赏。

值函数(就是状态值函数)定义为:[{v_pi }(s) = {{ m E}_pi }[{G_t}|{S_t} = s] = {{ m E}_pi}left[ {sumlimits_{k = 0}^infty  {{gamma ^k}{R_{t + k + 1}}|{S_t} = s} } ight]](2.2)

简单说就是,在策略π下状态s的值,这个值怎么来的呢,就是当前状态下回报return的期望。

    然而,有了状态值函数还不够,如果考虑采取某个确定动作后得到的状态,这该怎么确定值呢,那就再定义一个值函数-----状态动作值函数。表示为:

    [{q_pi }(s,a) = {{ m E}_pi }[{G_t}|{S_t} = s,{A_t} = a] = {{ m E}_pi }left[ {sumlimits_{k = 0}^infty  {{gamma ^k}{R_{t + k + 1}}|{S_t} = s,{A_t} = a} } ight]](2.3)

    接下来,上述公式感觉没法用啊,能不能再继续展开一下呢,完全可以,bellman方程就是干这个事情的。于是就有了下式:

   (2.4)

        这个式子比较清晰,离散情况的,没什么具体可以说的,就是这个式子给出了值函数和下一个值函数的递推关系。

  3.值函数的优化

     有了值函数,接下来该怎么寻找最优策略呢,RL的工作就是寻找能使最终目标回报最大的策略。对于每一个状态,如果整个任务重复的回数足够多,那么每一个状态都会有许许多多的状态值函数,这中间,一定会有一个最大值,当然可能几个都是最大并列,这关系不大。定义最优值函数为[{v_*}(s) = mathop {max }limits_pi  {v_pi }(s)]

     对应的最优动作状态值函数定义为:[{q_*}(s,a) = mathop {max }limits_pi  {q_pi }(s,a)](2.5)

     然后,就该找到可以求解的公式了,如下所示:

     

 3.价值函数和动作价值函数的关系

     

       策略迭代属于下一节的内容,就不放在这里讲了。

参考文献

[1]. Reinforcement learning: an introduction.2017 Draft.

[2].http://blog.csdn.net/greent2008/article/details/53995974

[3].http://blog.csdn.net/zz_1215/article/details/44138823

     

     

     

    

  

    

       

    

原文地址:https://www.cnblogs.com/xiachongkun/p/7732444.html