强化学习----马尔科夫决策

        PS : 本书的符号标记基本严格遵守相关数学领域的惯例,对于变量,大写字母表示随机变量,小写字母表示普通变量;对于确定性函数而言均使用小写字母表示函数名及参数名;

关于随机变量的运算通常也用大写字母表示如期望。

        强化学习马尔科夫链决策过程(MDP),这与马尔科夫链不同,也隐马尔科夫链不同,MDP模型增加了中间行为抽象,行为具有改变状态的能力,是状态的改变生成机理,

描述了状态是通过什么行为而发生改变的,像增加了隐层一样,而且行为具有主动性,而马尔科夫链只是描述了一种状态之间的被动切换关系。

符号说明:

随机变量的取值是由的随机分布决定的。

1. 
以上集合即时随机过程的表示,其中〖 S〗_t 代表随机变量

2. 
花写  S 代表随机变量〖 S〗_t  的取值空间

3. 
〖 A〗_t 代表行为随机变量,其取值空间为花写的A,通常每个状态下可以取得行为空间可能并不相同,所以才表示为状态值的函数;为简化,将行为空间固定。

4. 
R_(t+1)  是行为〖 A〗_t    的奖赏,同时也是行为的后果,与此同时智能体的状态S_(t+1) 得到更新,本处行为与其对应的奖赏之间是有时间差的,主要是从时间角度强调,回报是在后期才会产生,与新的状态的时机更近,简而言之强调的时间线上的关联而不是强调行为的所属,也许这样更好地强调了过程性吧!

5. 
决策和智能体一起产生了一个序列(轨迹),是智能体策略和环境交互的一个实例,也是一个采样。

6. 


a.  有限MDP的 状态、行为、奖赏集合元素有限;这种情况下,随机变量〖 S〗_t   和〖 R〗_t 有良好定义的离散概率分布(依赖于先前状态和行为)。也就是说,在 t 时刻以及给定先前状态和行为的特定值的情况下,随机变量〖 S〗_t   和〖 R〗_t 的特定取值s′∈S  和〖 R〗_t∈R,有产生的概率。
b. 等号上面的原点提醒我们这是关于函数 p 的定义而是以前定义的事实。函数 p: S×R×S×A --> [0,1]是四个参数的普通确定性函数。中间的“|”来自条件概率的符号,但是这里它仅仅提醒我们,为 S 和 a 的每个选择,  p 指定了一个概率分布,很自然的函数 p 满足以下性质(概率的基本定义):


7. 
上面公式(6),四参数函数p  给出的概率完全刻画了nite MDP的动力学性质,很容易得到(7)的计算方法。人们可以计算任何想知道关于环境的信息,如状态转移概率。注意符号有点略加滥用,三参数函数p:S×S×A --> [0,1],字母p只是表示这是一个关于概率的函数与其它的p没有其它关系,有点像方法重载。也很容易计算状态--行为对的期望奖赏,如一个二元函数  r : S × A → R

或者 状态--行为--下一个状态三元组,如一个三元函数:
 r : S × A × S → R


在本书中,我们通常使用四参数p函数(6),但是这些其他符号有时也很方便。

PS : 本书的符号标记基本严格遵守相关数学领域的惯例,对于变量,大写字母表示随机变量,小写字母表示普通变量;对于确定性函数而言均使用小写字母表示函数名及参数名;关于随机变量的运算通常也用大写字母表示如期望。


   强化学习马尔科夫链决策过程(MDP),这与马尔科夫链不同,也隐马尔科夫链不同,MDP模型增加了中间行为抽象,行为具有改变状态的能力,是状态的改变生成机理,描述了状态是通过什么行为而发生改变的,像增加了隐层一样,而且行为具有主动性,而马尔科夫链只是描述了一种状态之间的被动切换关系。

    马尔科夫决策过程的优化又与动态规划密切相关,但与通常的动态规划不同,融入了概率和随机过程相关学科的内容,强化学习主要学习一个好的策略。

给定的方案条件下,正向计算值函数,此时使用变量代换(小学数学基本思想)具体的数据,计算状态值函数以及行为值函数。变量代换的好处有二:a. 给定一个具体的策略,直接代入即可算得相应值函数; b. 方便后面有用函数理论去进行优化计算。

原文地址:https://www.cnblogs.com/wdmx/p/10094344.html