MDP：马尔科夫决策过程（二）

MDP：马尔科夫决策过程（Markov Decision Process）

策略评价：

对于确定性动作（deterministic actions），由于状态转换可能是无限的，那么奖惩函数之和的值也可能是无限的；对于随机性动作（stochastic actions），同样，奖惩函数期望之和也有可能是无限的。

需要定义一个客观函数（objective function）来将无穷的奖惩序列转换成单一的实数，来表示效用。

大概有三种方式：

其中，第二种，折扣法是比较常用的，主要介绍这一种。折扣法：

第 n 步的奖惩（reword）被乘以γⁿ的折扣，这里的γ大于等于0，小于1。也就意味着该方法更偏向于较近的步数收到的奖惩

然后对这 n 步的带折扣奖惩进行累加

为了衡量一个策略的好坏，我们使用值函数 V_π（Value Function），定义如下：

在每一个状态按照策略 π 执行所获得的客观函数的值（Objective function）。

R(s,π(s))表示当前状态 s 下，按照策略 π 执行动作 π(s) 所获得奖惩

上面的式子也可写做递归的形式：

这样就可按照值函数对每个策略进行排列，就会存在至少一个最优策略，V*

（下一篇将接着介绍贝尔曼等式（Bellman equations））