Policy Gradient 算法

常见的policy gradient算法，写出来挺简单的，但是有一个复杂的推导过程，这里就略去了。

在这里插入图片描述

在这里插入图片描述
$G_t^i$ 可以是TD estimate、bootsrap，也可以是简单的从t开始的reward。

图示即为实现monototic imporvement

$G_t^i=sum_{t'=t}^Tau r_t^i$
$hat{A}_t^i=G_t^i-b(s_t)$
上面两行是为了更好地得到梯度的估计，在使用少量数据的情况下，并减少variance。

两部分都很重要，实现的是不一样的东西。

在这里插入图片描述
$hat{R_t^i}$ 的计算方式如下：