强化学习第2版第5章笔记——蒙特卡洛方法

  蒙特卡洛算法仅仅需要经验,即从真实或者模拟的环境交互中采样得到的状态、动作、收益的序列。从真实经验中进行学习是非常好的,因为它不需要关于环境动态变化规律的先验知识,却依然能够达到最优的行为。从模拟经验中学习也是同样有效的,尽管这是需要一个模型,但这个模型只需要能够生成状态转移的一些样本,而不需要像动态规划(DP)算法那样生成所有可能转移的概率分布。在绝大多数情况下,虽然很难得到显式的分布,但从希望得到的分布进行采样却很容易。

  蒙特卡洛算法通过平均样本的回报来解决强化学习问题。为了保证能够得到有良好定义的回报,这里我们只定义用于分幕式任务的蒙特卡洛算法。在分幕式任务中,我们假设一段经验可以被分为若干个幕,并且无论选取怎样的动作整个幕一定会终止。价值估计以及策略改进在整个幕结束时才进行。因此蒙特卡洛算法是逐幕做出改进的,而非在每一步(在线)都有改进。通常,术语"蒙特卡洛"泛指任何包含大量随机成分的估计方法。在这里我们用它特指那些对完整的回报取平均的算法(而非在下一章中介绍的从部分回报中学习的算法)。

原文地址:https://www.cnblogs.com/lucifer1997/p/14367385.html