强化学习第2版第5章笔记—

强化学习第2版第5章笔记——蒙特卡洛方法

　　蒙特卡洛算法仅仅需要经验，即从真实或者模拟的环境交互中采样得到的状态、动作、收益的序列。从真实经验中进行学习是非常好的，因为它不需要关于环境动态变化规律的先验知识，却依然能够达到最优的行为。从模拟经验中学习也是同样有效的，尽管这是需要一个模型，但这个模型只需要能够生成状态转移的一些样本，而不需要像动态规划(DP)算法那样生成所有可能转移的概率分布。在绝大多数情况下，虽然很难得到显式的分布，但从希望得到的分布进行采样却很容易。

　　蒙特卡洛算法通过平均样本的回报来解决强化学习问题。为了保证能够得到有良好定义的回报，这里我们只定义用于分幕式任务的蒙特卡洛算法。在分幕式任务中，我们假设一段经验可以被分为若干个幕，并且无论选取怎样的动作整个幕一定会终止。价值估计以及策略改进在整个幕结束时才进行。因此蒙特卡洛算法是逐幕做出改进的，而非在每一步(在线)都有改进。通常，术语"蒙特卡洛"泛指任何包含大量随机成分的估计方法。在这里我们用它特指那些对完整的回报取平均的算法(而非在下一章中介绍的从部分回报中学习的算法)。