强化学习学习笔记（三）-蒙特卡洛（MC）的无模型预测和控制

学习目标

1.了解预测与控制之间的区别
2.知道如何使用MC方法预测状态值和状态-动作值
3.了解基于同策略的首次访问MC控制算法
4.了解异政策的MC控制算法
5.了解加权重要性抽样
6.了解MC算法比动态规划方法的优势

总结

1.动态规划方法假定完全了解环境（MDP）。在实践中，我们通常对世界的运作方式并不完全了解。
2.蒙特卡洛（MC）方法可以直接从与环境互动中收集的经验中学习。经验集是一系列（状态，动作，奖励，下一状态）元组。
3.MC方法基于情节工作。我们对经验集进行抽样，并在每一集结束时对我们的估计值进行更新。 MC方法具有较高的方差（由于情节内有许多随机决策），但无偏见。
4.MC策略评估：给定策略，我们想估计状态值函数V（s）。对经验集进行抽样，并估计V（s）是从该状态开始获得的所有体验的平均值。相同的技术适用于动作值函数Q（s，a）。给定足够的样本，这被证明可以收敛。
5.MC控制：想法与动态规划相同。使用MC策略评估来评估当前策略，然后贪婪地改进策略。问题：如果我们不了解整个环境，如何确保我们探索所有状态？
6.解决勘探问题的方法：使用epsilon-greedy策略而非完全贪婪策略。做出决定时，概率为ε。这将学习最佳ε贪婪策略。
7.异策略学习：在遵循探索性（ε贪婪）策略的同时，我们如何了解实际的最佳（贪婪）策略？我们可以使用重要性抽样，它通过我们想要了解的策略根据回报发生的可能性来衡量回报。

简介

在本章中，我们将考虑我们的第一种学习方法，用于估计价值函数和发现最优策略。与上一章不同，这里我们不假定您对环境有完整的了解。蒙特卡洛方法仅需要经验，即从与环境的实际或模拟交互中获得的状态，动作和奖励的样本序列。为了确保有明确定义的收益可用，这里我们仅针对情节任务定义蒙特卡洛方法。也就是说，我们假设经验被分为几集，并且无论选择什么动作，所有集最终都会终止。仅在情节完成时，价值估计和策略才会更改。

Monte Carlo Prediction

在计算值函数时，蒙特卡洛方法是利用经验平均代替随机变量的期望。此处，我们要理解两个词，何为平均？何为经验？
首先看何为经验：
当要评估智能体的当前策略时，我们可以利用策略产生很多次实验，每次实验都是从任意的初始状态开始直到终止状态，比如一次实验（an episode）为：({S_1},{A_1},{R_2}, cdots ,{S_T})计算一次实验中状态s处的折扣回报返回值为：
({G_t}left( s ight) = {R_{t + 1}} + gamma {R_{t + 2}} + cdots {gamma ^{T - 1}}{R_T})
所谓经验，是指利用该策略做很多次试验，产生很多幕数据。这里一幕是一次试验的意思。
再来看什么是平均：
这个概念很简单，平均就是求均值。不过，利用蒙特卡罗方法求状态处的值函数时，又可以分为第一次访问蒙特卡罗方法和每次访问蒙特卡罗方法。
第一次访问蒙特卡罗方法是指，在计算状态s处值函数时，只利用每次试验中第一次访问到状态s时的返回值。每次访问蒙特卡罗方法是指，在计算状态s处的值函数时，利用所有访问到状态s时的回报返回值