强化学习学习笔记（五）：值函数估计

学习目标

1.了解表查找中函数逼近的动机
2.了解如何将函数逼近合并到现有算法中
3.了解函数逼近器和RL算法的收敛特性
4.了解使用经验重播的批处理

总结

1.建立一个大表（每个状态或状态-动作对一个值）会导致内存和数据效率低下。通过使用特征化状态表示，函数逼近可以推广到看不见的状态。
2.将RL视为有监督的学习问题，以MC或TD目标为标签，当前状态/动作为输入。通常目标也取决于函数估计器，但是我们只是忽略了它的梯度。这就是为什么这些方法称为半梯度方法。
3.挑战：我们拥有非平稳（策略更改，引导）和非iid（时间相关）数据。
4.许多方法都假定我们的动作空间是离散的，因为它们依赖于计算所有动作的argmax。大型且连续的动作空间正在持续研究中。
5.对于Control，几乎没有收敛保证。对于非线性逼近器，基本上根本没有保证。但是他们倾向于在实践中工作。
6.经验重播：将体验存储为数据集，将其随机化，然后重复应用小批量SGD。
7.稳定非线性函数逼近器的技巧：固定目标。根据前一时间步长中冻结的参数值来计算目标。
8.对于非个案（连续）案例，函数逼近更为复杂，我们需要放弃折现，并使用“平均奖励”公式。