强化学习学习笔记(五):值函数估计

学习目标

1.了解表查找中函数逼近的动机
2.了解如何将函数逼近合并到现有算法中
3.了解函数逼近器和RL算法的收敛特性
4.了解使用经验重播的批处理

总结

1.建立一个大表(每个状态或状态-动作对一个值)会导致内存和数据效率低下。 通过使用特征化状态表示,函数逼近可以推广到看不见的状态。
2.将RL视为有监督的学习问题,以MC或TD目标为标签,当前状态/动作为输入。 通常目标也取决于函数估计器,但是我们只是忽略了它的梯度。 这就是为什么这些方法称为半梯度方法。
3.挑战:我们拥有非平稳(策略更改,引导)和非iid(时间相关)数据。
4.许多方法都假定我们的动作空间是离散的,因为它们依赖于计算所有动作的argmax。 大型且连续的动作空间正在持续研究中。
5.对于Control,几乎没有收敛保证。 对于非线性逼近器,基本上根本没有保证。 但是他们倾向于在实践中工作。
6.经验重播:将体验存储为数据集,将其随机化,然后重复应用小批量SGD。
7.稳定非线性函数逼近器的技巧:固定目标。根据前一时间步长中冻结的参数值来计算目标。
8.对于非个案(连续)案例,函数逼近更为复杂,我们需要放弃折现,并使用“平均奖励”公式。

原文地址:https://www.cnblogs.com/feifanrensheng/p/13552469.html