Q pi (lambda)

Q(λ) with Off-Policy Corrections

摘要

我们提出并分析了一种off-policy的多步骤时间TD学习的替代方法，其中off-policy的回报是根据当前的Q函数在奖励方面进行校正，而不是根据目标策略在转移概率方面进行校正。我们证明，只要有一定条件，这种近似修正就足以在政策评估和控制方面实现政策外趋同。这些条件将目标和行为政策之间的距离，资格跟踪参数和折扣因子联系起来，并正式确定了非政策性TD（λ）中的潜在权衡。我们在连续状态控制任务上以经验方式说明了这种理论关系。

1 介绍

在强化学习（RL）中，当使用行为策略 生成的样本来学习目标策略 时，学习是off-policy的。off-policy学习的通常方法是忽略或完全放弃目标策略概率较低的过渡。例如，Watkins 的Q（λ）[21]会在遇到非贪婪行为时立即削减轨迹备份。同样，在政策评估中，重要性抽样方法[8]根据目标的不匹配和相应行动的行为概率对收益进行加权。这种方法保守地对待过渡，因此可能会不必要地终止备份或引入大量差异。

许多off-policy方法，尤其是蒙特卡洛方法，除了从概率意义上判断off-policy行动外别无选择。但是，RL中的时差方法[14]沿该方向保持了值函数的近似值，而资格迹[22]提供了单步方法和蒙特卡洛方法之间的连续链接。价值功能根据以下预期的累积奖励评估行动，从而提供一种直接纠正即时奖励而不是过渡的方法。我们在本文中表明，这种近似校正可能足以满足偏离政策的要求，但要遵循资格跟踪参数与目标与行为政策之间的距离之间的权衡条件。这种权衡的两个极端是一步式Q学习和按策略学习。形式化权衡的连续性是本文的主要见解之一。

特别是，我们提出了一种off-policy的收益算子，它基于Q函数的当前近似值，用修正项来增加收益。然后，我们根据该运算符对三种算法进行形式化：

（1）off-policy Qπ（λ）及其特殊情况

（2）on-policy的Qπ（λ）用于策略评估，以及

（3）Q ∗（λ）用于off-policy 策略评估

在策略评估中，on-policy和off-policy 的Qπ（λ）都是新颖的，但与TD（λ）系列的几种现有算法密切相关。第7节对此进行了详细讨论。我们证明了Qπ（λ）的收敛性，这取决于λ-ε的权衡，其中$$
varepsilon stackrel{ ext { ase }}{=} max {x}|pi(cdot | x)-mu(cdot | x)|{1}

[是行为与目标政策之间不相似性的度量。更准确地说，我们证明，对于任何数量的“off-policyness”ε∈[0，2]，都有一个固有的最大允许备份长度值$lambda=frac{1-gamma}{gamma varepsilon}$，并且使λ低于该值可确保收敛至Qπ不涉及政策可能性。由于重要性抽样方法[9]中似然比积引入的不稳定性和方差，因此这是可取的。在控制上，Q ∗（λ）实际上与Watkins's的Q（λ）相同，不同之处在于它不会削减off-policy行动时的资格追踪。 Sutton和Barto [16]提到了这样的变化，他们称其为朴素Q（λ）。我们首次分析了该算法，并证明了对于较小的λ值的收敛性。尽管我们无法证明与政策评估案例类似的λ-ε折衷，但我们提供了存在这种折衷的经验证据，证实了直觉，即朴素的Q（λ）并不是“和一开始的假设一样朴素” [16]。我们首先给出技术背景，然后定义我们的操作算子。然后，我们根据这些运算符指定算法的增量版本，并说明其收敛性。我们通过证明收敛来证明：在政策评估中要经受λ-ε的权衡，而对于控制中的λ较小的值，则更为保守。我们说明了在控制设置中，Bicycle域中的经验取舍。最后，我们通过将算法放在TD（λ）中现有工作的基础上得出结论。 ### 2 初步工作我们考虑一个环境，该环境通过通常的离散时间马尔可夫决策过程（X，A，γ，P，r）建模，该过程由有限状态空间和作用空间X和A，折现因子γ和分别映射（x ，a）∈（X，A）到X上的分布，以及奖励函数r：X×A→[-Rmax，Rmax]。策略π将状态x∈X映射到A上的分布。Q函数Q是X×A→R的映射。给定策略π，我们定义Q函数上的算子Pπ： ]

left(P^{pi} Q ight)(x, a) stackrel{ ext { def }}{=} sum_{x^{prime} in mathcal{X}} sum_{a^{prime} in mathcal{A}} Pleft(x^{prime} | x, a ight) pileft(a^{prime} | x^{prime} ight) Qleft(x^{prime}, a^{prime} ight)

[每个策略π都对应一个唯一的Q函数Qπ，该函数描述了遵循π时所获得的期望的折现奖励总和： ]

Q^{pi} stackrel{ ext { def }}{=} sum_{t geq 0} gamma^{t}left(P{pi} ight)^{t} r

[其中，**对于任何算子$X$，$(X)^t$表示X的t个连续应用**，而我们通常将**r视为一个特定的Q函数** 我们编写Bellman运算符Tπ和Qπ的Bellman方程： ]

egin{aligned}mathcal{T}^{pi} Q & stackrel{ ext { def }}{=} r+gamma P^{pi} Q \mathcal{T}^{pi} Q^{pi} &=Q^{pi}=left(I-gamma P^{pi}
ight){-1} rend{aligned}

[$mathcal{T}^{pi} Q^{pi}=Q^pi=r+gamma P^{pi} Q^pi==>(1-gamma P^pi)Q^pi=r==>Q^pi=(1-gamma P^pi)^{-1}r$ 贝尔曼最优算子$mathcal{T} Q stackrel{ ext { def }}{=} r+gamma max _{pi} P^{pi} Q$，最佳Q函数$Q^{*} stackrel{ ext { def }}{=} sup _{pi} Q^{pi}$是Bellman最优方程的唯一解 ]

mathcal{T} Q=Q

[我们定义$operatorname{GREEDY}(Q) stackrel{ ext { def }}{=}left{pileft|pi(a | x)>0 Rightarrow Q(x, a)=max _{a^{prime}} Qleft(x, a^{prime} ight) ight} ight.$表示一套关于Q的贪婪策略。因此，对所有 $pi in operatorname{GREEDY}(Q)$，$mathcal{T} Q=mathcal{T}^{pi} Q$ 时间差（TD）学习[14]取决于这样一个事实，即保证算子Tπ和T的迭代都收敛到它们各自的固定点Qπ和Q ∗。给定样本经验$x, a, r, x^{prime}, a^{prime}$，则SARSA（0）[12]在第k次迭代中更新其Q函数估计，如下所示： ]

egin{aligned}Q_{k+1}(x, a) & leftarrow Q_{k}(x, a)+alpha_{k} delta \delta &=r+gamma Q_{k}left(x^{prime}, a^{prime} ight)-Q_{k}(x, a)end{aligned}

[其中δ是TD误差，$left(alpha_{k} ight)_{k in mathbb{N}}$一个非负步长序列人们不仅需要考虑短暂的经历，还可以对轨迹$x_{0}, a_{0}, r_{0}, x_{1}, a_{1}, r_{1}, dots$进行采样，并因此重复应用Tπ（或T）。一种特别灵活的方式是通过此类n步运算的加权和$A^{lambda}$： ]

egin{aligned}mathcal{T}{lambda}^{pi} Q stackrel{ ext { def }}{=} & A^{{lambda}left[left(mathcal{T}}{pi} ight)^{n+1} Q ight] &=Q+left(I-lambda gamma P^{pi}
ight){-1}left(mathcal{T}^{pi} Q-Q ight) A^{lambda}[f(n)] & stackrel{ ext { def }}{=}(1-lambda) sum{n geq 0} lambda^{n} f(n)end{aligned}

[自然地，Qπ仍然是Tπλ的固定点。取λ= 0产生通常的Bellman算子Tπ，λ= 1时消除了对近似Q函数的递归，并在蒙特卡洛意义上恢复了Qπ。众所周知，λ通过近似Q函数抵消了自举的偏差，而使用采样多步返回值则产生了方差[4]，而λ的中间值通常在实践中表现最佳[15，13] 。上述λ运算符可以通过称为资格跟踪的机制在在线设置中有效实现。正如我们将在第7节中看到的那样，它实际上对应于许多在线算法，每种算法都稍有不同，其中SARSA（λ）[12]是规范实例。最后，我们在希望评估的目标策略π和*行为策略µ*之间做出了重要区分，行为是根据行为策略µ生成的。如果µ =π，则表示该学习是on-policy的，否则为off-policy的。我们将写出Eµ来表示对序列]

x_{0}, a_{0}, r_{0}, x_{1}, a_{1}, r_{1}, dots

[的期望，并 ]

a_{i} sim muleft(cdot | x_{i} ight), x_{i+1} sim Pleft(cdot | x_{i}, a_{i} ight)

[在适当的情况下假设x0 = x和a0 = a为条件。 ### 3 off-policy 回报操作算子现在，我们将描述蒙特卡洛off-policy修正的收益算子$mathcal{R}^{pi, mu}$，这是我们所做工作的核心。给定目标π以及行为µ产生的收益，算子尝$mathcal{R}^{pi, mu}$试利用根据Qπ的当前近似值Q建立的校正来近似由π产生的收益。它在状态-动作对（x，a）对Q的应用定义如下： ]

left(mathcal{R}^{pi, mu} Q ight)(x, a) stackrel{ ext { def }}{=} r(x, a)+mathbb{E}{mu}left[sum{t geq 1} gamma^{t}left(r_{t}+underbrace{mathbb{E}{pi} Qleft(x{t}, cdot ight)-Qleft(x_{t}, a_{t} ight)}_{ ext {off-policy correction }} ight) ight]

[我们使用缩写$mathbb{E}_{pi} Q(x, cdot) equiv sum_{a in mathcal{A}} pi(a | x) Q(x, a)$]