Synthetic Returns for Long-Term Credit Assignment

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

Abstract

　　从强化学习的早期开始，TD学习就一直是为动作分配信度的主要方法，它一步一步地向后传播信度。当动作和奖励之间的延迟很长，并且当干预的不相关事件导致长期回报的方差时，这种方法会受到影响。我们提出了状态联想(SA)学习，其中智能体学习状态和任意遥远未来奖励之间的关联，然后直接在两者之间传播信度。在这项工作中，我们使用SA学习来模拟过去状态对当前奖励的贡献。通过这个模型，我们可以预测每个状态对未来的贡献，我们称之为"综合回报"。TD学习可以应用于选择使这些综合回报(SRs)最大化的动作。我们证明了在TD学习失败的一系列任务中使用SR增强智能体的有效性。我们证明了学到的SR是可解释的：它们在采取关键动作后出现脉冲。最后，我们展示了我们基于IMPALA的SR智能体解决了Atari Skiing的问题——这是一个奖励延迟很长的游戏，对深度RL智能体构成了一个主要障碍——比公布的最新技术快25倍。

1. Introduction

2. Method

3. Experiments

3.1. Chain Task

3.2. Catch with Delayed Rewards

3.3. Key-to-Door

3.4. Pong

3.5. Atari Skiing

4. Related work

5. Discussion