Synthetic Returns for Long-Term Credit Assignment

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!

Abstract

  从强化学习的早期开始,TD学习就一直是为动作分配信度的主要方法,它一步一步地向后传播信度。当动作和奖励之间的延迟很长,并且当干预的不相关事件导致长期回报的方差时,这种方法会受到影响。我们提出了状态联想(SA)学习,其中智能体学习状态和任意遥远未来奖励之间的关联,然后直接在两者之间传播信度。在这项工作中,我们使用SA学习来模拟过去状态对当前奖励的贡献。通过这个模型,我们可以预测每个状态对未来的贡献,我们称之为"综合回报"。TD学习可以应用于选择使这些综合回报(SRs)最大化的动作。我们证明了在TD学习失败的一系列任务中使用SR增强智能体的有效性。我们证明了学到的SR是可解释的:它们在采取关键动作后出现脉冲。最后,我们展示了我们基于IMPALA的SR智能体解决了Atari Skiing的问题——这是一个奖励延迟很长的游戏,对深度RL智能体构成了一个主要障碍——比公布的最新技术快25倍。

1. Introduction

2. Method

3. Experiments

3.1. Chain Task

3.2. Catch with Delayed Rewards

3.3. Key-to-Door

3.4. Pong

3.5. Atari Skiing

4. Related work

5. Discussion

原文地址:https://www.cnblogs.com/lucifer1997/p/14900098.html