Soft Actor-Critic Algorithms and Applications

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

Abstract

　　无模型的深度RL算法已成功应用于一系列具有挑战性的序列决策和控制任务。但是，这些方法通常面临两个主要挑战：高样本复杂性和超参数的脆弱性。这两个挑战都将这种方法的应用范围限制在现实世界之外。在本文中，我们描述了SAC算法，这是我们最近引入的基于最大熵RL框架的异策actor-critic算法。在这个框架中，actor的目标是同时最大化期望回报和熵。也就是说，要在完成任务的同时尽可能随机地动作。我们将SAC扩展为合并许多修改，这些修改可以加速训练并提高有关超参数的稳定性，包括自动调整温度超参数的约束公式。我们对一系列基准任务以及具有挑战性的实际任务(例如四足机器人的运动和灵巧的机器人操作)进行系统评估，以评估SAC。通过这些改进，SAC实现了最先进的性能，在样本效率和渐进性能方面优于以前的同策和异策方法。此外，我们证明，与其他异策算法相比，我们的方法非常稳定，在不同的随机种子上实现了相似的性能。这些结果表明，SAC是在现实世界中学习机器人任务有希望的候选。

　　参数化soft Q函数Q_θ(s_t, a_t)和易处理的策略π_Φ(a_t|s_t)。这些网络的参数为θ和Φ。可以将soft Q函数建模为表达神经网络，将策略建模为具有神经网络给出均值和协方差的高斯模型。

　　此更新利用了目标软Q函数，该目标的soft Q函数具有作为soft Q函数权重的指数移动平均而获得的参数，已证明可以稳定训练。

其中 t 是输入噪声矢量，是从某个固定分布(例如球形高斯)采样的。