‘Bootstrapped Meta-Learning’

Flennerhag et al. (2021) | https://arxiv.org/pdf/2109.04504.pdf建议通过运行内部循环稍长一点来构建所谓的自举目标，然后将由此产生的网络作为教师为视野较短的学生提供训练服务。与 DQN 类似，自举目标与计算图分离，只是在损失计算中充当固定量。论文中说到，该方法基本上将元学习方法向前进行了推进，通过比较专家和学生的度量可以进一步控制元目标的曲率。在一组测试的RL 实验中，作者表明，尽管视野很短，但自举可以实现快速的探索适应，并且它优于具有较长视野的普通元梯度。与 STACX 元梯度代理一起，自举元梯度提供了一种新的 ATARI SOTA，也可以应用于多任务少样本学习。总而言之，这项工作为如何积极地进行元学习问题公式开辟了许多新视角。

完整文章