随机权值平均的原理解释

SWA 的工作原理。它只保存两个模型,而不是许多模型的集成:

第一个模型保存模型权值的平均值(WSWA)。在训练结束后,它将是用于预测的最终模型。

第二个模型(W)将穿过权值空间,基于周期性学习率规划探索权重空间。

 新的网络优化方法:随机权值平均

SWA权重更新公式

在每个学习率周期的末尾,第二个模型的当前权重将用来更新第一个模型的权重(公式如上)。因此,在训练阶段,只需训练一个模型,并在内存中储存两个模型。预测时只需要平均模型,基于其进行预测将比之前描述的集成快很多,因为在那种集成中,你需要使用多个模型进行预测,最后再进行平均。

参考资料:https://blog.csdn.net/e01528/article/details/82354477

原文地址:https://www.cnblogs.com/tay007/p/11358252.html