Tensorflow中的滑动平均模型

原文链接

在Tensorflow的教程里面，使用梯度下降算法训练神经网络时，都会提到一个使模型更加健壮的策略，即滑动平均模型。

基本思想
在使用梯度下降算法训练模型时，每次更新权重时，为每个权重维护一个影子变量，该影子变量随着训练的进行，会最终稳定在一个接近真实权重的值的附近。那么，在进行预测的时候，使用影子变量的值替代真实变量的值，可以得到更好的结果。

操作步骤

1 训练阶段：为每个可训练的权重维护影子变量，并随着迭代的进行更新；
2 预测阶段：使用影子变量替代真实变量值，进行预测。

1 滑动平均模型在梯段下降算法上才会有好的结果，别的优化算法没有这个现象，没见到合理的解释。
2 优化的方法有很多，可能这个可以作为最后的提高健壮性的措施。