为什么深度学习预处理图片需要减去均值？

消除图像共性:https://blog.csdn.net/qq_19329785/article/details/84569604

基本在deep learning中只要你是使用gradient descent来训练模型的话都要在数据预处理步骤进行数据归一化。为什么要采用这种预处理方式呢？首先如果输入层很大，在back propagation时传递到输入层的梯度就会很大，如下式：梯度会乘上输入层x1我们知道如果梯度非常大，学习率就必须非常小（否则会跳过local minimum），因此，学习率（学习率初始值）的选择需要参考输入层的数值，不如直接将数据归一化，这样学习率就不必再根据数据范围作调整。而且受和的影响，各个梯度的数量级不相同，因此，它们需要的学习率数量级也就不相同。对适合的学习率，可能相对于来说会太小，如果仍使用适合的学习率，会导致在方向上走的非常慢，会消耗非常多的时间，而使用适合的学习率，对来说又太大，搜索不到适合的解

参考：https://www.zhihu.com/question/49096923
https://blog.csdn.net/qq_30979017/article/details/87967554