batch normalization / layer normalization

BN:

  1.在神经网络中,防止梯度爆炸梯度消失,使用了batch normalization

  2. 该方法是对一个batch的vectors的每一维度,比如100个输入向量的第1维,进行方差,均值的计算,然后 x = x-均值/方差 的操作

LN:

  1. 在Tranformer中,对每一次的multi-head的输出向量,对每个向量计算其方差,均值,然后标准化

原文地址:https://www.cnblogs.com/ChevisZhang/p/13751270.html