梯度消失与梯度爆炸问题 https://blog.csdn.net/qq_25737169/article/details/78847691 很有启发意义的一篇文章,文中提到的残差网络,capsule,BatchNorm可以进一步理解。