MXNET框架基础7BN

MXNET框架基础7-BN

1、ailab 代码中wobn和wbn模型的区别

wbn with BN 层模型的训练        前800轮wbn训练

wobn without BN的模型训练      800轮后wobn训练

正如图

 以

LeftEyePitchMAE为例

局部放大图

 这时出现的大抖动 就是wbn训练后 抽调BN层,导致wobn开始训练时出现抖动,后逐渐平稳。

2 为什么用WOBN

3 BN 原理

附: 训练gaze模型 gazeloss变化

ailab loss

lingshu loss

 比较

放大图      说明ailab的loss 略优于 零束的loss

 ailab使用batch-size 为4096  4个GPU 每个GPU1024个

lingshu使用batch-size为256

接下来,gaze error 比较以LeftEyePitchMAE 为例

 放大图   说明gaze error  LeftEyePitchMAE最后相差不大。

提问1:总数量4万,batchsize为4096,分在四个GPU计算。与batchsize为256,一个GPU,哪个更快收敛,哪个训练的模型更优(更容易找到最优解)

提问2:为什么权重可以在4个GPU同时训练。

   已解决

  为什么数据并行的batchsize相当于增大了

  https://www.zhihu.com/question/323307595

提问3:证明过拟合?   在验证集上输出的内容将loss输出,或在训练集上将 指标输出。

-------------------------

epoch 851 ailab 的权重在1102测试集表出现为8度  这个就是奇怪?

于是对比了851的gaze_loss 和error 

gaze_loss 比851低的零束数据

 只有epoch 800。

error 比851低的有一些 892,829等  但是这些model在1102测试集表现都是pitchMAE=3.不能复现出 ailab epoch=851时 pitchMAE=8.

目前看是 因为训练的参数配置不一致。

重新配置一样的参数,四个卡,一样batchsize。比较

loss  超过851的loss的权重

 error 超过851的权重 为1172

 

原文地址:https://www.cnblogs.com/lx63blog/p/15763636.html