weight_decay(权重衰减)

权重衰减等价于L2范数正则化。正则化通过为模型损失函数添加惩罚项使得学习的模型参数值较小，是常用的过拟合的常用手段
L2范数正则化是在模型原损失函数基础上添加L2范数惩罚项，其中L2范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积。比如，对于线性回归损失函数：

$iota(w_1, w_2, b) = frac{1}{2}(x_1^{(i)}w_1+x_2^{(i)}w_2+b-y^{(i)})^2$
其中$w_1, w_2$为权重参数，样本数为n, 将权重参数用向量$w = [w_1, w_2]$表示，带有L2范数惩罚项的新的损失函数为

$iota(w_1, w_2, b) + frac{lambda}{2n}Vert w Vert ^2$

上式中L2范数的$Vert w Vert ^2$展开后得到 $w_1^2+w_2^2$

$overline r_a + frac{sum_{bin N}sim(a, b) *(r_{a, b} - overline r_b)}{sum_{bin N} sim(a, b)}$