正则化的多层感知机

学习的内容

  • 1.理解L2范数正则化原理
  • 2.了解正则化的多层感知机结构

我的理解

  • 以线性回归中的梯度下降法为例。假设要求的参数为θ,LOSS是我们的损失函数,那么线性回归的代价函数如下:


J (θ)=LOSS

其中loss是损失函数是以θ求导的导数函数,那么在梯度下降法中,最终用于迭代计算参数 θ 的迭代式为:


θj :=θj − loss

其中 α 是学习率,m是训练数据数量。上式是没有添加L2正则化项的迭代公式,如果在原始代价函数之后添加L2正则化,则迭代公式会变成下面的样子:


θj :=θj (1−{αλ/m} )−loss

其中λ 就是正则化参数。从上式可以看到,与未添加L2正则化的迭代公式相比,每一次迭代, θj 都要先乘以一个小于1的因子,从而使得 θ j 不断减小,因此总得来看, θ是不断减小的。在神经网络中,参数越小抗扰动能力越强,可以极大程度地降低噪声数据的影响,所以能防止过拟合的情况出现。

  • 正则化的多层感知机结构如下:
    Minion
    其中各个节点的解析如下:
    x表示输入;
    o表示当前参数模型在正则化前的输出;
    y表示当前输入对应的实际输出数据;
    z表示输入数据与第一个参数的运算结果;
    h表示神经网络隐藏层;
    W (1)和W(2)都是所要求的神经网络参数;
    s表示参数的L2范数正则化;
    L表示正则化前的损失运算值;
    J表示加入正则后的损失运算值;
    此结构图清晰地展示了正则化的多层感知机训练流程。

意义

理解了正则化解决过拟合的原理,并且从正则化多层感知机结构图中更加定性地了解到神经网络的训练过程。

参考

动手学深度学习-正向传播与反向传播
机器学习中正则化项L1和L2的直观理解

感谢您的阅读!
如果看完后有任何疑问,欢迎拍砖。
欢迎转载,转载请注明出处:http://www.yangrunwei.com/a/89.html
邮箱:glowrypauky@gmail.com
QQ: 892413924

原文地址:https://www.cnblogs.com/duowenjia/p/14817684.html