正规函数

正规函数

标签(空格分隔): 正规函数 吴恩达


正规函数是除了梯度下降之外,另一种求解最优值的方法。
本篇博客首先介绍正规函数方法,然后将其与梯度下降做一对比。
对于(m)个训练数据((x^{(1)},y^{(1)}),cdots,(x^{(m)},y^{(m)})), (n)个特征,可以抽取出如下形式:

[X=egin{bmatrix} x^{(1)}_0 & x^{(1)}_1 cdots & x^{(1)}_n \\ x^{(2)}_0 & x^{(2)}_1 cdots & x^{(2)}_n \\ vdots & vdots & vdots \\ x^{(m)}_0 & x^{(m)}_1 cdots & x^{(m)}_n end{bmatrix}]

[y = egin{bmatrix} y^{(1)} \\ vdots \\ y^{(m)} end{bmatrix} ]

则求解过程等价于解方程:

[X heta = y ]

这个方程的解为:

[ heta = (X^TX)^{-1}X^Ty ]

此处只给出结论,并不做证明(事实上是因为我不会。。),但有几点需要说明:

  • ((X^TX)^{-1})可能不存在,但在实际的机器学习中这种情况很少见,如果出现,通常要么是有冗余属性(例如,房子面积出现了两次,一次以平方米为单位,一次以平方英尺为单位),要么是训练集数据规模远小于属性个数。
  • 一些数值方法能给出逆矩阵的近似解(或者广义逆)。

正规矩阵跟梯度下降对比如下:

梯度下降 正规函数
需要选则参数 $alpha $ 不需要选则参数
需要多次迭代 不需要多次迭代
当数据规模较大时,依然有效 当数据规模较大时,运算量太大
原文地址:https://www.cnblogs.com/beisong/p/5701171.html