正规函数

标签（空格分隔）：正规函数吴恩达

正规函数是除了梯度下降之外，另一种求解最优值的方法。
本篇博客首先介绍正规函数方法，然后将其与梯度下降做一对比。
对于(m)个训练数据((x^{(1)},y^{(1)}),cdots,(x^{(m)},y^{(m)})), (n)个特征，可以抽取出如下形式：

[X=egin{bmatrix} x^{(1)}_0 & x^{(1)}_1 cdots & x^{(1)}_n \\ x^{(2)}_0 & x^{(2)}_1 cdots & x^{(2)}_n \\ vdots & vdots & vdots \\ x^{(m)}_0 & x^{(m)}_1 cdots & x^{(m)}_n end{bmatrix}]

[y = egin{bmatrix} y^{(1)} \\ vdots \\ y^{(m)} end{bmatrix} ]

则求解过程等价于解方程：

[X heta = y ]

这个方程的解为：

[ heta = (X^TX)^{-1}X^Ty ]

此处只给出结论，并不做证明（事实上是因为我不会。。），但有几点需要说明：

((X^TX)^{-1})可能不存在，但在实际的机器学习中这种情况很少见，如果出现，通常要么是有冗余属性（例如，房子面积出现了两次，一次以平方米为单位，一次以平方英尺为单位），要么是训练集数据规模远小于属性个数。
一些数值方法能给出逆矩阵的近似解（或者广义逆）。

正规矩阵跟梯度下降对比如下：

梯度下降	正规函数
需要选则参数 $alpha $	不需要选则参数
需要多次迭代	不需要多次迭代
当数据规模较大时，依然有效	当数据规模较大时，运算量太大