讨论最小二乘法的几何解释

  

1 预备知识

  假定,我们对最小二乘法的代数解释已经确定无疑。为什么需要几何解释?答案是首先从数学概念上讲,存在这样的知识体系,需要把他们挖掘出来。其次,(出于实用目的)为了数值计算的需要。

  要对最小二乘法做几何解释,首先要引入一个概念,就是子空间的“张成”:

  1)有N维线性空间ΩN,从ΩN中抽取k(k<N)个线性无关向量s1,s2,...,sm,则对于任意线性组合a1s1+a2s2,...+aksk构成ΩN的子空间,称x1,x2,...,在ΩN张成的子空间;

      举例解释:比如在三维空间中,任意两个非退化并线性无关向量可以张成一个平面,凡是能平铺在平面上的向量,均可以用这两个向量线性表出;

  第二个要引入一个概念,就是所谓“最佳逼近元”:

     2)对于凸集合M外一个点P,P到集合M的距离,就是P到“P在集合M的投影点S”的距离;其中S叫做P对M的最佳逼近元;

2 最小二乘法的一般解释 

最小二乘法恰好是一个寻早最佳逼近元的过程;下面以图解释这个寻优过程:

                

[问题] 如图,对于给定数据集合Ω={Di} i:={1,2,3,4},试给出它们的最佳直线模拟;

首先假定目标的直线方程为:y = Ax + B;A和B是待定系数;有了这个直线的表达式,就可以将误差的表达式写出:

      E = ∑i( yi  - y )2 , i:={1,2,3,4},   [注解] yi是原始数据Di点的y坐标输入值,比如y2=0.98,y3 = 1.76等;

 等价写法:      E =  ∑i( yi  - Axi - B )2     , i 属于 {1,2,3,4,5}

 ∂E/∂A = 2×∑i(yi  - Axi - B)×(- xi )= 0                (式1)

 ∂E/∂B = 2×∑i(yi  - Axi - B)×(- 1 )= 0                (式2)

这里通过(式1)和(式2)联立方程,消元法写出A和B的表达式,解出A和B,毫无几何意义可谈!

然而,本文要说的真正中心,从这里刚刚开始;让我们站在线性空间的立场,从原始输入数据开始,一步一步展开讨论;

3 最小二乘法的几何解释

原始数据的矩阵写法:(注意,一切运算结果,都出自这些原始数据,没有附加任何条件)

注意,原始数据是5个点,则XY就是5×1维,如果有N个原始数,XY就是N×1维向量,这一点须看清楚!因而下面讨论请把思维切换到N=5维的线性空间中;

对于y = Ax + B这个方程,将原始数据W的代入后:

显然,这是一组不相容方程组,这类方程看似无解,没有多大意义,其实不然!我们可以找到最佳的一组逼近系数(A,B)作为最后解;上述方程在五维空间中的表达如下:

在Y:=AX+BI中,“:=”这里表示“逼近”的意思;考察X和I两个向量: 

     X和I张成一个平面,这里起名为Sp平面;  注意:任何两个向量,只要超过1维,并且这两个向量不线性相关,就能张成一个平面(超平面)。

重复一下[最佳逼近投影定理] 如果有集合Ω和该集合外一点V,V到Ω的距离,就是V在Ω的投影V’到V的距离即:d(Ω,V) = d(V’,V);

所以,这里Y是Sp平面外的一点Y’是Y在Sp的投影,Y到Sp的距离表示为D,如图:

在图中,Y’是具有桥梁作用的关键向量,首先:Y’在Sp平面内,因此它可以用X,I线性表示;其二:Y’是Y在Sp的投影,因此,D = Y-Y’垂直于X、I;

(Y-Y’)T . I = 0  和 (Y-Y’)T . X = 0 

令W = [X,I],(Y-Y’)T . W = O ,  其中O =  [0,0] 表示零向量

C=[c1,c2]T,   以及Y' = Xc1 + Ic2,有:

(Y- Xc1 + Ic2)T . W = O , 有(Y- WC)T . W = O,

=>WT(Y-WC) = 0;

=>WTY-WTWC  = 0;

=>WTY = WTWC ;

=> C = (WTW)-1WTY

到此,将C求出,等价写法C=[A,B],表明方程y = Ax + B中的系数A和B被矩阵解出。

4 结论

    通过将二维平面上的二维回归问题,转化到N维线性空间中的不相容方程组的形式,在通过最佳逼近元原理将逼近系数通过向量变换解出,在数值计算中,有很大实际意义。

原文地址:https://www.cnblogs.com/gongdiwudu/p/6098000.html