MIT线性代数课程 总结与理解-第二部分

#MIT线性代数课程总结与理解-第二部分 ##概述 本部分主要介绍了投影和特征值,以及二者的应用。 ##投影 先看二维简单例子:
设$a,b$向量为二维空间上的两个非零向量,$xb$为$a$在$b$上的投影,则误差$e=a-xb$,又$bTe=0$,则$bT(a-xb)=0$,即$bTa-xbTb=0$,$bTa$与$bTb$均为常数,故**(x=frac {b^Ta} {b^Tb})**
对投影矩阵$P$,有$Pa=bx$,得**(P=frac {bb^T} {b^Tb})**

其实,这是$a$向量在以$b$为基所构成的空间上的投影,那么$a$在以基为${b_1,b_2,...,b_n}$的空间上的投影又如何呢?
首先明确一点,投影是啥,个人认为,对于$a$向量,若在空间A中的向量$b$,有$e=a-b$,满足e正交于该空间,则$b$为a在该空间上的投影,且|e|最小。
证明:设c是A空间中不等于$b$的任意向量,(e=a-b,e_2=a-c,m=b-c,则e_2=e+m),其中m在空间A中,故$e·m=0$,所以$|e_2|{2}=|e|{2}+|m|{2},故|e_2|>|e|$,也就是说,$a$与$b$的欧氏距离是$a$与空间$A$中所有向量欧氏距离中最短的。
继续解决上面问题,设$A={b_1,b_2,...,b_n}$,则A列空间中向量为$Ax$,令$e=Ax-a$,若$Ax$为投影向量,则$A
Te=0$,即$AT(Ax-a)=0$,故$ATAx=ATa$。
这里停一下,有个结论,若A列向量组线性无关,则$A
TA$是可逆的,因为,对于$ATAx=0$可得$(Ax)T(Ax)=0$,所以$Ax=0$,故$x$只有零解,所以$ATA$是可逆的。
所以**(x=(A^TA)^{-1}A^Ta),投影矩阵(P=A(A^TA)^{-1}A^T)。 ##最小二乘法 最小二乘法是投影的一个典型应用,背景是这样的:
$Ax=b,A$矩阵有$m>>n$,且列向量组线性无关,一般而言,$x$是无解的,我们需要找一个$x'$,使得$Ax'=b’(,有)|b-b'|$最小,其实也就是$b,b'$的距离最近,怎么做呢?
显然,$b'$是$b$在$Ax$上的投影,故
(b'=PA)(x=(A^TA)^{-1}A^Tb)**
用这种方法来处理拟合问题,比如用$ax
2+bx+c=y$来拟合${(x_1,y_1),(x_2,y_2)...(x_n,y_n)}$,将数据带入方程中,有$X[a b c]T=y$,仍表示成$Ax=b$,则$A$列空间任一向量表示一组$[a b c]$所确定的$b'$向量,当$b'$为$b$在$Ax$上投影时,则有$|e|$最小,$e$的每一个分量,表示在该维度上$b'$与$b$的差值。 ##正交矩阵 正交性是一个很重要的性质,首先说一下标准正交基,所谓标准正交基就是指一个基,其满足基中每一个向量模均为1,且两两正交。设其构成矩阵$A$,则$ATA=I$。若A为方阵,则此时A为正交矩阵,我们用Q表示。正交矩阵满足$QTQ=I$,所以$Q{-1}=Q^T$。

##特征值与特征向量 对于特征值和特征向量,我们先给定义:若对于方阵$A$存在不为零向量的$x$,使得$Ax=lambda x$,则称$x$为特征向量,$lambda$为特征值。 先看一下求解特征值的方法:((A-lambda I)x=0),$x$有非零解,即是$(A-lambda I)(是奇异的,故)|A-lambda I|(=0,由此解出)lambda$值和$x$值。 方程解有多种情况,特征值可能是实数、复数,也有可能是重根,线性无关的特征向量数量可能与矩阵阶数相同,也可能比其少。对于大部分而言,线性无关的特征向量数是与矩阵阶数相同的,对于其他的,称为退化矩阵,这里略过。 ##对角化 在有了特征值的概念之后,我们可以利用特征值做这样一个事情: $A$为n阶矩阵,将$A$的n个线性无关特征向量构成矩阵$S$,则$AS=SLambda$,其中$Lambda$为特征向量所对应的特征值所构成的对角阵。 简单验证可以很容易发现该式是成立的,由于$S$为方阵,且列向量是线性无关的,所以$S$可逆。于是这个等式,可以有两种解读方式:

  1. (Lambda =S^{-1}AS):可以看成这是对$A$的一种操作,能使其成为对角矩阵,故该过程称为矩阵的对角化。

  2. (A=SLambda S^{-1}):可以看成这是对$A$的一种分解,使其能让这就意味着我们可以求解矩阵的幂:(A^{n}=SLambda ^{n}S^{-1})

##对角化的应用 PCA其实就是对角化的一个应用,简要记下: 特征向量矩阵$Y$为$m*n$,一般而言$n>>m$,先将$Y$的每个维度上的值减去该维度上的均值,得到$A$,则协方差矩阵$R=AA^$,协方差矩阵上的对角线上是每维的方差,其余部分为所在两维上的数据的协方差。 我们希望找到一个正交基Q,使得$Y$中的列向量变换到该基上时,得到的新特征向量矩阵的协方差矩阵是对角矩阵,为啥呢? 因为协方差反映出了变量之间的相关性,我们希望变换到基Q上时,各维度间相互独立,这就好比,在自然基上的一条直线(与x,y不重合),那么直线上的点的两个维度是相关非常密切的,而当我们选择的新基的一个维度就是该直线的方向,那么第二个维度就完全为0,也就与前一个维度相互独立了。 继续推导,基变换一下,在Q上的坐标为 (M=Q^TA), (R_2=MM^T), (R_2=Q^TAA^TQ=Q^TRQ) 所以$Q^T$其实就是R的特征向量构成的正交矩阵。

##矩阵幂的应用 典型应用之解差分方程: 已知$u_0$,由$u_{k+1}=Au_$得$u_n=Anu_0$,其中$A=SLambda S{-1}$, 故$A=SLambda nS{-1}$,又$u_0=Sc$,所以$u_n=S(Lambda ^nc)=lambda_1 ^nc_1x_1+lambda_2 ^nc_2x_2+...$ 其中$x_1,lambda_1$为特征向量和特征值。 差分方程是一工具性应用,当解决具体问题时,可构造差分方程,然后求解。

原文地址:https://www.cnblogs.com/Rainlee007/p/6505815.html