MIT线性代数课程总结与理解-第二部分

#MIT线性代数课程总结与理解-第二部分 ##概述本部分主要介绍了投影和特征值，以及二者的应用。 ##投影先看二维简单例子：
设$a,b$向量为二维空间上的两个非零向量，$xb$为$a$在$b$上的投影，则误差$e=a-xb$，又$b^{Te=0$，则$b}T(a-xb)=0$，即$b^Ta-xbTb=0$，$b^Ta$与$bTb$均为常数，故**(x=frac {b^Ta} {b^Tb})**
对投影矩阵$P$，有$Pa=bx$，得**(P=frac {bb^T} {b^Tb})**

其实，这是$a$向量在以$b$为基所构成的空间上的投影，那么$a$在以基为${b_1,b_2,...,b_n}$的空间上的投影又如何呢？
首先明确一点，投影是啥，个人认为，对于$a$向量，若在空间A中的向量$b$，有$e=a-b$，满足e正交于该空间，则$b$为a在该空间上的投影，且|e|最小。
证明：设c是A空间中不等于$b$的任意向量，(e=a-b,e_2=a-c，m=b-c,则e_2=e+m)，其中m在空间A中，故$e·m=0$，所以$|e_2|^{2}=|e|{2}+|m|^{{2}，故|e_2|>|e|$，也就是说，$a$与$b$的欧氏距离是$a$与空间$A$中所有向量欧氏距离中最短的。

继续解决上面问题，设$A={b_1,b_2,...,b_n}$，则A列空间中向量为$Ax$，令$e=Ax-a$，若$Ax$为投影向量，则$A}Te=0$，即$A^{T(Ax-a)=0$，故$A}TAx=A^{Ta$。

这里停一下，有个结论，若A列向量组线性无关，则$A}TA$是可逆的，因为，对于$A^{TAx=0$可得$(Ax)^{T(Ax)=0$,所以$Ax=0$,故$x$只有零解，所以$A}TA$是可逆的。

所以**(x=(A^TA)^{-1}A^Ta)，投影矩阵(P=A(A^TA)^{-1}A^T)。
##最小二乘法
最小二乘法是投影的一个典型应用，背景是这样的：

$Ax=b,A$矩阵有$m>>n$，且列向量组线性无关，一般而言，$x$是无解的，我们需要找一个$x'$，使得$Ax'=b’(，有)|b-b'|$最小，其实也就是$b，b'$的距离最近，怎么做呢？

显然，$b'$是$b$在$Ax$上的投影，故(b'=PA)，(x=(A^TA)^{-1}A^Tb)**

用这种方法来处理拟合问题，比如用$ax}2+bx+c=y$来拟合${(x_1,y_1),(x_2,y_2)...(x_n,y_n)}$，将数据带入方程中，有$X[a b c]^{T=y$,仍表示成$Ax=b$,则$A$列空间任一向量表示一组$[a b c]$所确定的$b'$向量，当$b'$为$b$在$Ax$上投影时，则有$|e|$最小，$e$的每一个分量，表示在该维度上$b'$与$b$的差值。
##正交矩阵
正交性是一个很重要的性质，首先说一下标准正交基，所谓标准正交基就是指一个基，其满足基中每一个向量模均为1，且两两正交。设其构成矩阵$A$，则$A}TA=I$。若A为方阵，则此时A为正交矩阵，我们用Q表示。正交矩阵满足$Q^{TQ=I$，所以$Q}{-1}=Q^T$。

##特征值与特征向量对于特征值和特征向量，我们先给定义：若对于方阵$A$存在不为零向量的$x$,使得$Ax=lambda x$，则称$x$为特征向量，$lambda$为特征值。先看一下求解特征值的方法：((A-lambda I)x=0)，$x$有非零解，即是$(A-lambda I)(是奇异的，故)|A-lambda I|(=0，由此解出)lambda$值和$x$值。方程解有多种情况，特征值可能是实数、复数，也有可能是重根，线性无关的特征向量数量可能与矩阵阶数相同，也可能比其少。对于大部分而言，线性无关的特征向量数是与矩阵阶数相同的，对于其他的，称为退化矩阵，这里略过。 ##对角化在有了特征值的概念之后，我们可以利用特征值做这样一个事情: $A$为n阶矩阵，将$A$的n个线性无关特征向量构成矩阵$S$，则$AS=SLambda$,其中$Lambda$为特征向量所对应的特征值所构成的对角阵。 简单验证可以很容易发现该式是成立的，由于$S$为方阵，且列向量是线性无关的，所以$S$可逆。于是这个等式，可以有两种解读方式：

(Lambda =S^{-1}AS)：可以看成这是对$A$的一种操作，能使其成为对角矩阵，故该过程称为矩阵的对角化。
(A=SLambda S^{-1})：可以看成这是对$A$的一种分解，使其能让这就意味着我们可以求解矩阵的幂：(A^{n}=SLambda ^{n}S^{-1})。

##对角化的应用 PCA其实就是对角化的一个应用，简要记下：特征向量矩阵$Y$为$m*n$，一般而言$n>>m$，先将$Y$的每个维度上的值减去该维度上的均值，得到$A$，则协方差矩阵$R=AA^$，协方差矩阵上的对角线上是每维的方差，其余部分为所在两维上的数据的协方差。我们希望找到一个正交基Q，使得$Y$中的列向量变换到该基上时，得到的新特征向量矩阵的协方差矩阵是对角矩阵，为啥呢？因为协方差反映出了变量之间的相关性，我们希望变换到基Q上时，各维度间相互独立，这就好比，在自然基上的一条直线（与x,y不重合），那么直线上的点的两个维度是相关非常密切的，而当我们选择的新基的一个维度就是该直线的方向，那么第二个维度就完全为0，也就与前一个维度相互独立了。继续推导，基变换一下，在Q上的坐标为 (M=Q^TA), (R_2=MM^T), (R_2=Q^TAA^TQ=Q^TRQ) 所以$Q^T$其实就是R的特征向量构成的正交矩阵。

##矩阵幂的应用典型应用之解差分方程: 已知$u_0$，由$u_{k+1}=Au_$得$u_n=A^{nu_0$，其中$A=SLambda S}{-1}$，故$A=SLambda ^nS{-1}$，又$u_0=Sc$，所以$u_n=S(Lambda ^nc)=lambda_1 ^nc_1x_1+lambda_2 ^nc_2x_2+...$ 其中$x_1,lambda_1$为特征向量和特征值。差分方程是一工具性应用，当解决具体问题时，可构造差分方程，然后求解。

MIT线性代数课程 总结与理解-第二部分

MIT线性代数课程总结与理解-第二部分