机器学习中的数学——特征向量、矩阵对角化

矩阵和线性变换
特征值与特征向量
特征值求法
奇异方阵
相似矩阵
对角化

线性代数
向量,向量空间;矩阵, 线性变换;
特征值, 特征向量;奇异值, 奇异值分解
概率论与统计
随机事件;条件概率, 全概率,贝叶斯概率;
统计量, 常见分布; 基本原理
最优化理论
极限, 导数;线性逼近, 泰勒展开;
凸函数, jensen不等式;最小二乘法; 梯度, 梯度下降

矩阵和线性变换

方阵能描述任意线性变换, 线性变换保留了直线和平行线, 但原点没用移动.

[ pmb v = egin{bmatrix} x\ y\ z\ end{bmatrix} =egin{bmatrix} x\ 0\ 0\ end{bmatrix}+egin{bmatrix} 0\ y\ 0\ end{bmatrix}+egin{bmatrix} 0\ 0\ z\ end{bmatrix}]

[ pmb v =egin{bmatrix} x\ y\ z\ end{bmatrix}=x imes egin{bmatrix} 1\ 0\ 0\ end{bmatrix}+y imes egin{bmatrix} 0\ 1\ 0\ end{bmatrix}+z imes egin{bmatrix} 0\ 0\ 1\ end{bmatrix} ]

向量的每一个坐标都表明了平行于相应坐标轴的有向位移.
如果把矩阵的行解释为坐标系的基向量，那么乘以该矩阵就相当于执行了一次坐标转换，如果(aM=b)，我们就可以说，(M将a)转换到(b)。
从这点看，术语“转换”和“乘法”是等价的。
坦率地说，矩阵并不神秘，它只是用一种紧凑的方式来表达坐标转换所需的数学运算。进一步，用线性代数操作矩阵，是一种进行简单转换或导出更复杂转换的简便方法.
我们可以不依赖于坐标系而沿任意方向进行缩放，设(vec{n})为平行于缩放方向的单位向量，k为缩放因子,缩放沿穿过原点并平行于(vec{n})的直线（2D中）或平面（3D中）进行。

(vec{v} = vec{v}_{||}+vec{v}_{⊥})
(vec{v}_{||}=(vec{v}cdot vec{n})vec{n})
(vec{v}_{⊥}=vec{v}-vec{v}_{||}=vec{v}-(vec{v}cdot vec{n})vec{n})

(vec{v}^{'}=vec{v}_{||}^{'}+vec{v}_{⊥}^{'})
(vec{v}_{⊥}^{'}=vec{v}_{⊥}=vec{v}-(vec{v}cdotvec{n})vec{n})
(vec{v}_{||}^{'}=kcdotvec{v}_{||}=kcdot(vec{v}cdotvec{n})vec{n})
(vec{v}^{'}=vec{v}_{⊥}=vec{v}-(vec{v}cdotvec{n})vec{n}+kcdot(vec{v}cdotvec{n})vec{n}=vec{v}+(k-1)(vec{n}cdotvec{v})vec{n})
（待补充）

特征值与特征向量

定义:$A (n阶方阵, 对于)lambda(, 存在非零向量)vec v(, 使得)pmb Avec v=lambdavec v(,则:)lambda$就叫特征值, (vec v)就叫对应(lambda)的特征向量
特征值可以为0, 特征向量不能为0
(pmb Avec x =lambda vec x ~~~~ x ot= 0)
↓
((pmb A-lambda pmb E)vec x = 0)
↓
(|pmb A-lambdapmb E|=0)
其中(lambda)和(x)为我们需要求得值

(pmb Ax)代表向量的线性变换,(lambda x)代表向量拉伸变换
特征向量的含义就在于使得哪些向量只发生拉伸变换
而特征值用于衡量相应的拉伸系数
特征值就是运动的速度, 特征向量就是运动的方向

注:只有方阵才能计算特征值和特征向量

例:

[pmb A=egin{bmatrix} 4&0\ 3&-5\ end{bmatrix}]

求特征值:
(|pmb A-lambda pmb E|)
( =egin{bmatrix} 4-lambda&0\ 3&-5-lambda end{bmatrix} )
(=(4-lambda)(-5-lambda)=0)
得:(lambda_{1}=-5, lambda_{2}=4)
针对特征值(lambda_{1}=-5), 计算特征向量 (pmb X_{1})
(egin{bmatrix} 9&0\ 3&0\ end{bmatrix}cdot vec x=0~~~pmb X_{1}=egin{bmatrix}0\1\end{bmatrix})
针对特征值(lambda_{2}=4), 计算特征向量(pmb X_{2})
(egin{bmatrix}0&0\3&-9\end{bmatrix}cdotvec x=0~~~pmb X_{2}=egin{bmatrix}3\1\end{bmatrix})

例:

[pmb A=egin{bmatrix}4&-2\3&-1\end{bmatrix} ]

求特征值:
(|pmb A-lambda vec x|=egin{bmatrix}4-lambda&-2\3&-1-lambdaend{bmatrix}=(4-lambda)(-1-lambda)+6=0)
得:(lambda_{1}=1, lambda_{2}=2)
针对特征值(lambda_{1}=1), 计算特征向量(pmb X_{1})
(egin{bmatrix}3&-2\3&-2end{bmatrix}cdotvec x=0~~~pmb X_{1}=egin{bmatrix}2\3\end{bmatrix})
针对特征值(lambda_{2}=2), 计算特征向量(pmb X_{2})
(egin{bmatrix}2&-2\3&-3\end{bmatrix}cdot vec x=0~~~pmb X_{2}=egin{bmatrix}1\1\end{bmatrix})
另一种计算方式,首先将(vec x)表示成特征向量(egin{bmatrix}1\1\end{bmatrix})和(egin{bmatrix}2\3\end{bmatrix})的线性组合,即:

[vec x=egin{bmatrix}1\2\end{bmatrix}=-1cdotegin{bmatrix}1\1\end{bmatrix}+1cdotegin{bmatrix}2\3\end{bmatrix} ]

然后,将特征值与对应系数(特征值)相乘, 得到:

[vec y = -1cdot2cdotegin{bmatrix}1\1\end{bmatrix}+1cdot1cdotegin{bmatrix}2\3\end{bmatrix}=egin{bmatrix}0\1\end{bmatrix} ]

这与(vec y=pmb Avec x=egin{bmatrix}0\1\end{bmatrix})相同,表示(pmb A)对向量(vec x)的线性变换相当于(pmb A)的特征值和特征向量与(vec x)的线性组合, 可以说在线性变换时, 矩阵的特征值和特征向量可以代表矩阵.
矩阵所充当的映射, 实际上就是对特征向量的缩放, 每个特征向量的缩放程度就是特征值.
将(vec x)向量表示特征向量的线性组合(相当于以特征向量为基),得到相应的特征向量的权重.然后,每个权重与特征值相乘, 就是这个映射最本质的缩放操作.

特征值求法

奇异方阵

相似矩阵

定义:若(pmb A)与(pmb B)均为n阶方阵, 若存在一个可逆矩阵(pmb P), 使(pmb P^{-1}cdot A cdot pmb P=B), 则称(pmb A)与(pmb B)相似

对角化

定义及证明
定义:假设一个(n imes n)阶的方阵(pmb A),有 (n)个线性无关的特征向量(v_1, v_2,cdots, v_n), 所有的特征向量组成特征向量矩阵(pmb S), 则有(pmb S^{-1}pmb Apmb S=Lambda), 其中(Lambda)为由(pmb S)对应的特征值组成的对角矩阵, 即:

[pmb S^{-1}pmb Apmb S=Lambda=egin{bmatrix} lambda_1\ &ddots\ &&lambda_n end{bmatrix}]

证明:
(pmb Apmb S=pmb Aegin{bmatrix}v_1&v_2&v_3&cdots&v_nend{bmatrix}=egin{bmatrix}lambda_1v_1&lambda_2v_2&lambda_3v_3&cdots&lambda_nv_nend{bmatrix}=pmb Segin{bmatrix}lambda_1\&ddots\&&lambda_nend{bmatrix}=pmb Spmb{Lambda})

(pmb S^{-1}pmb Apmb S=pmb S^{-1}pmb Spmb{Lambda}=pmb{Lambda})

(pmb A=pmb Spmb {Lambda}pmb S^{-1})(矩阵对角化)

例:

[pmb A=egin{bmatrix} -3&2\-10&6\end{bmatrix}]

对角化(pmb A).

解:
(pmb A-lambdapmb E=egin{bmatrix}-3-lambda&2\-10&6-lambdaend{bmatrix})

((-3-lambda)(6-lambda)+20=0)

(lambda_1=1, ~~~lambda_2=2)

对应(lambda_1)的特征向量(v_1):

(egin{bmatrix}-4&2\-10&5end{bmatrix}cdot v_1=0, ~~~v_1=egin{bmatrix}1\2end{bmatrix})

对应(lambda_2)的特征向量(v_2):

(egin{bmatrix}-5&2\-10&4end{bmatrix}cdot v_2=0, ~~~v_2=egin{bmatrix}2\5end{bmatrix})

(pmb P=egin{bmatrix}vec v_1&vec v_2end{bmatrix}=egin{bmatrix}1&2\2&5\end{bmatrix})

(pmb P^{-1}=egin{bmatrix}5&-2\-3&1end{bmatrix})(二阶时, 主对角线对换, 负对角线变号/det( P ))