【线性代数】 08

1. 内积空间

1.1 欧几里得空间

  线性空间在添加了双线性的运算后,向量之间建立了简单的正交、非正交的关系。数域是最常见的域,它天生就带着度量的使命,所以在数域的线性空间中,我们不能回避向量间的度量。所谓度量就是用一个数表示向量之间的关系,并衍生出长度、距离和角度的概念,而在度量上最“完备”的数域当然是实数域,故这里的长度先限定在实数域上讨论。但其实本篇的推导和结论其实对数域的要求并不高,如果放在更弱一点的代数数域中(至少包含(sqrt{2})),是同样可以成立的。

  双线性函数正好是用数量来表示向量的关系,在这里我们还需要对其加一些限制条件。首先我们希望这个度量与向量的顺序无关,所以要求双线性函数是对称的。其次我们准备用二次型表示向量长度,所以还要求它是正定的。为此我们定义实数域上正定的对称双线性函数(f(alpha,eta))为向量的内积,简记为((alpha,eta))或(alphacdoteta),易知内积的度量矩阵为正定实对称矩阵。

  定义了内积的实线性空间叫实内积空间,或者叫欧几里得空间(Euclid),有了内积下面就继续定义长度和距离(式(1))。由于二次型是二次函数,所以定义向量的长度时,需要对其开平方,即(alpha)的长度为(sqrt{alphacdotalpha}),简记为(left|alpha ight|)。长度为(1)的向量称为单位向量,对任意非零向量(alpha)显然(dfrac{alpha}{left|alpha ight|})是单位向量。而距离自然定义为向量差的长度,记作(d(alpha,eta))。你可能注意到,这样定义的内积其实与解析几何中介绍的是有差别的,我们还需要验证这些定义是否符合几何学中的基本关系。

[left|alpha ight|=sqrt{alphacdotalpha},quad d(alpha,eta)=left|alpha-eta ight| ag{1}]

  内积作为向量间关系,除了长度之外应该还有角度的性质,比如前面的正交性。考察等式(left|talpha-eta ight|geqslant 0)并将其展开,得到不等式(left|alpha ight|^2t^2-2(alphacdoteta)t+left|eta ight|^2geqslant 0)。该式成立的充要条件是判别式非负,等号成立的条件是(alpha,eta)线性相关。整理判别式即有Schwarz-Cauchy不等式(2),有了这个不等式我们就能方便地定义向量的夹角了(式(3))。

[|alphacdoteta|leqslant left|alpha ight|cdotleft|eta ight| ag{2}]

[ heta=arccos{frac{alphacdoteta}{left|alpha ight|cdotleft|eta ight|}},quad (0leqslant hetaleqslantpi) ag{3}]

  等式(2)两边同时加上(left|alpha ight|^2+left|eta ight|^2),整理后可以得到三角不等式(4),它还有等价形式(5),这个式子保证了距离的概念是合理的。 当(alpha,eta)正交时,(4)式两边取平方即可得勾股定理(6),并且易证等式(6)是(alpha,eta)正交的充要条件。式(6)还可以推广到两两正交的有限向量组中,请自行论证。

[left|:left|alpha ight|-left|eta ight|: ight|leqslantleft|alpha+eta ight|leqslantleft|alpha ight|+left|eta ight| ag{4}]

[left|d(alpha,gamma)-d(eta,gamma) ight|leqslant d(alpha,eta)leqslant d(alpha,gamma)+d(eta,gamma) ag{5}]

[left|alpha ight|^2+left|eta ight|^2=left|alpha+eta ight|^2 ag{6}]

1.2 酉空间

  复数域是实数域的代数闭包,我们希望能把度量的概念推广到复线性空间。但度量首先要求长度、距离这样的概念是非负实数,对称双线性函数不再适用,比如要求(f(alpha,alpha),f(ialpha,ialpha))都大于(0)就是不可能的。要进行概念的推广,就不得不打破双线性函数的束缚,或者说将其也进行推广。

  对推广后的函数我们有三点需要满足:(1)要能兼容实数域上的内积;(2)长度的概念满足正定性;(3)距离概念还满足三角不等式。先来处理简单的场景,考虑(f(kalpha,kalpha))的正定性,如果还是定义成(f(kalpha,kalpha)=k^2f(alpha,alpha)),在复数域上(k^2)并不是正定的。回想到复数共轭的概念,很容易想到将第二个参数变成其共轭,即将(f(alpha,kalpha))定义为(ar{k}f(alpha,alpha)),也可以一般性地定义为半线性(式(7))。

[f(alpha,k_1eta_1+k_2eta_2)=overline{k_1}f(alpha,eta_1)+overline{k_2}f(alpha,eta_2) ag{7}]

  函数在第一个变量上可以继续保持线性函数,为了能体现出函数在实数域上的对称性,式(7)和第一个变量上的线性相结合,便是式(8)的Hermite性。由此我们便有了复数域上的“内积”定义(f(alpha,eta)):(1)(f)是(alpha)上的线性函数;(2)(f)满足Hermite性;(3)(f)是正定的。这样的函数被称为复内积,它显然和实内积兼容,所以也可以简称为内积,同样记作((alpha,eta))或(alphacdoteta)。定义了内积的复线性空间称为复内积空间或内积空间,也称为酉空间(unitary linear space)。

[f(eta,alpha)=overline{f(alpha,eta)} ag{8}]

  在有限维空间中,选定一组基({varepsilon_1,cdots,varepsilon_n})后,内积也可以由这组基上的度量矩阵(式(9))决定。度量矩阵显然满足(A'=overline{A}),并且当基通过过渡矩阵转变时,也同样有类似“合同”的关系式(10)。类似于实对称矩阵的可对角化,你也可以验证内积度量矩阵也是可对角化的。

[f(alpha,eta)=XAoverline{Y'},quad a_{ij}=f(varepsilon_i,varepsilon_j) ag{9}]

[B=PAoverline{P'} ag{10}]

  由于内积的正定性,长度(left|alpha ight|)和距离(d(alpha,eta))的概念就自然引出了(式(1)),现在还需要证明三角不等式(4)(5),它们依赖于Schwarz-Cauchy不等式(式(2))。在复内积上,式(2)的证明本质和实数域上一样,只是在复数域上形式稍显复杂,其实直接将中轴数(t=-dfrac{alphacdoteta}{left|eta ight|^2})带入((alpha+teta,alpha+teta)geqslant 0)的展开式便可得到,请自行验证。

  由式(2)自然可以定义角度(式(11)),注意这里的取值范围,它在复线性空间中更合适。定义了角度后,自然地就能引出正交的概念,以及正交向量的勾股定理(式(6)),你可以自己完成这些推导。

[ heta=arccos{frac{|alphacdoteta|}{left|alpha ight|cdotleft|eta ight|}},quad (0leqslant hetaleqslantfrac{pi}{2}) ag{11}]

2. 正交性和正交变换

  上面完成了内积空间的定义,并且看到酉空间对欧几里得空间是完全兼容的,今后的讨论都设定在酉空间中。

2.1 正交基

  由于内积的度量矩阵可以“合同”对角化,所以内积空间总是存在一组正交基。我们希望在正交基下继续研究空间结构,但没有度量的帮助这一切都无法实现。而现在有了内积的定义,下面就来着手讨论正交关系下的内积空间结构。先来看看正交向量的性质,设(alpha_1,cdots,alpha_s)两两正交,如果有(sum{k_ialpha_i}=0),该式分别与(alpha_j)求内积得(k_j(alpha_jcdotalpha_j)=0),从而(k_j=0)。这就说明了内积空间中,两两正交的向量必然是线性无关的。

  从而(n)实内积空间中最多有(n)个正交向量,而且如果有的话它们便是一组基,单位向量组成的正交基又叫标准正交基。标准正交基使得度量有了单位,从而方便了表达。比如由于标准正交基的度量矩阵是(I),向量的内积表达式就只与它们的坐标有关(式(12))。进一步地,设({eta_1,eta_2,cdots,eta_n})是一组标准正交基,则每个向量的坐标也可以直接由内积表示(式(13))。式(13)也叫向量的Fourier展开,其中坐标也叫Fourier系数

[alphacdoteta=Xoverline{Y'}=x_1overline{y_1}+x_2overline{y_2}+cdots+x_noverline{y_n} ag{12}]

[alpha=(alphacdoteta_1)eta_1+(alphacdoteta_2)eta_2+cdots+(alphacdoteta_n)eta_n ag{13}]

  回顾实对称矩阵可合同对角化的证明,整个过程其实就是在寻找正交化基,现在把这个方法整理出来。设({alpha_1,alpha_2,cdots,alpha_n})是任意一组基,现在来构造一组正交基({eta_1,eta_2,cdots,eta_n})。构造(eta_i)的过程既要引入向量(alpha_i),又要和已经构造的(eta_j,(j<i))正交。模仿对角化的过程,先设(eta_1=alpha_1),然后设(eta_i=alpha_i+sumlimits_{j<i}k_{ij}eta_j)。利用正交性可求出(k_{ij})的唯一解,这就得到了正交基(式(14)),这个过程也叫Schmidt正交化

[eta_1=alpha_1;quadeta_i=alpha_i-sum_{j=1}^{i-1}{frac{alpha_icdoteta_j}{eta_jcdoteta_j}eta_j}quad (2leqslant ileqslant n) ag{14}]

2.2 酉矩阵(正交矩阵)

  以上正交化过程中,如果选取不同的基({alpha_1,alpha_2,cdots,alpha_n}),也将得到不同标准正交基。这些标准正交基之间有什么样的关系?设两组基的过渡矩阵为(P),根据两组基的度量矩阵的关系有(PIoverline{P'}=I),为此定义满足(Aoverline{A'}=I)的方阵为酉矩阵,在实数域上又叫正交矩阵(满足(AA'=I))。酉矩阵有着非常好的性质,首先它的逆矩阵正好就是它的共轭转置矩阵(式(15)),进而可知它的行向量和列向量都是坐标空间中的一组标准正交基。还容易看出,如果(A,B)是酉矩阵(正交矩阵),则(overline{A'},A^{-1},AB)都是酉矩阵(正交矩阵)。(Poverline{P'}=I)两边取行列式,可知酉矩阵的行列式的模为(1)(对正交矩阵则是(|P|=pm 1))。

[Aoverline{A'}=IquadLeftrightarrowquad A^{-1}=overline{A'}quadLeftrightarrowquad overline{A'}A=I ag{15}]

  式(14)可以整理为如(16)的关系式,这个式子表示了两组基的过渡矩阵。考虑到可逆矩阵(A)的(n)行其实就是坐标空间的一组基,因此(A)可以表示为(TB),其中(B)为行向量互相正交的矩阵。将(B)正交化为(P_1),系数转移到(T)上得到(T_1),于是就有(A=T_1P_1)。在(A)的列向量上讨论可以得到类似的结论,总结为式(17),就是说任何可逆方阵(A)可以分解为一个对角为正数的下三角矩阵(T_1)和一个酉矩阵(P_1)的乘积,也可以分解为一个酉矩阵(P_2)和一个对角为正数的上三角矩阵(T_2)的乘积。容易验证,这样的分解还是唯一的。

[egin{bmatrix}alpha_1\alpha_2\vdots\alpha_nend{bmatrix}=Tegin{bmatrix}eta_1\eta_2\vdots\eta_nend{bmatrix},quad T=egin{bmatrix}1&0&cdots&0\frac{alpha_2cdoteta_1}{eta_1cdoteta_1}&1&cdots&0\vdots&vdots&ddots&vdots\frac{alpha_ncdoteta_1}{eta_1cdoteta_1}&frac{alpha_ncdoteta_2}{eta_2cdoteta_2}&cdots&1end{bmatrix} ag{16}]

[A=T_1P_1=P_2T_2 ag{17}]

2.3 正交投影

  由于正定性,内积在任何子空间上(W)都是非退化的,类似上一篇的结论可知(V=Woplus W^{perp})。更一般地,设(V=W_1opluscdotsoplus W_s),将任何向量(alpha)映射到(W_i)中的分量(alpha_i)的线性变换(mathscr{P}_i),称为正交投影,(alpha_i)也称为(alpha)的正交投影。在几何空间中,正交意味着最短距离,这个结论在内积空间中也同样成立。取(W_i)中的任意向量(eta),由于((alpha-alpha_i)perp(eta-alpha_i)),通过式(18)的推导便有式(19)成立,当且仅当(eta=alpha_i)时等号成立,结论得证。

[left|alpha-eta ight|^2=left|(alpha-alpha_i)-(eta-alpha_i) ight|^2=left|alpha-alpha_i ight|^2+left|eta-alpha_i ight|^2 ag{18}]

[left|alpha-eta ight|geqslantleft|alpha-alpha_i ight|,quad(eta,alpha_iin W_i) ag{19}]

  正交投影的最短距离原理可以用于数据的逼近,也就是说(alpha_i)在(W_i)中对(alpha)的最佳逼近元,现在来看一个应用。比如我们事先知道或假定变量(y)是向量([x_1,cdots,x_n])的线性函数(y=sum{k_ix_i}),为了确定系数(k_i)测得了(m)组样本({y_j,x_{1j},cdots,x_{nj}})。考虑到测量误差,样本数(m)一般是要大于(n)的,但这样就可能导致方程组(20)可能无解。

[eta=k_1alpha_1+k_2alpha_2+cdots+k_nalpha_n,quad eta=egin{bmatrix}y_1\vdots\y_mend{bmatrix},:alpha_i=egin{bmatrix}x_{1i}\vdots\x_{mi}end{bmatrix} ag{20}]

  (eta)不一定能由(alpha_i)线性表出,那只好取合适的(k_i)使得(d(eta,sum{k_ialpha_i}))尽量小。利用正交投影的最短距离原理,即要求(eta)在(left<alpha_1,cdots,alpha_n ight>)上的正交投影。该条件等价于((eta-sum{k_ialpha_i})cdotalpha_j=0),用矩阵表示就是式(21)。容易论证该方程有解,这个方法就是最小二乘法,得到的解也称为最小二乘解

[overline{A'}AX=overline{A'}eta,quad A=[alpha_1,cdots,alpha_n],:X=[k_1,cdots,k_n]' ag{21}]

2.4 酉变换(正交变换)

  线性变换一直是我们研究线性空间结构的重要方法,现在就来看看引入度量的限制后,空间变换又体现出什么特性。其实更一般地,我们不在线性变换的基础上作度量的限制,而是先直接研究度量限制下的映射。为此定义保持内积不变的映射为保距映射(式(22)),首先保距映射显然保持向量的长度、距离和角度不变,这样的映射很有应用价值。接下来你容易验证式(23)成立,从而保距映射必定是线性映射。

[varphi:Vmapsto V':quadvarphi(alpha)cdotvarphi(eta)=alphacdoteta,quadforallalpha,etain V ag{22}]

[left|varphi(alpha+eta)-varphi(alpha)-varphi(eta) ight|^2=0;quadleft|varphi(kalpha)-kvarphi(alpha) ight|^2=0 ag{23}]

  最后使用反证法,容易知道保距映射是单射,对于有限维空间它显然是双射,对无限维空间还需要求映射是满射。有双射保距映射的内积空间称为是保距同构的,也记作(Vcong V')。保距同构的有限维内积线性空间的维数必然相同,反之对维数相同的两个内积线性空间,分别取它们的一组标准正交基作为映射的像和原像。容易验证映射是保距映射,从而有限维内积线性空间保距同构的充要条件是:它们的维数相同。

  当保距变换作用于空间自身时,自然就是一种特殊的线性变换(mathscr{A}),它被称为酉变换(实数域上又叫正交变换)。对有限维内积线性空间,线性变换是酉变换的充要条件是:一组标准正交基被变换为另一组标准正交基,即线性变换的矩阵(A)是酉矩阵。酉变换是比可逆线性变换条件更强的变换,保距性使得它更具有使用价值,后面我们会继续讨论酉变换下的空间结构。

  由于正交矩阵的行列式为(pm1),为此把正交变换分为两类,第一类的行列式为(1),也叫旋转,这个概念来自于几何空间。第二类的行列式(-1),设(mathscr{P})是到某个一维子空间的正交投影,则易证(mathscr{I}-2mathscr{P})是第二类的,它被称为镜面反射。其实还容易证明,任何一个第二类的正交变换,都是一个旋转叠加上奇数个镜面反射得来。

  对于线性变换,最重要的就是研究它的不变子空间的分割,而酉变换的保距性为我们的研究提供的很好的工具。设(W)是(V)的不变子空间,由于(V=Woplus W^{perp}),我们来考察(W^{perp})。设(alphain W,etain W^{perp}),由于(mathscr{A})是双射,则存在(alpha=mathscr{A}alpha'),从而有式(24)的推导。也就是说(mathscr{A}etain W^{perp}),所以(W^{perp})也是(mathscr{A})的不变子空间,这样(Woplus W^{perp})就是(V)的一个不变子空间分割。

[mathscr{A}etacdotalpha=mathscr{A}etacdotmathscr{A}alpha'=etacdotalpha'=0 ag{24}]

  设(mathscr{A})有特征值(lambda)及其特征向量(eta),由式(25)的推导可知(|lambda|=1)。在复数域中,特征值总是存在的,设(W=left<eta ight>),则由刚才的结论知(mathscr{A}|_{W^{perp}})仍然是正交变换。使用归纳法可知(V)有不变子空间分割(left<eta_1 ight>opluscdotsoplusleft<eta_n ight>),其中(mathscr{A}eta_i=lambda_ieta_i),而特征值(lambda_i)的模都为(1)。这就是说酉变换的度量矩阵相似于一个对角矩阵,特别地,酉矩阵也可以对角化。酉矩阵是酉变换在一组标准正交基下的度量矩阵,对角化后的一组基({eta_1,cdots,eta_n})是正交的且很容易单位化,故酉矩阵的对角化时的过渡矩阵也可以是酉矩阵。换句话说,任何对任何酉矩阵(A),总存在酉矩阵(P)使得式(26)成立,其中(lambda_i)是(A)的所有特征值。

[etacdoteta=mathscr{A}etacdotmathscr{A}eta=lambdaetacdotlambdaeta=|lambda|^2(etacdoteta) ag{25}]

[PAP^{-1}= ext{diag}\,{lambda_1,lambda_2,cdots,lambda_n} ag{26}]

  上面的讨论中,我们充分借助了变换在内积上形式特点,讨论了不变子空间的分割,并且借助于正交性,将相似限定在标准正交基上。由于酉矩阵同时充当了相似和合同的过渡矩阵,这还为两类问题找到了一个连接的通道。沿着这个思路,下面将继续使用内积来讨论线性变换,并得到在标准正交基下的不变子空间分割。

原文地址:https://www.cnblogs.com/edward-bian/p/5096268.html