奇异值分解（SVD）与在降维中的应用

　　奇异值分解(Singular Value Decomposition，SVD)是在机器学习领域广泛应用的算法，它不光可以用于降维算法中的特征分解，还可以用于推荐系统，以及自然语言处理等领域。是很多机器学习算法的基石。本文就对SVD的原理做一个总结，并讨论在在PCA降维算法中是如何运用运用SVD的。

1. 特征值和特征向量

　　特征值和特征向量的定义如下：

A x = λ x

其中A是一个 n \times n

　　求出特征值和特征向量有什么好处呢？就是我们可以将矩阵A特征分解。如果我们求出了矩阵A的 $n$ $A = W Σ W^{- 1}$

　　其中W是这 $n$

　　一般我们会把W的这 $n$

　　这样我们的特征分解表达式可以写成： $A = W Σ W^{T}$

　　注意到要进行特征分解，矩阵A必须为方阵。那么如果A不是方阵，即行和列不相同时，我们还可以对矩阵进行分解吗？答案是可以，此时我们的SVD登场了。

2. SVD的定义

　　SVD也是对矩阵进行分解，但是和特征分解不同，SVD并不要求要分解的矩阵为方阵。假设我们的矩阵A是一个 $m \times n$ $A = U Σ V^{T}$

　　其中U是一个 $m \times m$

　　那么我们如何求出SVD分解后的 $U, Σ, V$

　　如果我们将A的转置和A做矩阵乘法，那么会得到 $n \times n$ $(A^{T} A) v_{i} = λ_{i} v_{i}$

　　这样我们就可以得到矩阵 $A^{T} A$

　　如果我们将A和A的转置做矩阵乘法，那么会得到 $m \times m$ $(A A^{T}) u_{i} = λ_{i} u_{i}$

　　这样我们就可以得到矩阵 $A A^{T}$

　　U和V都求出来了，现在就剩下奇异值矩阵 $Σ$ 我们注意到:

A = U Σ V T \Rightarrow A V = U Σ V T V \Rightarrow A V = U Σ \Rightarrow A v i = σ i u i \Rightarrow σ i = A v i /

　这样我们可以求出我们的每个奇异值，进而求出奇异值矩阵 $Σ$

$Σ$ 上面还有一个问题没有讲，就是我们说 $A^{T} A$ $A = U Σ V^{T} \Rightarrow A^{T} = V Σ^{T} U^{T} \Rightarrow A^{T} A = V Σ^{T} U^{T} U Σ V^{T} = V Σ^{2} V^{T}$

　　上式证明使用了: $U^{T} U = I, Σ^{T} Σ = Σ^{2} 。$

　　进一步我们还可以看出我们的特征值矩阵等于奇异值矩阵的平方，也就是说特征值和奇异值满足如下关系： $σ_{i} = \sqrt{λ_{i}}$

　　这样也就是说，我们可以不用 $σ_{i} = A v_{i} / u_{i}$

3. SVD的一些性质

　　上面几节我们对SVD的定义和计算做了详细的描述，似乎看不出我们费这么大的力气做SVD有什么好处。那么SVD有什么重要的性质值得我们注意呢？

　　对于奇异值,它跟我们特征分解中的特征值类似，在奇异值矩阵中也是按照从大到小排列，而且奇异值的减少特别的快，在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上的比例。也就是说，我们也可以用最大的k个的奇异值和对应的左右奇异向量来近似描述矩阵。也就是说： $A_{m \times n} = U_{m \times m} Σ_{m \times n} V_{n \times n}^{T} \approx U_{m \times k} Σ_{k \times k} V_{k \times n}^{T}$ 其中k要比n小很多，也就是一个大的矩阵A可以用三个小的矩阵 $U_{m \times k}, Σ_{k \times k}, V_{k \times n}^{T}$

　　由于这个重要的性质，SVD可以用于PCA降维，来做数据压缩和去噪。也可以用于推荐算法，将用户和喜好对应的矩阵做特征分解，进而得到隐含的用户需求来做推荐。同时也可以用于NLP中的算法，比如潜在语义索引（LSI）。下面我们就对SVD用于PCA降维做一个介绍。

4. SVD用于PCA

　　在主成分分析（PCA）中，要用PCA降维，需要找到样本协方差矩阵 $X^{T} X$

　　注意到我们的SVD也可以得到协方差矩阵 $X^{T} X$

　　另一方面，注意到PCA仅仅使用了我们SVD的右奇异矩阵，没有使用左奇异矩阵，那么左奇异矩阵有什么用呢？

　　假设我们的样本是 $m \times n$ $X_{d \times n}^{'} = U_{d \times m}^{T} X_{m \times n}$

　　可以得到一个 $d \times n$

5. SVD小结　

　　SVD作为一个很基本的算法，在很多机器学习算法中都有它的身影，特别是在现在的大数据时代，由于SVD可以实现并行化，因此更是大展身手。SVD的原理不难，只要有基本的线性代数知识就可以理解，实现也很简单因此值得仔细的研究。当然，SVD的缺点是分解出的矩阵解释性往往不强，有点黑盒子的味道，不过这不影响它的使用。

文章内容转载自：https://www.cnblogs.com/pinard/p/6251584.html