降维（一）维度灾难与降维主要方法

降维

在很多机器学习问题中，训练集中的每条数据经常伴随着上千、甚至上万个特征。要处理这所有的特征的话，不仅会让训练非常缓慢，还会极大增加搜寻良好解决方案的困难。这个问题就是我们常说的维度灾难。

不过值得庆幸的是，在实际问题中，经常可以极大地减少特征的数目，将棘手的问题转变为容易处理的问题。例如，以MNIST图片数据集为例：在图片边框附近的像素点基本都是白色，所以我们完全可以从训练集中剔除掉这些像素点，并且不损失任何信息。并且，两个相邻像素点之间一般都是高度相关的：如果我们将它们合并成单个像素点（例如，取两个像素点强度的平均值），我们也不会丢失太多信息。

需要注意的是，减少维度实际是会让一些信息丢失（与压缩图片为JPEG会降低它的画质同理）。所以即使它能加速训练，它也可能会让我们系统的表现稍差。同时它也会让我们的管道稍些复杂而因此维护更难。所以如果训练并不是特别慢，则我们应该优先尝试使用原数据集进行训练，而不是考虑用降维。在某些情况下，减少训练数据的维度可能会过滤掉一些不必要的细节，并因此获取更高的性能。但是，一般情况下并不会，它仅是加速训练。

除了加速训练，降维也对数据可视化非常有用。将维度的数量减少到2（或3）个，可以让我们给高维训练集画出一个精简的图，并且一般可以提供我们一些重要的信息（例如可以直接看到一些模式，如簇）。除此之外，数据可视化也可以在与其他非数据科学家人员沟通时非常重要。

在这章我们会讨论维度灾难，并看一下高维空间内具体会发生些什么。接着我们会引入两个主要的降维方法（projection与Manifold Learning），并最后介绍3个最流行的降维技术：PCA，核PCA以及LLE。

维度灾难

由于我们生活在并且习惯于3维世界，所以当我们尝试想象高维空间时，一般很难有个直观的感受。即使是一个4D的超立方体，在我们脑海中也很难进行想象，更不用说200-维的椭球体在1000-维空间的弯曲的样子了。下图是0D（0维）到4D超平面的一个示例：

在高维空间中，很多事情的行为都会非常不一样。例如，假设我们在一个单元正方形（1x1正方形）中选择一个随机点，则此点仅有40%的概率与边框的距离小于0.001（也就是说，一个随机点不太可能非常靠近某个维度）。但是在一个10000维的单元超立方体中，这个概率要高于99.999999%。大部分在高维超平面中的点都非常接近于边界。

还有一个更麻烦的差异：假设我们在一个单元正方形中随机选取两个点，这两个点的平均距离约为0.52。如果我们在一个3D立方体中随机选择两个点，则平均距离大约为0.66。但是如果我们在1000000维超立方体中随机选择两个点的话，它们的平均距离大约为408.25（约为1000000/6的平方根）。这是一个很反直觉的现象：为什么两个点都在同样的单元超平面中，但是距离可以离的这么远？当然这是由于在高维中有足够多的空间导致了。所以这样导致的结果就是：高维数据集中的数据点可能会非常稀疏（或离散）。大多数训练实例可能相互之间离的都非常远，导致预测性能相对于低维数据集来说会更不可靠，因为它们基于的是更大的外推法（extrapolations）。简单地说，训练集的维度越高，过拟合的风险越大。

理论上来说，一个解决维度灾难的办法是增加训练集的大小，以达到一个足够训练数据条目的量。但遗憾的是，实际上所需增长的训练数据条目量是根据维度数呈指数级别增长的。对于仅仅100个特征来说（这已经远小于MINST问题的维度了），我们需要的训练数据条目数都已经超过我们平常的认知数了。

降维的主要方法

在我们深入了解特定降维算法之前，我们先看一下两个主要的降维方法：投影（projecting）与流形学习（Manifold Learning）。

Projection

在大多数是实际问题中，训练数据并不会跨所有维度均匀分布。很多特征几乎是不变的，而其他特征是高度相关的（例如之前提到过的MNIST）。在这些情况下，数据集中所有的训练实例都可以放在（或者接近于）一个更低维的子空间中。举个例子，下图中我们可以看到一个3维数据集，在投影后可以由圆环表示：

可以注意到所有训练实例都接近于一个平面：这个是3D空间中的一个2D子空间。如果我们将所有训练实例垂直投影到这个子空间，则可以得到一个新的2D数据集，如下所示：

需要注意的是，坐标轴对应的是两个新特征z1和z2（投影在这个平面上的坐标）。

不过，投影并不总是最好的降维方法。在很多情况下，子空间可能弯曲和旋转，例如著名的瑞士卷数据集：

如果简单的将它们投影到一个平面（例如，直接丢弃x3）则会将不同层的数据挤压到一起，如下左图所示。不过我们真正希望的是将这个瑞士卷展开，而获取一个2D数据集，如右图所示：

流形学习（Manifold Learning）

瑞士卷数据集是一个2D流形的例子。简单地说，一个2D流形是一个2D的形状，可以弯曲并旋转到一个更高的空间中。更普遍地说，一个d-维的流形是一个n-维空间里的一部分（d < n），在本地类似于一个d-维的超平面。在这个瑞士卷例子中，d=2，n=3：它在本地类似一个2D平面，但是是在3维里卷成。

许多降维算法的方式是在训练实例上做流形建模，这个称为流形学习（Manifold Learning）。它基于的是流形假设（manifold assumption），也成为流形假说（manifold hypothesis）。它假设真实世界中大多数的高维数据集接近于一个非常低维的流形。从经验来看，经常可以观察到这个现象。

再看一下MNIST数据集：所有的手写数字图片都有一些相似的地方。它们由连接的线构成、边框是白色、并且它们或多或少都处于中心。如果我们随机产生一张图片，仅仅使用它们其中的一小部分也会让它看起来像一个手写数字。换句话说，我们若是想要生成一张手写图，所需的维度远小于原图的维度。

流形假说经常伴随着另一个假说：如果目标任务（例如分类或是回归）以低维空间的流形表示的话，会使得任务更简单。例如，在下图第一行中，瑞士卷被分成两个类：在3D空间中（左图），决策边界会有些复杂，但是在2D展开后的流形空间中（右图），决策边界非常简答，就是一条直线。

不过，这种隐形假说并不总是成立的。例如在上图的下半部分，决策边界在x1=5。这个巨册边界在原3D空间内非常简单（就是一个垂直平面），但是在展开后的流形中看起来更复杂一些（包含四条独立的线段）。

简而言之，在训练模型之间对训练集进行降维通常可以加速训练，但它可能并不是一直都引入到一个更好、或更简单的解决方案；它全部取决于数据集。

现在我们已经了解了维度灾难，并且可以使用什么样的降维算法来对抗此问题。之后我们会介绍一些最常见的算法。