机器学习论文笔记（5）

Self-Supervised Convolutional Subspace Clustering Network

摘要：基于数据自表达的子空间聚类方法已经成为从低维线性子空间的集合中学习数据的一种非常流行的方法。然而，子空间聚类的适用性受到了限制，因为原始形式的实际可视数据不一定位于这样的线性子空间中。另一方面，卷积神经网络(ConvNet)已被证明是一种从视觉数据中提取判别特征的强大工具，但训练这种卷积神经网络通常需要大量的标记数据，这在子空间聚类应用中是不可用的。学习和子空间聚类实现同步功能,本文提出一个端到端的可训练的框架,叫做Self-Supervised Convolutional的子空间聚类网络(S2ConvSCN),结合ConvNet模块(特征学习),一个自我表达模块(子空间聚类)和谱聚类模块(self-supervision)联合优化框架。特别地，本文引入了一个双重自我监督，利用光谱聚类的输出来监督特征学习模块(通过分类损失函数)和自我表达模块(通过spectral clustering loss)的训练。本文在四个基准数据集上的实验证明了双重自我监督的有效性，并证明了本文提出的方法的优越性能。

在过去的十几年提出了很多解决子空间聚类问题的方法：

algebraic methods（代数方法）

在无噪声的数据表现良好，能够很好的表现数据的内部结构，可以被扩展到适当的噪音

1) Factorization-based segmentation of motions

2) A multibody factorization method for independently moving objects

3) Multibody grouping from motion images

4) Generalized principal component analysis (GPCA)

iterative methods（迭代方法）

第一步：给出一个随机的分割，给每个子空间使用经典的PCA（主成分分析）

第二步：对于使用PCA降维过的数据，可以把数据放到距离他最近的子空间中

两步循环直到收敛

1) k-plane clustering 2) Nearest q-flat to m points 3) k-means projective clustering 4) Combined central and subspace clustering on computer vision applications 5) Median k-flats for hybrid linear modeling with many outliers statistical methods（统计学方法） 1) Mixtures of probabilistic principal component analyzers 2) Geometric structure of degeneracy for multibody motion segmentation 3) Segmentation of multivariate mixed data via lossy coding and compression 4) Motion segmentation via robust subspace separation in the presence of outlying, incomplete, or corrupted trajectories 5) Robust statistical estimation and segmentation of multiple subspaces

谱聚类（spectral clustering）

它是一种基于图论的聚类方法，主要思想是把所有的数据看做空间中的点，这些点之间可以用边连接起来。距离较远（或者相似度较低）的两个点之间的边权重值较低，而距离较近（或者相似度较高）的两个点之间的边权重值较高，通过对所有数据点组成的图进行切图，让切图后不同的子图间边权重和尽可能的低，而子图内的边权重和尽可能的高，从而达到聚类的目的。

1) A general framework for motion segmentation: Independent, articulated, rigid, non-rigid, degenerate and non-degenerate

2) Hybrid linear modeling via local best-fit flats

3) Segmenting motions of different types by unsupervised manifold clustering

4) Sparse subspace clustering

5) Clustering disjoint subspaces via sparse representation 6) Robust subspace segmentation by low-rank representation 7) Spectral curvature clustering (SCC)

在最近的十年主要关注的焦点是基于谱聚类的方法（Spectral clustering based methods），它把子空间聚类方法分为两个步骤：

第一个步骤：建立一个数据关联矩阵

第二个步骤：使用谱聚类方法，由数据点找到找到点和点之间的相似度。

使用谱聚类算法是因为谱图理论中有理论保证。

关于如何定义一个检测子空间结构的相似度矩阵这是子空间聚类中的核心问题。到目前为止，被人们证明是行之有效的模型，是被称之为自表示模型的方法，简单说就是把数据点用数据集中其他数据点做线性组合，用表达系数的绝对值去定义相似度矩阵，关注的是表达系数中的非零分量，本文为了刻画系数的分布特点，引入了一个概念子空间保持性质（Subspace-Preserving Property ）。

S2ConvSCN是把卷积，自表示模块和谱聚类做成了一个有机的整体。利用双重的监督机制训练S2ConvSCN网络。如果去掉自表示模块，基本上可以把网络看成是一个卷积神经网络，可以做分类任务，所以可以认为子空间聚类训练了一个卷积网络，可以去测试它的泛化能力。