人脸聚类

Learning to Cluster Faces on an Affinity Graph

Abstract

人脸识别近年来取得了显著的进展，其性能达到了很高的水平。把它提升到一个新的层次需要大量的数据，这将涉及过高的注释成本。因此，利用未标记的数据成为一个有吸引力的替代方案。最近的研究表明，对未标记的人脸进行聚类是一种很有前途的方法，通常会带来显著的性能提高。然而，如何有效地聚类，特别是在大规模(即百万级或以上)数据集上，仍然是一个open question。一个关键的挑战在于聚类模式的复杂变化，这使得传统的聚类方法难以满足所需的精度。这项工作探索了一种新颖的方法，即学习集群，而不是依赖手工制定的标准。具体来说，我们提出了一种基于图卷积网络的框架，结合检测和分割模块来精确定位人脸聚类。实验表明，我们的方法获得了更准确的人脸聚类，这也进一步提高了人脸识别的性能。

1. Introduction

由于深度学习技术的进步，人脸识别的性能显著提高[25,22,27,3,31]。然而，应该指出的是，现代人脸识别系统的高准确性在很大程度上依赖于大规模标注训练数据的可用性。虽然人们可以很容易地从互联网上收集到大量的人脸图像，但对它们进行注释是非常昂贵的。因此，利用未标记数据，例如通过无监督或半监督学习，成为了一种引人注目的选择，并引起了学术界和工业界的极大兴趣[30,1]。

利用未标记数据的一个很自然的想法是将它们聚集成“伪类”，这样它们就可以像标记数据一样被使用，并提供给监督学习pipeline。最近的研究[30]表明，这种方法可以带来性能提升。然而，这种方法的当前实现仍然有很多不足之处。特别是，他们经常使用无监督的方法，如K-means [19], spectral clustering [11], hierarchical clustering [32], 和approximate rank-order [1]，来对未标记的人脸进行分组。这些方法依赖于简单的假设，例如，K-means隐含地假设每个聚类中的样本围绕一个单独的中心;spectral clustering要求集群大小相对平衡等。因此，它们缺乏应对复杂的聚类结构的能力，因此往往会产生有噪声的聚类，特别是当应用于从现实环境中收集的大规模数据集时。这个问题严重限制了性能的提高。

因此，为了有效地利用未标记的人脸数据，我们需要开发一种有效的聚类算法，能够应对实践中经常出现的复杂的聚类结构。显然，仅仅依靠简单的假设无法提供这种能力。在这项工作中，我们探索了一种根本不同的方法，即学习如何从数据中聚类。特别是，我们希望利用图卷积网络强大的表达能力来捕获人脸集群中的公共模式，并利用它们来帮助划分未标记的数据。

我们提出了一种基于图卷积网络[15]的人脸聚类框架。这个框架采用了一个类似于Mask R-CNN[10]的pipeline来进行实例分割，即生成proposals、识别positive proposals ，然后用Mask来细化它们。这些步骤分别由一个基于super-vertex的迭代proposal生成器、一个图检测网络和一个图分割网络来完成。需要指出的是，虽然我们受到了Mask R-CNN的启发，但我们的框架仍然有本质上的不同:前者操作的是二维图像网格，而后者操作的是具有任意结构的连接图。如图1所示，我们的框架依靠基于图卷积网络学习的结构模式，而不是一些简单的假设，能够处理具有复杂结构的集群。

该方法显著提高了大规模人脸数据的聚类精度，F-score为85.66，不仅优于无监督聚类方法的最佳结果(F-score为68.39)，也优于最新的[30]聚类方法(F-score为75.01)。利用该聚类框架对未标记数据进行处理，将人脸识别模型在Megaface上的性能从60.29提高到78.64，与在所有数据上的监督学习的性能(80.75)相当接近。

主要贡献在三个方面:(1)首次尝试以监督的方式进行自上而下的人脸聚类。(2)这是第一个将聚类定义为基于图卷积网络的检测和分割pipeline的工作。(3)我们的方法在大规模的人脸聚类中取得了最先进的性能，并且应用发现的聚类能使人脸识别模型更接近监督结果。

2. Related Work

Face Clustering 聚类是机器学习的一项基本任务。Jain等人[12]对经典的聚类方法进行了综述。大多数现有的聚类方法都是无监督的。人脸聚类提供了一种利用大量未标记数据的方法。这一方向的研究仍处于早期阶段。如何在大规模数据上聚类的问题仍然存在。

早期的工作使用手工制作的特征和经典的聚类算法。例如Ho等人[11]将梯度和像素强度作为人脸特征。Cui等人的[2]使用了LBP特征。两者均采用spectral clustering。最近的方法利用了学习到的特征。[13]以一种无监督的方式执行自顶向下的聚类。Finley等人[5]提出了一种自下而上的基于SVM的监督方法。Otto等人[1]利用基于CNN的人脸模型的深度特征，提出了一种approximate rank-order度量来将图像对连接成簇。Lin等人[18]设计了一种基于线性支持向量机的相似性度量方法，该支持向量机是根据数据样本的最近邻进行训练的。Shi等人提出了Conditional Pairwise Clustering，将聚类定义为条件随机场，通过两两相似性来聚类人脸。Lin等人[17]提出通过引入最小邻域覆盖球来利用深度特征的局部结构，以改进相似性度量。Zhan等人[30]训练了MLP分类器来聚合信息，从而发现更鲁棒的连接，然后通过寻找连接组件获得聚类。

虽然使用了深度特征，但这些工作主要集中在设计新的相似性度量上，仍然依赖于无监督的方法来进行聚类。与上面所有的工作不同，我们的方法基于检测-分割范式来学习如何以上至下的方式聚类。这使得模型能够处理具有复杂结构的集群。

Graph Convolutional Networks 图卷积网络(GCNs)[15]扩展了CNN去处理图结构数据。现有的工作已经显示了GCNs的优势，如对复杂图形模式的强大建模能力。在各种任务中，GCNs的使用已经导致了相当大的性能改进[15,9,26,29]。例如Kipf等人[15]将GCNs应用于半监督分类。Hamilton等人[9]利用GCNs学习特征表示。Berg等人[26]研究表明，GCNs在连接预测方面优于其他方法。Yan等人使用GCNs对人体关节进行建模，实现基于骨骼的动作识别。

在本文中，我们采用GCN作为在连接图上捕获集群模式的基本机制。据我们所知，这是第一个使用GCN来学习如何以监督的方式聚类的工作。

3. Methodology

在大规模人脸聚类中，聚类模式的复杂变化成为进一步提高性能的主要挑战。为了应对这一挑战，我们探索了一种有监督的方法，即基于图卷积网络学习集群模式。具体地说，我们将其制定为一个在亲和图上的联合检测和分割问题。

给定一个人脸数据集，我们使用训练好的CNN从每个人脸图像中抽取特征,生成一个特征集，其中是一个d维的向量。为了构造连接图，我们将每个样本看作一个顶点，然后使用cosine相似度去找每个样本的K个最近邻，然后得到整个数据集的连接图。另外，连接图也可用一个对称邻接矩阵表示，其中元素是当和两个顶点相连时，两者之间的cosine相似度；如果不相连则为0。连接图是一个有着百万个顶点的大规模图。对于这样的图，我们希望能找到有着下面特性的集群：(1)不同的集群包含的是有着不同标签的图像；(2)在同个集群中的图像有着相同的标签。

3.1. Framework Overview
如图2所示，我们的集群框架由proposal 生成器、GCN-D和GCN-S三个模块组成。第一个模块从连接图生成集群proposals，即可能是集群的子图。在所有的集群proposals中，我们引入GCN-D和GCN-S两个GCN模块，形成一个两阶段的程序。首先选择高质量的proposals，然后通过去除其中的噪声对所选proposals进行细化。具体来说，GCN-D执行集群检测。将集群proposal作为输入，它将评估该proposal构成所需集群的可能性。然后，GCN-S进行分割，对选定的proposals进行细化。特别是，给定一个集群，它估计每个顶点是噪声的概率，并通过丢弃离群值来修剪集群。根据这两个GCNs的输出，我们可以有效地获得高质量的集群。

3.2. Cluster Proposals

我们首先生成集群proposals，而不是直接处理大的连接图。它的灵感来自于目标检测[7,6]中生成区域proposals的方法。这种策略可以大大降低计算成本，因为这样只需要评估有限数量的候选集群。一个集群proposal 是连接图的子图。所有proposals组成一个集合。集群proposals是基于super-vertices生成的，且所有super-vertices形成一个集合。在该节中，我们首先介绍super-vertex的生成，然后设计一个算法去组成集群proposals

Super-Vertex. super-vertex是包含少量相互紧密相连的顶点的子图。因此，用连通分量来表示super-vertex是很自然的。然而，直接从图导出的连通分量可能会太大。为了在每个super-vertice内保持高连通性，我们删除那些关联值低于阈值的边，并约束super-vertices的大小小于最大值。算法1给出了生成super-vertex集的详细过程。一般来说，一个有1M顶点的连接图可以划分为50K个super-vertices，每个super-vertices平均包含20个顶点。

Proposal Generation. 与期望的集群相比，super-vertex是一种保守的结构。虽然一个super-vertex中的顶点极有可能描述同一个人，但是一个人的样本可能分布在几个super-vertices中。受目标检测中的多尺度proposals的启发[7,6]，我们设计了一种生成多尺度集群proposals的算法。如算法2所示，我们在super-vertices上构造一个更高层次的图，以super-vertices的中心为顶点，以这些中心之间的连接值为边。有了这个更高层次的图，我们可以再次应用算法1，获得更大尺寸的proposals。通过对该结构的迭代应用次，我们得到了具有多个尺度的proposals。

3.3. Cluster Detection

我们设计了GCN-D这个基于图卷机网络(GCN)的模块去从生成的集群proposals中选择高质量的集群。在这里，质量使用两个度量方法来测量，即IoU和IoP分数。给定集群proposal ，这些分数定义为：

其中是包含所有标签为的顶点的ground-truth集合，是集群的主要标签，即该标签在中出现最多。直观地，IoU反映了和ground truth的接近程度;IoP反映的是纯度，即中标签为主标签的顶点的比例。

Design of GCN-D. 我们假设高质量集群通常禁止顶点中的某些结构模式。我们介绍一个GCN去识别这样的集群。具体来说，给定集群proposal ，GCN将与其顶点相关的视觉特征（表示为）和affinity子矩阵（表示为）作为输入，来预测IoU和IoP分数

GCN网络包含了L层，且每一层的计算可以表示为：

其中是一个对角degree矩阵。包含第层的嵌入。是一个用来转换嵌入的矩阵，σ是非线性激活函数（在这里使用的是ReLU）。直观地说，这个公式表达了对每个顶点及其相邻顶点的嵌入特征进行加权平均，用进行变换，然后作为非线性激活函数的输入的过程。这类似于一个典型的CNN块，不同在于它是在一个具有任意拓扑的图上操作的。在最高层的嵌入上，我们在的所有顶点上使用max pooling，然后获取提供总体摘要的特征向量。然后使用两个全连接网络去分别得到IoU和IoP分数。

Training and Inference. 给定一个带有类标签的训练集，对于每个集群proposal ，我们可以根据等式(1)得到ground-truth的IoU和IoP分数。然后我们训练GCN-D模块，目标是使ground-truth和预测分数之间的均方误差(MSE)最小。实验结果表明，不需要任何花哨的技术，GCN可以给出准确的预测。在推理过程中，我们使用训练过的GCN-D预测每个proposal的IoU和IoP分数。首先IoU分数将在第3.5节中用于保留IoU高的proposals。下一阶段将使用IoP分数来决定某proposal是否需要细化。

3.4. Cluster Segmentation

GCN-D确定的top proposals可能并不完全纯粹。这些proposals可能仍然包含一些需要剔除的离群点。为此，我们开发了一个名为GCN-S的聚类分割模块，以排除proposal中的离群点。

Design of GCN-S. GCN-S的结构与GCN-D相似。差异主要在于要预测的值。GCN-S不是预测整个集群的质量分数，而是为每个顶点v输出一个概率值，以表明它是真正成员而不是离群点的可能性有多大。

Identifying Outliers 为了训练GCN-S，我们需要准备ground-truth，即识别离群点。一种自然的方法是将标签与m主标签不同的所有顶点视为离群点。然而，如图3所示，这种方法可能会遇到困难的情况，即proposals

中包含几乎相同数量的不同的标签的顶点。为了避免过度拟合手工定义的离群点，我们鼓励模型学习不同的分割模式。只要分割结果中包含来自一个类的顶点，无论它是否是主类，都被认为是一个合理的解决方案。具体来说，我们在proposal中随机选择一个顶点作为种子。我们将一个值连接到每个顶点特征，其中所选种子的值为1，而其他的值为0。与种子具有相同标签的顶点被认为是正顶点，其他的被认为是离群点。我们用随机选择的种子多次应用该方案，从而从每个proposal 中获得多个训练样本。

Training and Inference. 通过上面的过程，我们可以从保留的proposals中准备一组训练样本。每个样本包含一组特征向量——每个特征向量代表一个顶点，一个affinity矩阵，以及一个二元向量来指示顶点是否为正。然后我们训练GCN-S模块，使用顶点的二进制交叉熵作为损失函数。在推理过程中，我们还为生成的集群proposal绘制多个假设，并仅保留拥有最多正顶点的预测结果(阈值为0.5)。这种策略避免了被一个只与很少的正对照点相关联的顶点被选为种子的情况所误导。

我们只向GCN-S提供IoP在0.3到0.7之间的proposals。因为当proposal非常纯粹时，离群值通常是不需要移除的hard例子。当proposal非常不纯时，很可能没有哪个类占主导地位，因此该proposals可能不适合由GCN-S处理。根据GCN-S的预测，我们从proposals中删除了离群点。

3.5. De-Overlapping

上面描述的三个阶段产生了一系列的集群。然而，不同的集群仍然有可能重叠，即共享某些顶点。这可能会对在此基础上进行的人脸识别训练造成不利影响。本文提出了一种简单快速的去重叠算法来解决这一问题。具体来说，我们首先根据IoU分数降序排列集群proposals。我们从排序列表中依次收集proposals，并通过删除前面看到的顶点来修改每个proposal。具体见算法3。

与目标检测的 Non-Maximum Suppression(NMS)方法相比，该去重叠方法具有更高的效率。特别是前者的复杂度为O(N²)，后者的复杂度为O(N)。通过设置用于去重叠的IoU阈值，可以进一步加速这一过程。

4. Experiments

4.1. Experimental Settings

Training set. MS-Celeb-1M[8]是一个由100K个身份组成的大型人脸识别数据集，每个身份大约有100张人脸图像。由于原始的身份标签是自动从网页中获取的，因此噪声很大。我们根据ArcFace[3]的注释清理标签，生成一个包含来自86K个类的580万张图像的可靠子集。清理后的数据集被随机分成10个有着几乎相同数量身份的parts。每个part包含8.6K个身份和大约580K个图像。我们随机选择1个part作为标注数据，其他9个parts作为未标注数据。Youtube人脸数据集[28]包含3425个视频，我们从中提取了155,882帧用于评估。具体来说，我们使用14653帧的159个身份进行训练，其他14629张图像的1436个身份进行测试。

Testing set. Megaface[14]是最大的人脸识别公共基准。它包括一个来自FaceScrub[21]的带有3,530张图片的probe集和一个包含1百万张图片的gallery集。IJB-A[16]是另一个人脸识别基准，包含来自500个身份的5712张图像。

Metrics. 我们评估了在人脸聚类和人脸识别两个任务上的性能。人脸聚类是将具有相同身份的所有图像聚为一个类，其性能通过两两召回和两两精度来衡量。为了兼顾精度和召回，我们报道了广泛使用的F-score，即精度和召回的调和平均值。利用Megaface的人脸识别基准和IJB-A的人脸验证协议对人脸识别进行了评价。我们在Megaface中采用top-1 识别命中率，即对1M 张gallery图像中的top-1图像进行排序，计算top-1命中率。对于IJB-A，我们采用了人脸验证协议，即确定给定的两张人脸图像是否来自同一身份。我们在false positive rate为0.001的条件下使用true positive rate进行评估。

Implementation Details. 在实验中，使用带有两个隐藏层的GCN。momentum SGD的起始学习率设置为0.01。算法1中proposals生成的阈值设置为

4.2. Method Comparison

4.2.1 Face Clustering

我们将该方法与一系列聚类基线进行了比较。下面简要介绍这些方法。

(1) K-means[19]是最常用的聚类算法。对于给定数目的k个簇，K-means使总的簇内方差最小。

(2)DBSCAN[4],基于密度的聚类算法。根据设计的密度准则抽取集群，并将稀疏背景作为噪声。
(3) HAC[24]，分层凝聚聚类是一种基于一定准则的自底向上迭代合并紧密集群的方法。

(4)Approximate Rank Order[1]，作为HAC的一种形式开发了一种算法。该算法使用改进的距离度量仅进行了一次聚类迭代。
(5) CDP[30]，最近的一项工作，提出了一种基于图的聚类算法。它以自底向上的方式更好地利用pairwise关系。
(6) GCN-D，本文方法的第一个模块。它应用GCN以监督的方式学习集群模式。

(7) GCN-D + GCN-S，本文方法的两阶段版本。引入GCN-S对GCN-D的输出进行细化，GCN-D检测并剔除集群内噪声。

Results 为了控制实验时间，我们随机选择一部分数据进行评估，其包含8573个身份的580K张图像。表1比较了不同方法在该集合上的性能。通过F-score和时间成本来评价聚类性能。为了更好地理解每种方法的优缺点，我们还报告了聚类的数量、pairwise精度和pairwise召回。

结果表明:(1)对于K-means，其性能受k簇数量的影响较大。我们在一个数值范围内改变k，报告了高的F-score结果。(2) DBSCAN具有较高的精度，但召回率较低。在大规模的人脸聚类中，可能无法处理密度差异较大的问题。(3)与以往的方法相比，HAC给出了更稳健的结果。注意，标准算法消耗O(N²)内存，当N大于580K时，超过了内存容量。我们使用一种adapted hierarchical clustering[20]进行比较，它只需要O(Nd)内存。(4)由于采用了一次迭代设计，Approximate Rank Order的效率很高，但其性能不如其他算法。(5) CDP作为一项利用未标记数据进行人脸识别的新技术，在准确率和召回率之间取得了很好的平衡。为了公平比较，我们将与CDP的单模型版本进行比较。请注意，CDP的思想和我们的方法是互补的，可以将它们结合起来进一步提高性能。(6)我们的方法使用GCN学习聚类模式。它同时提高了准确率和召回率。表2表明，我们的方法是稳健的，可以应用于不同分布的数据集。由于GCN是使用多尺度的集群proposals来训练的，它可以更好地捕捉所需集群的属性。如图8所示，我们的方法能够精确定位一些结构复杂的簇。(7) GCN-S模块从第一阶段开始进一步细化集群proposals。它通过牺牲一点召回来提高精度，从而提高整体性能。

Runtime Analysis 我们的方法整个过程大约需要2200秒，其中在CPU上生成150K个proposals需要1000秒，在批处理尺寸为32的GPU上，GCN-D和GCN-S的推理分别需要1000秒和200秒。为了公平地比较运行时间，我们还在CPU上测试了所有模块。我们的方法在CPU上总共花费3700s，这仍然比我们比较的大多数方法要快。由于主要的计算开销是在GCN上，因此在本研究中使用GPU的速度收益不是很显著。由于GCN依赖于稀疏矩阵乘法，不能充分利用GPU并行性。我们的方法的运行时间随着未标记数据的数量线性增长，并且这个过程可以通过增加批处理大小或使用更多GPUs并行来进一步加速。

4.2.2 Face Recognition

将训练好的聚类模型应用于无标记数据，得到伪标记。我们研究了使用伪标签的未标记数据如何提高人脸识别的性能。具体来说，我们对人脸识别模型的训练步骤如下:(1)用有标签的数据以监督的方式训练初始识别模型;(2)使用初始模型派生的特征表示在标记集上训练聚类模型;(3)利用聚类模型对不同数量(1、3、5、7、9 parts)的无标签数据进行分组，并对其贴上“伪标签”;(4)使用整个数据集训练最终的识别模型，既有原始标记的数据，也有指定伪标记的其他数据。在我们的问题中，只使用1个标注了ground-truth标签的数据进行训练的模型作为下界，而所有标注了ground-truth标签的数据所监督得到的模型作为上界。对于所有聚类方法，每一个未标记的图像聚类后都属于一个唯一的聚类。我们为每个图像分配一个伪标签作为其集群id。

从图5可以看出，人脸聚类的性能对于提高人脸识别性能至关重要。对于K-means和HAC，虽然召回率较好，但预测精度较低，表明预测聚类有噪声。当未标记数据和已标记数据的比例较小时，噪声聚类严重影响人脸识别训练。随着无标记数据与有标记数据比例的增加，无标记数据增加带来的增益缓解了噪声的影响。然而，整体的改善是有限的。CDP和我们的方法都受益于未标记数据的增加。由于聚类性能的提高，我们的方法始终优于CDP，在MegaFace上人脸识别模型的性能从60.29提高到78.64，接近完全监督的上界(80.75)。

4.3. Ablation Study

我们随机选择一部分未标记的数据，包含8573个身份的580K张图像，以研究我们框架中的一些重要的设计选择。

4.3.1 Proposal Strategies

集群proposals生成是我们框架中的基本模块。在固定的K = 80和不同的、和下，我们生成了大量具有多个尺度的proposals。通常，proposals的数量越多，聚类性能就越好。在选择适当数量的proposals时，需要权衡性能和计算成本。如图4所示，每个点代表在一定数量的proposals下的F-score。不同的颜色意味着不同的迭代步骤。(1)当 = 1时，只使用算法1生成的super-certices。通过选择不同的，获得更多的proposals，从而提高F-score。当数量增加到100K以上时，性能逐渐饱和。(2)当= 2时，在proposals中加入不同的super-certices组合。回想一下，它利用了super-certices之间的相似性，从而有效地扩大了proposals的接受域。随着少量proposals的加入，它将F-score提高了5%。(3)当 = 3时，进一步合并前一阶段的相似proposals，形成规模更大的proposals，继续为性能提升做出贡献。然而，随着proposals 尺度的不断扩大，引入的噪声越来越多，使得方案的性能增益趋于饱和。

4.3.2 Design choice of GCN-D

虽然GCNs的训练不需要任何花哨的技术，但有一些重要的设计选择。如表3a、3b、3c所示，pooling法对F-score的影响较大。与max pooling相比，mean pooling和sum pooling都削弱了聚类结果。对于sum pooling，它对顶点的数量很敏感，这往往会产生较大的proposals。大的proposals导致召回率高(80.55)，准确率低(40.33)，F-score低。另一方面，mean pooling可以更好地描述图结构，但是可能会受到proposal中离群点的影响。除pooling方法外，表3c和3d显示缺乏顶点特征会显著降低GCNs的预测精度。论证了在GCN训练中同时利用顶点特征和图结构的必要性。此外，如表3c、3e、3f所示，GCNs通道的拓宽可以增加其表达能力，但网络越深，可能会使顶点的隐藏特征趋于相似，产生mean pooling的效果。

4.3.3 GCN-S

在我们的框架中，GCN-S被用作GCN-D之后的去噪模块。但是，它可以作为一个独立的模块与以前的方法相结合。根据K-means、HAC和CDP的聚类结果，我们将其作为集群proposals，并将其输入到GCN-S中。如图6所示，GCN-S可以通过丢弃集群内的离群值来提高其聚类性能，各种方法的性能增益在2% ~ 5%左右。

4.3.4 Post-process strategies

NMS是一种广泛应用于目标检测的后处理技术，可以作为去重的一种选择。通过不同的IoU阈值，它保留了有着最高的预测IoU的proposal，同时抑制了其他重叠proposals。NMS的计算复杂度为O(N²)。与NMS相比，去重不抑制其他proposals，从而保留了更多的样本，提高了聚类召回率。如图7所示，去重可以获得更好的聚类性能，可以在线性时间内进行计算。

5. Conclusions

提出了一种基于图卷积网络的有监督人脸聚类框架。特别地是，我们将聚类制定为在一个连接图上的一个检测和分割的范式。该方法在人脸聚类方面与以往的方法相比有较大的优势，从而使人脸识别性能接近监督结果。广泛的分析进一步证明了我们框架的有效性。