DeepFashion and Match R-CNN

原文链接：https://arxiv.org/pdf/1901.07973.pdf

DeepFashion2

在服装识别方面，现有的DeepFashion数据集存在问题，比如关键点稀少等，无法适用于现实环境。文章提出DeepFashion2来解决这些问题，可以用于服装检测、姿态估计、分割等。它包含801K的服装物品按照样式分为43K类。它的注释比同类更丰富。此外还有873K的卖家秀买家秀的配对，比DeepFashion大3.5倍。DeepFashion没有mask注释，而DeepFashion2有。

上图展示了DeepFashion和DeepFashion2，前者一张图只能识别一个物体，关键点少，边界框是用关键点估计的所以噪声比较大。后者识别出多个物体，人工标出了边界框和多达20个关键点。

如上图，其他数据集有的从购物网站上获得数据，噪声较大；图片数量、边界框数量、关键点、mask、买家秀和卖家秀pair的数量都不如DeepFashion2。

DeepFashion2的优点有：

1 样本多，43.8K个种类，每个种类有12.7个样本，还有大量注释；

2 多功能，用于服装检测、分类、姿态评估、分割、检索等；

3 表现力，一张图有多个目标，且有13个关键点种类，每一类有23个关键点；

4 多样性，包括放缩、遮挡、放大、不同角度的图像（见上图）。

数据来自DeepFashion和购物网站并人工筛选；人工画上边界框和分类，标注关键点、姿态、遮挡等信息，然后自动生成图片轮廓。自动生成Mask并人工修正。

基于DeepFashion2做了四个benchmark，分别是服装检测、关键点检测、分割、卖家秀买家秀的检索（给定买家图片，检索卖家图片）。

Match R-CNN

基于Mask R-CNN提出了Match R-CNN，可以端到端地进行上述四个任务。

Match R-CNN读入两个图片，经过特征网络FN 感知网络PN和配对网络MN三个部分。

FN包括ResNet-FPN主干、RPN和RoIAlign模块。图片先读入ResNet50提取特征，然后进入FPN形成金字塔形feature map，RoIAlign从金字塔的不同层提取特征

PN有三个支线，分别处理不同任务。服装检测部分是两个全连接层，一个检测种类一个进行边界框的回归。关键点检测部分有8个卷积层和2个“反卷积层”。分割部分有4个卷积层，1个反卷积层和另一个卷积层。

MN包括特征提取器和一个服装检索的相似性学习网络。FN学到的RoI特征进入MN，产生特征向量用于检索。v1和v2进入相似性学习网络来获得I1和I2的相似度。特征提取器有4个卷积层，1个池化层，1个全连接层相似性学习网络包括减法、平方和1个全连接层。

代价函数：如图，其中box用的是smooth loss，其他的都是cross-entropy loss交叉熵。

网络实现：图片先resize，batch size16,学习率开始时是0.02并且每隔8、11、12代递减0.1，SGD的weight decay是10^-5，momentum 0.9。

Experiments

在DeepFashion2上测试了Mask R-CNN和Match R-CNN对于几个任务的准确率。证明现有网络受到遮挡、缩放等干扰较大，从而证明DeepFashion2给模型确实带来了挑战。