深度学习数据特征提取：ICCV2019论文解析

Goal-Driven Sequential Data Abstraction

论文链接：

http://openaccess.thecvf.com/content_ICCV_2019/papers/Muhammad_Goal-Driven_Sequential_Data_Abstraction_ICCV_2019_paper.pdf

摘要

自动数据抽象是基准机器智能和支持摘要应用的重要功能。在前者中，一个问题是机器是否能够“理解”输入数据的含义，从而产生一个有意义但更紧凑的抽象。在后者中，通过总结输入数据的本质，利用这种能力来节省空间或时间。本文研究了一个基于强化学习的通用框架，用于学习以目标驱动的方式提取序列数据。独特地定义不同抽象目标的能力允许根据抽象的最终目的保留输入数据的不同方面。我们的强化学习目标不需要人类定义的理想抽象示例。重要的是，我们的模型在不受原始输入顺序约束的情况下对输入序列进行整体处理。我们的框架也与领域无关——我们展示了草图、视频和文本数据的应用，并在所有领域取得了有希望的结果。

1. Introduction

抽象通常是在特定应用程序的上下文中定义的[5，20，39，7，23，27]。在大多数情况下，它指的是消除冗余元素，并保存数据最显著和最重要的方面。由于各种原因，它是一种重要的功能：压缩[12]和节省查看数据的人力时间[29]；还改进了下游数据分析任务，如信息检索[2]和合成[14，27]。我们提出了一个新的目标驱动的顺序数据抽象任务（见图1）。顺序是指具有时间顺序的数据——我们考虑视频、顺序绘制的草图和文本。

目标驱动是指根据特定的抽象目标或目标来保存输入的某个方面。根据抽象目标的不同，相同的输入可能导致不同的抽象输出。例如，在产品评论文本中优先考虑保留情感和帮助可能导致不同的总结。重要的是不要混淆我们新的目标驱动的抽象设置和传统的视频/文本摘要[15，16，42，51，37，6，28，30，46]。目标是不同的：后者产生一个单一的紧凑但多样的和有代表性的摘要，通常由人类注释指导，而我们产生各种目标条件紧凑摘要。我们的问题设置也更易于在没有当代视频/文本摘要方法通常要求的基本事实标签（即，手动goldstandard但主观摘要）的情况下进行训练。

为了解决这个新问题，需要新的方法。为此，我们提出了一个目标驱动的序列数据抽象模型，该模型具有以下关键特性：

（1）它对输入序列进行整体处理，而不受原始输入顺序的约束。

（2）它是通过强化学习（RL）而不是监督学习来训练的。这意味着不需要以目标抽象的形式对数据进行昂贵的注释。

（3）通过RL奖励函数引入不同的目标。除了消除注释需求之外，这还可以根据抽象的目的保留输入的不同方面。

（4）最后，基于RL的方法还允许通过改变抽象预算来组合任意长度的抽象输出。

我们通过三个非常不同的顺序数据域来演示我们方法的通用性：自由手绘草图、视频和文本。视频和文本是过去广泛研究的序列数据领域。虽然草图看起来并没有明显的顺序，但触摸屏技术意味着所有重要的草图数据集现在都记录了矢量化的笔划序列。例如，QuickDraw[17]是迄今为止最大的草图数据集，它以（x，y）笔坐标和状态p（接触或提升）的形式提供矢量化的序列数据。对于素描和视频，我们训练了两种基于类别和属性识别模型的奖励函数。这些驱动我们的抽象模型将输入的草图/视频抽象成一个较短的序列，同时有选择地保留与类别或属性相关的信息。在文本方面，我们训练了基于情感、产品类别和帮助性识别模型的三个产品评价奖励函数。这些驱动我们的模型将输入文档总结成一个较短的段落，分别保留情感/类别/帮助信息。

我们工作的主要贡献是：

（1）定义了一个新的目标驱动的抽象问题；

（2）一个由RL训练的序列数据抽象模型，该模型不受原始输入顺序的约束，能够对输入进行整体处理；

（3）展示了该模型对包括sketch在内的不同序列数据域的灵活性，视频和文本。

2. Related work

现有的视频/文本摘要模型要么是有监督的，要么是无监督的。视频[9，31，40，41，43，50，52，54，55]和文本[10，26，25，3]领域中的无监督摘要模型旨在识别保留输入的全局内容的关键单元（视频片段/句子）的一小部分，例如，使用多样性和代表性等标准。相比之下，监督视频[13，15，16，42，49，51]和文本[37，6，28，30，46]摘要方法通过使用地面真实摘要作为训练目标来解决同样的问题。这两种类型的模型都不是由特定的目标驱动的，而是根据人类注释的基本事实摘要来评估的——人类如何总结给定的视频/文本是主观的，而且常常是模棱两可的。因此，这两个模型都没有解决我们新的目标驱动抽象设置。

最近的工作[53]使用类别级视频标签在弱监督RL设置中训练视频摘要模型。其目的是产生摘要，增加类别层次的可识别性标准，以及通常的多样性和代表性标准。核心机制是对视频片段按顺序进行处理，并按照上述标准对每个片段做出二进制决策（保留或移除）。在这项工作中，我们引入了一种目标驱动的方法来显式地保留任何可量化的属性，无论是类别信息（如[53]中部分完成的）、属性，还是潜在的其他数量，如兴趣度[11]。我们证明了我们的模型优于[53]，这得益于对序列输入的整体建模，而不受其原始顺序的限制（见第2节）。4.2条）。与视频和文本相比，素描抽象的研究较少。在[4]中首次研究了这个问题，其中使用数据驱动的方法来研究专业绘制的面部肖像中的抽象。通过限制艺术家绘制参考照片的时间（从4.5分钟到5秒），收集不同抽象级别的草图。

在最近的工作[27]中，自动抽象首次明确地研究了徒手业余草图。抽象过程被定义为草图的可识别性和简洁性/紧凑性之间的权衡。抽象模型也基于RL，按顺序处理笔划片段，并对每个片段做出二进制决策（保留或移除），但在其他情况下，输出笔划的顺序与绘制笔划的顺序相同。在这项工作中，我们还优化了可识别性和紧凑性（如果目标是可识别性）之间的权衡。然而，最关键的是，我们的方法从整体而不是按原始顺序处理输入中获益，并学习了一种最优的笔划排序策略。

我们表明，我们的方法明显优于[27]（Sec. 4.1）。此外，我们还演示了在草图、视频和文本等不同领域的应用，并独特地探索了使用多个目标函数获取不同抽象的能力。素描识别早期的素描识别方法是为了处理CAD或艺术制图中的专业素描而开发的[18，22，36]。在[8]中，随着第一个大规模业余草图数据集的发布，自由手绘草图识别的更具挑战性的任务首次被解决。从那时起，这项任务已经被很好地研究了，使用了经典的视觉[34，21]和深度学习方法[48]。最近成功的深度学习方法已经跨越了非序列CNN[48，47]和序列RNN[19，33]识别器。我们使用CNN和基于RNN的多类分类器为我们基于RL的草图抽象框架提供奖励。

3. Methodology

我们的目标是输入一个数据序列并输出一个较短的序列，该序列根据目标函数保留特定类型的信息。为此，提出了目标驱动序列抽象（GDSA）模型。GDSA首先将输入序列数据分解为一组原子单元（AUs），形成一个候选选择池，从而对输入序列数据进行整体处理。GDSA由RL训练，通过从池中选择一个AUs序列来产生抽象。输出序列应短于输入序列（由预算控制），同时保留其信息内容（由RL奖励/目标函数控制）。

3.1. Goal-driven sequence abstraction (GDSA)

序列数据抽象任务被形式化为马尔可夫决策过程。在每个步骤中，我们的GDSA代理将一个原子单位（AU）从候选AUs池移动到所选AUs的列表中，当所选AUs的数量大于固定预算时，它停止。通过RL[38]使用奖励方案对代理进行训练，该奖励方案鼓励代理在给定有限长度预算的情况下，在保持序列中与目标相关的信息方面优于原始输入顺序的效率。具体来说，我们有两种数据结构：候选AU池和所选AU列表。选定的AUs列表开始为空，候选AUs池包含完整的输入。然后，代理从候选池中一次选择一个AU，并将其附加到当前选定的AU列表中。GDSA代理的示意图如图2所示。核心思想是在所有先前选择的AUs和输入序列所属的类别的上下文中评估每个候选AU的选择。

我们通过分别学习候选AUs、选择AUs和输入序列类别标签的嵌入来实现这一点。基于这些嵌入，GDSA代理将迭代地选择下一个最佳AU以输出给定的结果。候选AU嵌入在每个迭代中，GDSA将候选池中的每个AU视为下一个输出的候选。为

此，首先每个AU是：

（1）编码为固定长度向量。请注意，每个AU本身可能包含顺序的子结构（由片段形成的草图笔划、由帧形成的视频片段或由单词形成的句子），因此我们使用领域特定的预训练RNN将嵌入每个AU。提取与AU的最后一个子条目相对应的隐藏RNN小区状态，并将AU表示为固定长度向量。

（2）根据原始输入序列w.r.t中的相对位置，将时间戳从1分配到10，即AUs的总数。引入这一点是为了在训练期间，我们的模型可以利用来自输入序列顺序的信息。然后将这一个热时间戳向量与上面的固定长度RNN编码向量连接，并将这些向量馈入完全连接（FC）层以获得候选AU嵌入。

选择AU嵌入

为了表示到目前为止的输出序列，所选AU列表的所有AUs被顺序地馈送到RNN。每个AU对应于RNN中的一个时间步。最后一个时间步的输出被输入到FC层，以获得所选择的AU列表嵌入。在第一个时间步骤中，列表为空，由零向量表示。

类别嵌入

一个域中通常有多个相关的抽象任务，例如草图/文本抽象中的对象/文档类别。我们可以为每个类别训练一个独立的GDSA模型，或者聚合所有类别的训练数据。它们分别受到较少的培训数据和类别/领域细节的混合影响。作为折衷方案，我们嵌入了一个类别识别器，以允许模型利用一些信息共享，同时还提供有关类别差异的指导[44]。在每次迭代中，我们的代理都会执行一个给定类别的操作（从候选池中选择一个AU），并选择到目前为止的AUs。为此，它依次考虑每个候选AU并将其与其他两个嵌入连接起来，然后将结果馈送到FC层以获得完整的状态操作嵌入。然后将其输入一个具有1个神经元（即标量输出）的FC层以产生最终logit。一旦对所有候选AUs进行处理，它们相应的logit值被连接起来，并通过softmax形成多项式分布。在训练过程中，我们抽样这个多项式，并且在测试过程中总是选择最大的logit。然后从候选池中删除所选的AU，并将其附加到所选AU的列表中。重复此过程，直到耗尽预算。

域特定详细信息

我们将我们的框架应用于草图、视频和文本数据。每个草图都由一系列对应于笔划的AUs组成。对于视频，每个输入是一个视频剪辑，剪辑中的片段是AUs。对于文本，每个输入都是一个包含产品评论的文档，句子是AUs。另一个特定于域的属性是如何将代理选择的AUs表示为抽象的最终输出。在视频和文本的情况下，所选择的AUs保持与原始输入顺序相同的顺序，以保持输出序列的一致性。而对于草图，我们保持AUs的选择顺序，因为该模型可能学习到比自然人输入更好的排序策略。

3.2. Goal-driven reward function

为了演示通过不同的目标驱动抽象，我们探索了对草图的其他信息的有价值的保存。具体来说，我们训练一个草图属性检测器来定义属性保存奖励。对于视频，要保留的主要目标信息是视频类别的可识别性。为了指导培训，我们采用了一个多类分类法，它被插入到奖励函数中，在每个时间步计算at、ht和gt值。我们还考虑了另一个抽象目标，即通过使用属性检测器来定义奖励，从而在视频中保留属性。对于文本，主要目标是产品评论中的情感保留，奖励是通过评论摘要被二元情感分类正确分类的概率给出的。作为不同的抽象目标，我们还通过为这些目标培训不同的分类来探索产品类别和有用性信息的保存。

3.3. Training procedure

在传统的强化学习（RL）框架中，观察空间和行动空间维度都是固定的。在我们的框架中，由于候选AUs的数量在每一步都会减少，因此动作空间会随着时间的推移而缩小。相比之下，选择的AUs的数量随着时间的推移而增加，但是由于使用RNN嵌入，它们的嵌入维度是固定的。我们的RL框架通过在每个时间步重建动作空间来处理这些动力学。这可以通过对可用操作（即候选AU池）进行卷积来有效地实现。

我们把我们的方法应用到一个综合例子中作说明。我们介绍了一种简单的3×3图像格式，它由9个二进制样本按光栅扫描顺序生成。每个AU是一个像素，有29个独特的图像类别。我们选择3个类，对应于图3中的第一列，分别表示为“×”、“+”和“o”。为了引入类内变异性，观测样本受到高斯噪声的扰动。图3中的关键观察是，为了识别类别，并非所有AUs（像素）都是必要的。例如，在只有两个AUs的序列中，如果一个是角，另一个是中心，则它必须是“×”类别。这为AU序列的简化和重新排序创造了空间，从而产生一个较短但保留信息的序列。训练RL代理来解决这个问题，我们希望它选择几个最大化可识别性的AUs。我们将AU选择预算限制为2（即两个像素输出图像）。如图4所示，代理生成的输出序列有90%的概率被线性分类器正确分类。这比其随机初始化状态（随机选择两个笔划的策略）要好得多，其性能约为50%∼70%。

4. Experiments

我们的模型在Tensor flow[1]中实现。GDSA框架中用于处理所选AU序列的RNN由128个隐藏单元组成的单层门控递归单元（GRU）实现。将尺寸为1×128的GRU输出馈送到完全连接层，得到尺寸为1×18的选定笔划嵌入。候选的AU嵌入是通过将AU表示（固定长度的特征向量与时间戳连接）馈送到完全连接的层中获得的，其维数为1×9。类嵌入的维数为1×3。通过将前三个嵌入连接起来并输入到完全连接的层中得到的完全嵌入大小为1×15。代码和经过训练的模型都将公开。如前所述，我们为抽象学习提出了一个新的问题设置和相关的解决方案。当代的摘要学习需要有注释的目标摘要[4，6，29，35，49]，我们需要的是目标函数。目标函数本身是从元数据中学习的，这些元数据通常已经可用，或者比昂贵的黄金标准摘要（例如，文本的情感标签）更容易获得。由于目标（任务具体摘要与一般摘要）和数据要求（薄弱。我们的方法完全不同，我们无法与传统的摘要方法相比。

当使用25%和50%的每个类别的平均笔划数的预算B时，我们通过草图识别精度来评估GDSA模型的性能。这个评估是在45000个草图的测试集上进行的。草图识别是通过使用两种不同的分类（RNN[27]和Sketch-a-Net[47]）来实现的。

我们将我们的抽象模型与：

（1）原始人类绘图顺序中的前B个笔划进行了比较。这是一个很强的基线，因为QuickDraw中的数据是通过挑战玩家在有限的时间内（抽象地）画出物体来获得-因此，最初的几笔被认为对人类的识别很重要。

（2）随机选择B笔划。

（3） DSA[27]，最先进的深度素描抽象模型。请注意，为了进行公平的比较，我们修改了[27]以在笔划级别执行抽象，因为最初的论文涉及笔划段（五个连续的（x，y，p）元素）。

（4） DQSN[53]，一个最初为视频提出的抽象模型。我们通过插入笔划AU表示而不是视频帧特征来调整此模型以适应我们的设置。

我们还报告了不带抽象的完整输入序列的性能，它表示上限。表1的结果表明，我们的GDSA代理优于所有其他方法。最明显的是，在更高的B=25%预算下，我们的GDSA模型能够学习到一个有效的选择政策。特别地，DSA和DQSN都受到原始输入AU阶的限制，并且具有固定的2态作用空间，从而导致次优选择。

我们方法的一个关键特性是能够选择在抽象过程中应该保留的不同输入属性。在这个实验中，我们通过对比属性保持和类别保持来证明这种能力。我们通过从QuickDraw中选择9种动物类别（猫、老鼠、猫头鹰、熊猫、猪、兔子、松鼠、老虎和斑马）并定义5种动物属性：胡须（猫、老鼠，兔子，老虎），尾巴（猫，老鼠，猪，兔子，松鼠，老虎，斑马），条纹（老虎，斑马），长腿（老虎，斑马），大眼睛（猫头鹰，熊猫）。我们训练两个单独的Sketch-a-Net2.0模型来识别上述类别和属性。然后将它们插入奖励生成器以培训GDSA，预算B=25%。类别与属性保留结果的定性比较如图5所示。我们可以清楚地看到，更改目标会直接影响抽象策略。例如，保持显著的猫类线索（耳朵）与请求的属性（胡须）。

GDSA的性能是通过类别识别的准确性来评估的，在每个类别中，有三个预算值，分别是每个类别的平均段数的25%和50%。在[53]之后，该评估由做5倍交叉验证。类别识别是使用上述分类进行的。

我们比较了：（1）原顺序的前B段。（2）随机B段。（3） DSA[27]，通过用视频片段AU替换笔划AU向量来适应视频。（4）最先进的DQSN[53]，它适合接受基于类别识别的公平比较奖励的培训。我们还计算了无抽象输入视频的上界。表2中的结果表明，我们的GDSA代理在显著的利润率方面优于所有竞争对手。

为了展示我们模型的目标驱动抽象能力，我们首先定义了5个类别级别的属性：动物（狗狗表演、梳理动物、养蜂）、人类（跑酷、飞毛腿聚集、游行）、车辆（更换车辆轮胎、打开车辆锁）、食物（制作三明治）、自行车（尝试自行车技巧）}。使用与分类相同的分类架构，我们训练属性分类。然后插入奖励功能以指导培训，B=25%。一些定性结果如图6所示。我们可以清楚地看到，抽象输出随目标函数的变化而变化。例如，保留与游行相关的片段（类别）与描述人类的片段（属性）。

接下来，我们将通过培训而不是保留（1）产品类别（多类）和（2）有用性（二进制）数据来演示GDSA模型的目标驱动摘要功能。采用汉化分类法，B=25%。一些定性结果如图7所示。我们可以观察到，根据抽象目标的不同，输出会有所不同，以保留与目标相关的信息。

我们使用Amazon Review数据集来训练GDSA文本模型[24]。我们的目标是保持积极/消极的评论情绪（1-2星为消极，4-5星为积极）。我们选择了9个类别：{服装、书籍、dvd、电子产品、厨房和家庭用品、音乐、体育和户外活动、玩具和游戏以及视频}，这9个类别的基础是可以获得相同数量的正面和负面评价。每个类别的平均句子数分别为{3.5、8.2、8.9、5.6、4.8、6.8、5.4、4.9、7.7}。我们使用每类1400条评论进行培训，600条用于测试。实施细节我们用K=10000集、奖励比例因子b=100和学习率η=0.0001来培训我们的代理。我们将预算B设置为每类句子平均数的25%和50%。

此外，我们有一个句子的预算，以确定在每次审查中最相关的句子。我们使用两种不同的情绪分类法，都使用手套嵌入[32]将每个词表示为固定维度向量：（1）一个最先进的文本分类层次注意网络（HAN）[45]，在9个评论类别上训练用于二元情绪分析。（2）由64个隐藏单元组成的单层LSTM构建的RNN。它将单词嵌入列表作为输入，并将其最后一个时间步长输出反馈给具有softmax激活的完全连接层，以预测情绪。这些分类器经过训练后，还用于提取固定维度（256/64）特征，该特征与时间戳向量相连，以获得候选句子池中每个句子的最终AU表示（D=266/74），用于相应的GDSA模型。我们通过情感识别的准确性来评估我们的GDSA模型的性能，每个类别的平均句子数有3个预算，分别为25%和50%。这项评估是在5400个评审的测试集上进行的。情绪识别使用上述两个分类（RNN和HAN[45]）。

我们比较了：（1）按原顺序排列的前B句。（2）随机B句。（3） DSA[27]和（4）DQSN[53]都通过插入句子AU表示而不是笔划和帧AU表示来适应文本。上限表示没有抽象的完整评审的性能。表3的结果表明，我们的GDSA代理再次优于所有竞争对手。

5. Conclusion

我们为目标驱动的顺序数据抽象引入了一个新的问题设置和有效的框架。它是由一个目标函数驱动的，而不需要昂贵的注释性基本事实标签，而且还唯一地允许选择要保留的信息，而不是生成单一的通用摘要。我们的GDSA模型在这个新的抽象任务中提供了比几个替代方案更好的性能。我们减少了数据需求，并且新的目标条件抽象能力使不同的实际摘要应用程序能够与当今常见的应用程序相比。