论文阅读:Reasoning about Object Affordances in a Knowledge Base Representation

Reasoning about Object Affordances in a Knowledge Base Representation

0.摘要

关于对象及其能力的推理是视觉智能的基本问题。 以前的大多数工作将这个问题归为分类任务,其中训练了单独的分类器以标记对象,识别属性或能力。 在这项工作中,我们考虑使用知识库表示法进行对象能力推理的问题。 首先从图像和其他元数据源中获取对象的各种信息。 然后,我们使用马尔可夫逻辑网络(MLN)学习知识库(KB)。 给定已习得的知识库,我们表明在此统一框架中可以完成多种视觉推理任务,而无需训练单独的分类器,包括零样本能力预测和给定人体姿势的物体识别。

1.介绍

视觉推理是视觉智能的最终目标之一。 以图1中的一个苹果为例。 有了苹果的照片,人们就可以识别出物体的名称,形状,颜色,质地,推断出其口味并思考如何食用。我们在视觉推理方面的大部分工作都集中在为图像的某些部分分配类别标签。 实际上,将推理问题转换为分类问题是很直观的。 大多数功能强大的机器学习工具都基于优化分类目标。 但是,这种基于分类器的范例也有局限性。 相较于看到苹果时人们会想到的丰富推理,典型的对象分类器正在执行“浅”推理。

在本文中,我们将重点放在预测对象负担能力的任务上,并说明视觉和语义信息的新表示形式如何超越这种“浅”推理,并允许更灵活,更深入的视觉推理。 吉布森(Gibson)在1979年发表的开创性论文[16]中将可承受性称为“确定人类可以对其执行哪些动作的物体的属性”。 受此启发,以及计算机视觉领域的许多最新研究[17,21,18,37],我们将可负担性的完整描述定义为以下三点的结合:(1)可负担性标签(例如可食用),(2 )动作的人体姿势表示(例如骨架形式),以及(3)物体相对于人体姿势的相对位置(例如,旁边)。

基于知识的方法。考虑视觉推理问题的另一种方法是通过知识结构,例如图1所示。苹果在知识图中是连接到其他节点的节点(或实体),其中一些节点描述了其视觉属性,例如 如形状,颜色,纹理以及其他描述其承受能力的节点,例如可食用。 连接苹果的每个节点还连接到其他相关节点。 在图1中,可食用节点与梨连接,圆形节点与篮球等连接。

这种表示形式在数据库和NLP社区中是众所周知的,通常称为知识库(KB)或知识图。 与完成一项特定任务的分类器相比,使用基于知识的表示方法可以查询更多的问题。 在一个统一的系统中,知识库的构建和训练一旦完成,我们就可以执行任务,例如对对象能力的零样本推断,对视觉对象的动作姿势估计,对可能动作的对象预测等。 当使用上述朴素方法时,我们将为每个任务训练单独的分类器,每个分类器需要一组不同的训练数据和标签。

本文提出了一种通过从图像以及诸如Amazon和eBay之类的在线文本源中提取信息来构建对象,对象及其属性和能力的知识库(KB)的原则方法。 我们使用马尔可夫逻辑网络(MLN)模型[28]表示KB。 我们强调,一旦对对象及其属性的知识库进行了训练,我们便可以在一个统一的框架中执行许多不同的推理任务,而无需任何进一步的训练。 我们通过测试与零样本对象能力推断以及给定人体姿势的对象预测有关的许多子任务来证明这种表示的有效性。 我们的系统优于针对每个子任务训练的分类器。

2.之前的工作

对象能力。尽管大多数视觉识别工作都集中在学习基于视觉外观的对象分类器上[12,11,23],但人们对识别对象和场景的承受能力(有些称为“功能”)的兴趣日益增长[21,17,15 ,37,20,22,19]。 温斯顿等。 [34]从对象的功能定义中学习对象的物理描述。 Gupta和Davis [18]和Kjellström等。 [21]使用该功能来检测对象。 Grabner等。 [17]和江等。 [20]通过将人类幻化为隐藏的背景来表示能力。 姚等。 [37]代表了对象在与对象互动时基于大多数人的姿势的功能。 但是,没有一件作品可以预测新事物的承受能力。 此外,大多数这些工作将可负担性作为单个标签预测,而我们可以在统一框架中同时预测能力标签,人体姿势和相对对象位置。

对象和属性的零样本学习。识别看不见物体的经典方法是基于新颖物体与先前看到的示例的视觉相似性(例如[14,2])。 最近,Lampert等人。 [25]介绍了一种方法,该方法通过传递先前观察到的类的属性来识别看不见的物体。 Parikh和Grauman [27]通过用相对属性代替二进制属性来扩展这项工作。 Rohrbach等。 [29]比较了三种知识转移方法:对象相似性,属性和对象层次。 此外,他们从网络中挖掘属性以提高其方法的性能。 与这些方法相反,(a)我们可以预测看不见的物体的承受能力,并推断出视觉相似度以外的更多信息,并且(b)我们使用基于知识的方法来推理和处理各种类型的查询,包括通过图像和 文本。

知识库表示形式。利用统计学习方法建立大规模知识库的趋势正在增长。 NELL [5]通过从网络文本中提取和分析信息来学习概率角子句。 NEIL [6]是一个从Web图像中自动提取常识关系的框架。 赢得Jeopardy!的DeepQA项目[13]提出了一种基于概率证据的问答结构,涉及100多种不同的技术。 与这项工作类似,StatSnowball [38]和Elementary [26]使用马尔可夫逻辑网络[28]作为基础知识表示,并为知识库的构建执行统计推断。 Tran和Davis [33]使用马尔可夫逻辑网络对包含人与车辆的复杂交互作用的事件进行建模。 与这些模型相反,我们的知识库包含了各种各样的异构信息,使我们能够回答各种各样的视觉和文本查询。

3.知识库的构建和表示

我们首先介绍一种构造知识库的方法,该知识库将对象,它们的属性以及它们的可承受能力与上述三个组件(负担标签,人体姿势和人与物体的相对位置)相关联。 为了说明我们的想法,我们使用40个对象及其属性来构造KB。 但是,我们的方法可扩展到任意数量的对象。

3.1知识库概述

知识库(KB)是指可用于解决问题的实体和规则的存储库。 人们还可以将KB视为一张图(类似于图1),其中节点表示实体,边表示通用规则,表示它们之间的关系。

实体。我们知识库中的实体由对象属性和提供能力组成。 我们使用三种类型的属性来描述对象:

1.视觉属性-对应于从视觉感知中获得的知识。 受属性学习[9,25,27]最新工作的启发,我们定义了一组视觉属性作为视觉外观的中层描述。

2.物理属性-构成来自物质世界的一种知识形式。 每个物理属性都是描述对象一个方面的可测量量。 我们选择两个相关的属性(重量和大小)来描述对象。

3.分类属性-反映对象的语义理解(概括)。 对象类别形成由几个抽象级别组成的层次结构[8]。 了解分类属性(例如,狗是动物)通常有助于负担能力推理的能力。

这些属性用作对象的中间表示。 这种表示形式使我们能够在对象之间传递知识,从而预测对象的承受能力,即使它从未见过,它由三种类型的实体表示:

1.能力标签-动词或动词短语(例如,骑车和坐着)。

2.人体姿态-人体姿势的关节。

3.人与物体的相对位置–人与物体交互过程中人与物体之间的空间关系。

通用规则。 一般规则描述了实体之间的关系。 可以将它们视为知识图中的边缘。 我们为这些实体之间的三种关系建模:

1.属性-属性关系。 属性之间存在很强的相关性。 我们用属性-属性关系对这些相关进行建模。 正权重表示两个属性之间的正相关; 相反,负权重表明这些属性不太可能同时出现。

2.属性-负担关系。 我们观察到,一个对象的承受能力在很大程度上取决于其属性(例如,笔记本电脑和雨伞不重,因此可以提起)。 我们通过一组属性-负担关系对这些依赖关系进行建模。

3.2学习知识库

既然我们已经定义了知识库的实体和规则,就可以从源数据中学习它了。 学习知识库分为两个阶段。 首先,我们从各种来源收集证据,包括图像和在线文本来源。 然后,我们采用马尔可夫逻辑网络(MLN)[28]进行知识表示。 图2是学习过程中关键步骤的系统概述。 现在,我们在下面详细说明每个步骤。

4.基于知识库的能力推理

既然我们已经学会了一个包含有关对象,其属性和能力的丰富信息的知识库,我们将在本节中展示一些实验来说明这种知识表示的有效性。 我们强调推理。 使用KB表示形式最重要的优点之一是允许在统一的框架中进行不同类型的视觉和文本查询,而不是为每个任务训练单独的分类器。 第4.1节和第4.2节显示了许多视觉任务的实验结果。 第4.3节进一步探讨了知识库的一些重要属性。

4.1零样本能力预测

给定一个看不见的物体,通常可以预测其对人类和机器人的能力。 我们提醒读者,通过能力,我们是指由三部分信息组成的组合:能力标签,人体姿势和人与物体之间的相对位置。 我们首先简要讨论推理过程,测试数据,然后显示大量实验结果。

推理。使用构造的知识库,我们提出了一个层次模型来执行能力预测。 给定一个新颖物体的图像,我们的模型将视觉信息作为对物体属性的提示。 该模型首先估计对象的视觉属性,然后推断其物理和分类属性。 这些属性被用作查询能力和最可能的人类姿势以及物体相对位置的证据。 我们使用提升的信念传播进行推理[31]。 图9示出了推理过程的概述。

给出图像I,我们首先提取[9]中建议的基本特征并预测视觉属性。 然后,我们为具有基本特征和视觉属性的每个分类属性训练L1正则化逻辑回归分类器。 一旦我们获得了视觉和分类属性的分数,我们就将这些分数映射到一个二进制向量中,其中非零项表示这些属性的存在。

测试数据。基于知识库中的40个对象,我们选择22个语义相似的对象(WordNet层次结构中的紧密同义词集)的不同集合进行测试。对于每个对象,我们从ImageNet [7]中随机采样50张图像。 这些新奇物体的图像被用作能力的输入。

4.2人与对象互动的预测

能力预测的反方向是识别行为并在人对对象交互中假设对象。 当在远处看到动作并且物体看起来很小时,很难观察到物体的视觉属性。 在这种情况下,人体姿势和人与物体的空间关系可提供补充信息。 我们证明了知识库在预测人与对象之间的交互作用和对象方面的有效性。
推理。从人类行为图像中,我们提取量化的人类姿势作为证据,并查询可负担标签以及对象属性。 具有最高可能性的可负担性标签被用作预测动作。 我们对MLN执行最大后验(MAP)推断,以估计每个对象属性最可能的0/1状态。 预测的属性可用于在欧氏距离内的所有测试对象中检索最近的邻居。 我们进一步评估人-物空间关系如何影响性能。 如图5所示,从人的动作图像中提取人与物体之间的相对位置。我们在证据中添加量化的位置,然后执行相同的查询。

5.总结

在本文中,我们提出了一种基于知识的(KB)表示法,用于对对象及其在人-对象交互中的作用进行推理,其动机是需要对图像和文本形式的异构数据进行更深入和更多样化的推理 。 我们的初步结果表明,与许多传统分类方案相比,KB表示是一种强大的工具,可以组织视觉世界的丰富信息,并允许我们查询与对象及其承受能力有关的不同类型的问题。 未来的自然方向是将知识库扩展到更大的规模以进行更丰富的推断。 在这项工作中,我们选择在马尔可夫逻辑网络(MLN)中表达我们的数据结构和推断。 数据库和机器学习的最新进展[30,32,4]也指出了使用不同推理算法的方法。

1.这篇文献解决了什么问题?

每一篇文献都有它的使命,就是解决某一专业技术问题。一定要抓住这一点,因为只有抓住这一点,你才能更明白的看懂这篇文献。

2.这篇文献的创新点在哪里?

一篇好的文献都有它独特的地方,你一定要读懂作者的创新点在哪里?因为读懂它的创新点,你就能了解作者的思维模式。而多一种思维模式,就会为你今后的科研提供更多的思考方法。

3.作者的这个创新方法存在什么漏洞?

因为我们看任何一篇文献不只是看它而已,我们是想从这篇文献找到我们可以做什么东西。所以我们一定要带着批判的眼光去看这篇文献。作者是从他的思维模式去思考问题的,他认为这篇文章是完美无缺的,但是每一个人的思维方式是不一样的,以你的眼光去看它,一定能够发现它不足的地方,把这个不足的地方放大,一定可以写一篇新的文章。

4.解决这个问题还有什么其它创新的方法麽?

因为解决任何一个问题的方法都不只一种,还有很多很多种。学会思考这个问题之后,你才能通向创新的大道。

阅读一篇文献要带着这四个问题去阅读,才能有收获。

5.未来的工作

这篇文章偏向于建立一个物体的各种属性。针对3C装配任务,有必要建立针对3C装配的任务图,首先是识别工件,然后指向对应的抓取动作,然后还有任务动作,如螺丝抓取之后就是拧的动作。具体的一些研究还要后续展开。。。。。

原文地址:https://www.cnblogs.com/feifanrensheng/p/14082654.html