计算机视觉一些项目实战技术

1. SELECTIVE SEARCH FOR OBJECT LOCALISATION

需要多种策略来查找上述图像中的所有对象。勺子在桌子上的沙拉碗里。因此，图像本质上是层次性的，需要所有的尺度来找到这些物体。在（b）中，猫可以用颜色而不是质地来区分，而在（c）中，反面是骆驼。在（d）中，车轮是汽车的一部分，因为被车身包围着，而在颜色和质地上都有很大的不同。

传统的分割方法是在任何识别之前，先将图像分割成唯一的对象。由于这是非常困难的，如果不是不可能的（见下图），研究人员通过在图像中执行详尽的搜索（即滑动窗口方法）来通过识别定位对象。但这忽略了低级线索中所有有用的信息。因此，建议将两个世界的优点结合到一个数据驱动的选择性搜索中：利用图像的结构进行分割。目标是在穷举搜索中生成所有可能的目标位置。

建议使采样技术多样化，以尽可能多地考虑图像条件：

使用层次分组来处理所有可能的对象比例

使用不同的分组策略，并且各不相同：

处理不同不变性的图像颜色空间

基于区域的相似度函数处理对象的多样性。特别是，用颜色、质地、大小和/或内在的相似性来衡量。

最终的算法快速而准确：在4秒内，可以生成2134个盒子，平均最佳帕斯卡重叠（Average Best Pascal Overlap）分数为0.804。这套小的质量好的盒子可以让用字袋来定位物体。通过该系统，赢得了2011年ImageNet大规模检测挑战赛和2012年Pascal VOC检测挑战赛。

2. THE VISUAL EXTENT OF AN OBJECT

可视化分类证据在“猫”身上的位置。黄色表示强阳性证据，蓝色表示强阴性证据，灰色为中性。

虽然“字袋”被广泛使用，但其确切的工作原理却不太为人所理解。在这个项目中，对物体的视觉范围和语境的作用进行了理论研究。为此，开发了一种技术，将单词袋法的分类证据反向投影到图像中，以测量和可视化该方法如何对图像进行分类。此外，为平均精度创建了一个混淆矩阵。利用这些工具，从两个角度进行了理论研究：

（a）在不知道目标位置的情况下，确定了在图像中支持目标分类的位置。

（b）假设对象周围有一个理想的长方体，评估对象内部、对象边界和环绕的相对贡献。

在（a）中，发现周围环境对物体分类有显著的贡献，而对于船来说，物体区域的贡献是负的。在（b）中，发现环境不再起作用，证实了心理学中一个长期存在的事实。不出所料，比较（a）和（b），有了良好的目标定位，在精度上会有相当大的提高。

此外，还改变了每个对象周围的上下文数量，以测量视觉范围。发现视觉范围是由其类别决定的：定义良好的刚性对象将对象本身作为首选的空间范围。非刚性对象具有无限的空间范围：所有空间范围都会产生同样好的结果。主要根据功能分类的对象将整个图像作为其空间范围。

3. ACTION/EVENT RECOGNITION USING LANGUAGE MODELS

在人类行为识别和事件识别中，一个问题是行为和事件的数量惊人。每个对象都可以使用许多动词进行操作，从而产生大量可能的人类行为。已经有许多描述事件的词，形容词可以修饰事件。例如，印度婚礼（视觉上）不同于欧洲婚礼。因此，行动和事件的数量都是巨大的。

大多数视觉识别系统需要为所有类提供视觉训练示例，这需要大量的人工注释工作。相反，在本项目中，建议对动作/事件的各个组件执行视觉识别，并使用其来源了解如何通过其组件识别动作和事件。

在ICMR论文中，目标是通过对一个物体的视觉识别和定位来识别人类的行为，并从语言中学习每个物体最合理的行为。为Pascal VOC 2007创建了一个新的数据集，对人类行为进行了注释，结果得到了一个受20个对象类别限制的操作数据集，但就单个对象发生的操作频率而言，是无偏的（不像大多数操作识别数据集试图在每个类别中收集等量的示例）。

在这个框架中，比较了Felzenszwalb等人基于部分的视觉识别模型。利用自己的基于选择性搜索的字袋识别模型，发现工作效果更好。此外，还比较了两种语言模型LDA-R和TypeDM，发现TypeDM给出了最好的结果。最后，展示了本地化对象和语言模型的结合比最先进的单词包实现产生更好的结果。

在CVPR论文中，使用面分析综合理论对Pascal VOC 2007数据集的事件进行了注释，该理论由图书馆和信息科学开发，用于组织大量的知识集合。由此产生的事件永远是真实的，可以看作是普遍知识的一个子集。展示了一种组合方法的前景，并证明了对于不可见事件识别给出了合理的结果。