图像搜索（一)-好特征

众所周知，对文本检索来说，输入是一系列关键词，这对用户意图的描述基本上是简短而明确的；但对图像而言，输入是一张图，从计算角度考虑，信息丰富，但区分性差（像素），信息量大（二维），但对检索速度压力也大。

让我们假定几种典型的应用场景：

拿手机直接对某人身上的衣服进行拍照，然后搜索结果；
在屏幕前或杂志上看到中意的商品，拿手机拍下，搜索；
从相册、朋友圈、PC上等直接获取图片，进行搜索。

1.复杂性

对这几种场景的对象（图像）进行分析，我们可以从二个维度来进行：

对象维度

  1.目标对象是刚体，如电子产品、机器部件等，这种对象一般不会变形，成像与拍摄者的角度、远近、外在光照条件以及背景噪声等相关；
  2.目标对象是变形体，如衣服、窗帘等，这种对象的成像，除了刚体一样的因素，还有附加形体（人体）、变形（风或形体）导致的复杂情况；

图像本身维度

  1.有明显主体特征或标识的（主体区分性），如带图案的T恤、有Logo的包装以及有文字描述的商品，这种图像辨别性比较好；
  2.带重复特征或图案的（部分区分性），如条纹格子衣服、碎花裙等，这种图像具有几何重复或不规则重复的模式；
  3.无明显特征或光滑的（难以区分性），如纯色衣服、圆形珠子、光滑电子产品等；
  4.变化特征的，如屏幕显示不同图案的手机、不同环境下发不同光或颜色等物体。

以上两个维度不同的组合，给图像搜索算法带来很大的困难，关键点之一是如何从原始特征（像素：区分度非常低数目却很大的）图像中提炼出好的特征；但无情的事实证明，没有一种放之四海皆准的特征，能够满足上述的各种情况。各种特征都各有优缺点，所以站在务实而非学术的角度，我们的出发点必须是针对不同的情况，使用不同的特征，以及它们的组合。

2.好特征的评价标准

当然，首先我们要来定义好的特征是什么，具有什么特性：

不变性（鲁棒性），同源或不同源但描述同一个对象的图像，特征描述能够一致，典型的不变性有：

  a) 尺度不变性：在远近不同时得到大小不同的尺寸，具有一致性； 
  b) 旋转/平移不变性：在旋转各种角度下和平移一段距离都能正确得到一致性；
  c) 光照（颜色）不变性：不同光照条件（或不同颜色/分布）的识别性； 
  d) 仿射不变性：在不同视角下具有的不变性；
  e) 形变不变性：在目标发生部分形变时具有的识别性，尤其是体现在衣服等变形目标上；

区分性（相似性）：与从别的图像来的特征之间的相似性的衡量，有很好的独特性，信息丰富，具多量性，适合海量特征中匹配：

  a) 抗噪性：如何将目标主体与背景噪声区分开来，这个特性非常重要，尤其是在手机拍照的情况下； 
  b) 局部性：能够将局部相同但具区分性的图像识别出来；这个对于部分图匹配来说非常重要；
  c) 平衡性：就是特征维数高低与独特性的平衡；每维量化空间大小的平衡；这个对实际的在线系统非常重要，占用空间过大的特征会丧失可用性；

抽象性（语义性）：能够模拟人的视觉和大脑原理，具有“抽像概念”的上层语义描述能力，使得目标对象在不同的场景下都能描述。

如果单个特征或者多个特征组合，能够满足上述条件，我们称之为好的特征，或特征集。得到特征有两种主要方式：一是得到一个整体性的特征，如颜色、CNN等，称之为全局性特征；一种得到多个特征点的组合，称之为局部特征。

3.获取好特征的方法

解决并得到上述各种良好特征一般有什么方法呢？先简单的用一些通用方法来尝试：

尺度不变性：比较直观的方式是把不同大小的图像缩放到（下采样）统一大小，然后做后续处理；比较好的一种是构建不同的尺度空间来进行后续操作；
旋转/平移不变性：一种是直接抹杀这种特性，使用全局统计信息来进行；改进型有采用分区域或金字塔方式; 更进一步是选用主方向，在匹配时只在（或旋转到）主方向进行；
光照（颜色）不变性：光照不变性很多的时候使用归一化的方法来去掉光照的影响；而颜色则可以使用灰度的方式；
仿射不变性：仿射不变性比较难以解决，一般良好的特征也只具有部分的此类不变性；一种方案是尽量搜集同一对象不同角度的图像，另一种是采用算法产生不同仿射的图像；
形变不变性：这是更难解决的一种不变性，因为它与其它不变性有时候相互冲突；可以使用组合特征或抽象特征来解决；
独特性：这种区分性特性，在实践中一般使用卷积+下采样来获取；
抗噪性：这种特征对全局性特征来说，比较难以解决，因为特征本身难以区分主体与背景，需要依赖预处理来解决；或者采用局部性的组合特征来；
局部性：同样的，全局性特征也比较难以解决，需要局部性的组合特征来；
语义性：这种一般与分类问题联合起来看，需要抽像层面的信息来解决。

4.数学准备

在介绍特征抽取（表达）之前，可以了解几个通用的概念，其实就是概率、信号、数学中最简单的概念，这几个套路，在特征生成中无处不用。

统计直方图：也可以称之为量化，是变无限为有限，变长为定长的不二法门；
均值与最大值：在简化数据、获取代表值（或者pooling）中非常有用；
卷积：各种滤波器，其实就是编程中各种二维窗口的乘积，在数字图像处理中无处不在；
误差：这个，不用介绍，当然也可以把残差、距离相似度（误差越小越相似）等也划进来。

统计直方图：

对某一物理量在相同条件下做n次重复测量，得到一系列测量值，找出它的最大值和最小值，然后确定一个区间，使其包含全部测量数据，将区间分成若干小区间，统计测量结果出现在各小区间的频数M，以测量数据为横坐标，以频数M为纵坐标，划出各小区间及其对应的频数高度，则可得到一个矩形图，即统计直方图。

卷积：

卷积是两个变量在某范围内相乘后求和的结果。如果卷积的变量是序列x(n)和h(n)，则卷积的结果

其中星号*表示卷积。当时序n=0时，序列h(-i)是h(i)的时序i取反的结果；时序取反使得h(i)以纵轴为中心翻转180度，所以这种相乘后求和的计算法称为卷积和，简称卷积。另外，n是使h(-i)位移的量，不同的n对应不同的卷积结果。

如果卷积的变量是函数x(t)和h(t)，则卷积的计算变为

其中p是积分变量，积分也是求和，t是使函数h(-p)位移的量，星号*表示卷积。

残差：

残差是指实际观察值与估计值（拟合值）之间的差