文章阅读：A survey of techniques for human detection from video[2006]

1. 摘要：

human检测的方法分类：需要预先处理的方法；直接检测的方法。

文章在各种全身检测和分类的方法中选择了部分代表性论文来论述。并不致力于做到综合所有，也不关注人脸检测、手势检测或者行为分类等专业领域。

2. 总述：

我们的问题是：从给定的视频或者图像中找到人。相关文献中的技术可以分为两类：需要背景减去或者分割的技术；不需要预处理可以直接检测human的技术。

背景减去技术：从视频中找到前景对象，然后分类为人、动物、车辆等。基于形状、颜色、动作或其他特征。本文论述如下技术：

直接检测技术：从图像或视频块中提取特征，并分类为人或非人。还可以根据用来区分人和非人的特征来对这种技术进行进一步分类。这些特征包括：形状（以轮廓或者其他描述的形式）、颜色（肤色检查）、行为、或这些特征的组合。本文论述的文章列表如下：

3. 使用背景减去的技术：

3.1 Wren et al. [1997]

实时Pfinder系统以检测和跟踪人。背景模型是YUV空间每个像素的高斯分布，并且背景模型持续更新。人使用空间和颜色多斑点（multipe blobs）的高斯模型。随着斑点动态变化，它的空间参数也通过卡尔曼滤波方法进行持续评估。因此，对于每个像素，该方法评估其相对于背景或者斑点的相似性。每个像素都根据最大后验概率（maximum a posteriori MAP）分配到斑点或者是背景内。此后，斑点和背景的统计模型就会被更新。人物斑点（person blobs）模型的初始化使用轮廓检测方法，以便定位头、手、足。手和脸部斑点优先使用肤色进行初始化。该方法致力于找到单个人，并具有几个特定假设的情况。

3.2 Beleznai et al. [2004]

处理输入帧和（多模式概率分布的）参考帧的强度差异。模型检测通过均值移动计算来进行。

3.3 Haga et al. [2004]

本文中，运动物体被分类为人是基于图像运动的空间唯一性（作者成为F1准则）、人运动的时间唯一性（F2）、时间运动的连续性。首先，运动物体通过背景减去方法被检测出来，然后F1、F2、F3准则被评判。F1用来衡量局部运动的均一性。F2相当于定义时间方向。一个线性分类器从F1-F2-F3空间中区分出人和非人的数据，然后用来对新数据进行分类。

3.4 Eng et al. [2004]
本文提供了一个联合的方法：基于背景减去的自下而上的方法，和人形模型的自上而下的方法，用来解决部分被阻挡的或者重叠的人的检测问题。首先用颜色概率分布的多变量高斯模型来建立基于区域的背景模型。首先使用k均值聚类方法划分方块，然后通过简单的背景框建立背景模型。新输入图像的像素会与背景模型进行比较以分类为背景或者前景。前景中确实的部分通过基于颜色的头部和身体检测进行补充。之后，假设头部和身体部分为两个椭圆的简单模型用来做贝叶斯计算，所有的头部和身体对检测通过MAP（最大后验概率）方法。论文的实验数据是应用在泳池监视上。

3.5 Elzein et al. [2003]
本文的方法：在通过帧差异选择的特定区域上使用光流法（optic flow）检测出运动物体。光流速度用来计算碰撞时间。为了判定选定方框区域是否是一个人，作者训练出了基于小波特征和模板匹配方法的分类器。方法没有实时特性。

3.6 Toth and Aach [2003]

本文提出的方法首先使用框架差分、基于窗口的绝对差分(SAD)聚合和自适应阈值来执行光照不变的背景减法。作者使用了吉布斯-马尔可夫随机域创造空间变化的阈值，从而使前景形状得到平滑。前景斑点使用连接元件进行标识，傅里叶变换用于边界形状标识。用傅立叶描述符作为输入，用分类结果作为输出。把这些斑点从车辆或其他物中分类成人类，是用四层前馈神经网络实现的。使用OpenCV可实现接近实时的性能。

3.7 Lee et al. [2004]

在本文中，基于形状的物体分类方法是通过使用基于帧差分法的背景减法。

3.8 Zhou and Hoang [2005]

提供了一种在视频中检测和追踪人的方法。首先，背景减去方法检测前景对象（涉及到连续帧的时间差异）。然后，使用两种方法进行分类：第一种是密码本方法，第二种涉及到对象跟踪，如果对象可以被成功跟踪，则认为是人。
3.9 Yoon and Kim [2004]

本文提出了一种用于人体检测的复合方法，它使用皮肤颜色和运动信息首先找到候选前景对象用于人类检测，然后使用更复杂的技术对对象进行分类。

3.10 Xu and Fujimura [2003]

作者提出了一种新颖的方法来检测行人，这在室内环境很实用。他们使用一种新的方案，这种发难可以在得到图像信息的同时得到深度信息。从深度图像中，具有特定深度值的图像部分被选出。通过预处理这些图像，可以去除背景。
3.11 Li et al. [2004]

作者描述了面向对象的尺度自适应滤波（OOSAF）方法。用于查找感兴趣的对象并将其应用于解决人的检测和人群检测。OOSAF方法使用了从立体摄像机的装置中获得的视差图来估计将执行的滤波器的规模。

3.12 Han and Bhanu [2003]

在本文中，作者建议使用红外相机配合标准相机来检测人。两种相机检测同一个场景。彩色相机和红外相机都通过高斯概率分布模型进行背景减去。两个相机的前景都通过分级遗传算法进行注册，两个注册结果将被融合得到最终估计。
3.13 Jiang et al. [2004]

该方法基于红外图像和普通图像的融合。在红外图像中，因为皮肤温度，人表现出特有的特征，但是红外图像一般对比度很低，可以跟不同图像融合以得到更好的检测结果。
4. 直接检测

4.1 Cutler and Davis [2000]

本文的技术方法致力于检测周期性运动，可用于检测典型的生物运动模式，如行走。移动相机所获取的视频需要稳定。帧间差和阈值用来检测运动区域。形态学方法用于获得一些列运动物体。每个分隔开的对象按时间进行分配（去掉平移后，其尺寸随时间变化保持不变）。对象的时间自相关矩阵通过相似度量来计算（如相关计算）。基于短时傅里叶变化的时间频率分析和自相关计算用于周期性检测和分析。晶格拟合方法用于分类人、动物和车辆。实时系统。

4.2 Utsumi and Tetsutani [2002]

本文使用了这个事实：对于所有人来说，身体不同部位的相对位置是一致的，虽然像素值可能会因衣服和照明为变化。该技术使用了一种结构，称之为距离图（distance map）。通过分割人的图像为MxN块来得到。对于两个块来说，MNxMN的距离矩阵（distance matrix）可用于计算二者之间颜色分布的距离。然后，使用这种从大量人和非人数据中得到的距离图，可以建立一个基于距离图的不同类型对象的统计模型。

4.3 Gavrila and Giebel [2002]

本文致力于移动车辆上的相机这一有挑战性场景。运用基于斜面距离的形状模板匹配。通过一系列模板建立一个多层树模板，可以有效匹配。可以通过聚类分割自动建立多层树，每一个聚类都由一个原型表示。匹配时，从根开始，直到叶，以获得基于斜面距离的最佳匹配。如果距离比阈值大，搜索将不会继续到子节点。作者同时运用了一个基于神经网络结构的二次验证，用于对检测出的矩形区域。

4.4 Viola et al. [2003]：VJ detector

本文使用通过形状和运动特征训练建立的分类器来直接检测图像或者视频中的人。静态检测器使用图像做输入，使用积分图有效的提取出矩形特征。分类器的每个阶段都是通过前部训练阶段的真假值来训练，使用AdaBoost方法选择弱分类器。

4.5 Sidenbladh [2004]

这篇论文关注的是人类运动模式的健壮检测因为它们相对独立于外表和环境因素。该技术基于人和非人样本的收集，以及光流计算。一个支持向量机（SVM）和一个径向及函数核在光流模式中进行训练以得到分类器。方法不适合于检测部分阻挡的人。

4.6 Dalal and Triggs [2005]：HOG detector

文章的重点部分是：使用梯度直方图作为特征空间来建立分类器。它使用如下事实：一个物体的形状可以通过局部强度梯度或者边缘方向的分布很好的表示。

5. 总结：

总的说，最近的文章显示，趋势是使用直接处理方式而不是需要背景减去预处理的方法。

就文中主要部分做翻译。

限于水平，如有错误欢迎指出。