Paper阅读小结

阅读了近一个月的paper了，得回头好好看看了：

Detection of Human Actions from a Single Example

其中paper“Training-Free, Generic Object Detection Using Locally Adaptive Regression Kernels”为其期刊版

关键点：

1，提出一种衡量局部时空特性的度量；

2，通过PCA对所得度量进行主成份提取；

3，通过MCS求query与target的相似性：RV；

4，对RV所得的值通过经验数据进行分析（与两个阈值对比）。

Multiclass Object Recognition with Sparse, Localized Features

其中paper“Object class recognition and localization using sparse features with limited receptive ﬁelds”

关键点：

1，主导思想为HMAX即层次最大化模型；

2，在HMAX模型中的改进：sparsification、lateral inhibition；

3，将SVM对权重比高的特征进行训练。

An Experimental Comparison of Min-Cut/Max-Flow Algorithm for Energy Minimization in Vision

关键点：

在源点与汇点均使用广度优先搜索

The chains model for detecting parts by their context

关键点：

1，通过SIFT提取特征；

2，对特征进行选择（兴趣点相邻需保持一定尺度）；

3，定义chain模型，并运用贝叶斯概率理论进行概率计算；

4， Full Object Detection 则将其退化成类似于STAR的模型。

Action Recognition using Context and Appearance Distribution Features

关键点：

1，检测兴趣点，并得到Multi-scale 时空上下文特征（即时空分布特征）和局部视频（此处的局部视频，即为兴趣点分布的XYT立体）分布（对其进行PCA降维）；

2，运用AFMKL将时空上下文特征与局部特征分布进行融合；

3，计算其得分，并选出最优解。

Joint Segmentation and Classiﬁcation of Human Actions in Video

关键点：

1，与一般的先segment图片再进行Action detection不同，本文将segment与classify结合在一起，从而达到更快速的效果；

2，有监督的训练：运用SVM训练样本（视频），提取出含有时空特征的库（特征选取很巧妙）；

3，动态规划进行segment视频，通过得到的score进行取最优解。

Real-Time Human Pose Recognition in Parts from Single Depth Images

关键点：

1，采用深度图像，可以更好的模拟人眼；

2，一个特色：通过现实数据，然后运用机器合成图像（500k），并选出100k作为所需图像（保证两两图像之间的距离至少大于5cm）；

3，训练，通过body part标记（深度图像里的特征）、骨骼点位置推算；

4，通过随机化决策森林得到Joint position。

Optimal Spatio-Temporal Path Discovery for Video Event Detection

关键点：

1，对路径连通条件进行限制；

2，对所有路径的discriminative score进行计算，运用“最优路径算法”。

Robust Real-Time Face Detection

关键点：

1，运用了一种新奇的图像表示方法，“integral image”；

2，分类器使用adaboost分类器；

3，多种分类器的综合应用“cascade”模型；

4，主要特点是，先用一种可以得到含有99%人脸的算法，使数据量将为原来的50%，然后在对含有人脸的部分运用“cascade”式的分类器运用。

Action Recognition with Multiscale Spatio-Temporal Contexts

关键点：

1，运用bag of words方法；

2，提取特征->局部特征分析（读取XYT三个方向上的上下文特征）->综合分析特征（integration）->MKL（在文中有详细流程图）。

Baby Talk: Understanding and Generating Simple Image Descriptions

关键点：

将一幅图片运用一句话表示，其中包括：名词、动词、形容词。

Learning Context for Collective Activity Recognition

关键点：

当检测到的目标为同样的动作时，可通过crowd中其他人的位置与动作判断目标的动作。

A Unified Framework for Locating and Recognizing Human Actions

关键点：

对deformable part进行训练，并将其与input video进行score，然后通过score对兴趣点进行分析及SVM分类。

Human Action Recognition by Learning Bases of Action Attributes and Parts

关键点：

通过名词+动词方法，通过识别基本parts来判断动词，从而得到图片内容及action

以后将会接着读下去，paper看多了起码能开阔视野，最关键的尤其要好好掌握程序的编写。