Geometric Lpnorm Feature Pooling for Image Classification

by Jiashi Feng, Bingbing Ni, Qi Tian and Shuicheng Yan.

Average pooling: 统计每个visual word在图像中的出现次数，假设visual work $k$ 在一幅图像位置 $m$ 响应记为 $v_m^k$，则所有 $M$ 个图像位置的响应为一个 $M$ 的向量 $\textbf{v}^k$

\[f_a(\textbf{v}^k)=\frac{1}{M}\sum_{m=1}^M v_m^k\]

本文方法基于每个visual word的位置分布能够反映出类别信息的假设，在pooling的时候考虑了visual word的位置信息

\[f_g(\textbf{v}^k;\textbf{w}^k)=\sum_{m=1}^Mw_m^kv^k\]

对于每个类别，每个visual word都有一个位置权重map $\textbf{w}^k$，这是作为模型参数有one-vs-all方法学出。当 $\textbf{w}^k$ 所有元素都相等时，则退化为average pooling

假设：For images from a specific class, their visual features indexed by the same visual word often share similar spatial distribution.