Geometric Lpnorm Feature Pooling for Image Classification

by Jiashi Feng, Bingbing Ni, Qi Tian and Shuicheng Yan.

Average pooling: 统计每个visual word在图像中的出现次数,假设visual work $k$ 在一幅图像位置 $m$ 响应记为 $v_m^k$,则所有 $M$ 个图像位置的响应为一个 $M$ 的向量 $\textbf{v}^k$

\[f_a(\textbf{v}^k)=\frac{1}{M}\sum_{m=1}^M v_m^k\]

本文方法基于每个visual word的位置分布能够反映出类别信息的假设,在pooling的时候考虑了visual word的位置信息

\[f_g(\textbf{v}^k;\textbf{w}^k)=\sum_{m=1}^Mw_m^kv^k\]

对于每个类别,每个visual word都有一个位置权重map $\textbf{w}^k$,这是作为模型参数有one-vs-all方法学出。当 $\textbf{w}^k$ 所有元素都相等时,则退化为average pooling

假设:For images from a specific class, their visual features indexed by the same visual word often share similar spatial distribution.

原文地址:https://www.cnblogs.com/kuiyuan/p/2167663.html