细粒度分类——嵌入LSTM辅助搜索

最近发现有被组织抛弃的危险,决定改过自新,好好工作。
17CVPR的ORAL,Fine-Grained Recognition as HSnet Search for Informative Image Parts。主要的工作是想通过搜索的方式发现更好的能够对分类结果产生帮助的region(s),结果只是报道了competitive。novel的地方在于把LSTM放了进来,用于辅助搜索的迭代过程。
这幅图很能说明事情:

Figure 1. Illustration of the scheme
图中底部的`CNN Map`上的*b-box*的数量是固定(此处为$k$个)的,评分系统($mathcal{H}$)的输入是ROI特征块经过Pooling后的结果,输出是每个*b-box*对应的分数$phi$,$l^{i}$系列是当前*k*个*b-box*的坐标信息。产生的`offset`($o^{i}$系列)用于更新*b-box*。最后时刻(迭代终止时)的*b-box*产生的*ROIP*将会被用于产生最终分类结果。

引入LSTM的工作,对比梯度优化中的动量法,看起来是对已经历的搜索过程进行更高级的综合。但由此产生的一个疑问是,就搜索过程来看,LSTM的作用应该是辅助进行搜索方向的判断,如果认同这种观点,那么一种合理的配合措施是,将每个b-box附近的box对应的ROIP送入LSTM中进行考察。
从paper上看,相关的工作只是在初始化时进行了:

Figure 2. Initial b-boxes
可能因为严格实施的系统开销过大吧,可能还有性价比的原因 :)
原文地址:https://www.cnblogs.com/chenyliang/p/8215373.html