论文-Deep Cross-Modal Hashing

Deep Cross-Modal Hashing

关键词：cross-Modal， deep learning

因为cross-modal hashing的低存储和高效的查询能力，被广泛用于多媒体的相似度检索中。本论文提出了一个deep cross-modal hashing（DCMH），首次将feature learning和hash-code learning结合到同一个框架中。

DCMH的框架：

该框架包含两个deep Neural Network，一个是提取image的feature，另一个提取text中的feature。

CNN的结构为：

其中包含五个conv layer和三个fc layer，LRN表示加入了Local Response Normalization，

BoW的结构为：

根据上面的feature learning得到hash code，

其中DCMH的objective function是

最后多次实验，发现如果两个模态同一个类的训练样本的binary code设置为一致，会取得更好的效果。

learning method

采取了一种交叉学习的策略，同时对 X, Y 和B进行学习。保持X与Y的网络对B进行training，然后保持B的参数不变而对X与Y的网络进行training。

当固定Y网络和B时，对X网络进行优化：

当固定X网络和B时，对y网络进行优化：

当固定X，Y网络和时，对B进行优化：

实验效果：

个人感受：

用deep learning工具加入cross-modal这个领域，且第一次完成了end-to-end的框架的设计。