机器学习（2）自动生成图片描述

近年来很多机器学习研究者开始尝试从图片中挖掘信息，自动生成该图片的描述：

Google Research 在2011年发布正在开发的新技术，声称能侦察图片，再为图片作出文字描述：该新技术结合了计算机视觉技术（computer vision）和自然语言处理（natural language processing），先以卷积神经网络（Convolutional Neural Network，CNN）技术对影像进行分析，提取影像中的信息，再由递归神经网络（Recurrent Neural Network，RNN）产生文字。

这项工作在2010年以后就已经开始有人研究：

第一篇是CMUAbhinav Gupta的CVPR2009的Oral《Understanding Videos, Constructing Plots - Learning a Visually Grounded Storyline Model from Annotated Videos》通过AND-OR的图模型来叙述视频里面正在发生的运动的各个动作。

第二篇是UIUC的Ali Farhadi写的，发在ECCV2010的poster《Every Picture Tells a Story: Generating Sentences for Images》：通过建立图像到已经人工标记的句子的连线，来给图像标注句子。

第三篇是《Corpus-Guided Sentence Generation of Natural Images》，使用语料集增强系统功能，基本处理步骤：

　　（1 ）从图片中提取object

　　（2 ）利用corpus提取出verbs，scenes，prepositions (Syntactic information)

　　（3 ）利用HMM计算最可能出现的object，verb，scene，preposition

　　（4） Generate sentence

开源工具下载：

http://blog.csdn.net/huangxiongbiao/article/details/41820371

Reference:

http://info.xitek.com/news/201411/20-165409.html

http://www.zhizhihu.com/html/y2011/2935.html

机器学习（2） 自动生成图片描述

机器学习（2）自动生成图片描述