lesson8-图像问答-小象cv

QA即图像问答：覆盖最全面的AI,ai完备性

动态模型：不同任务需要不同模型 or 不同细分任务需要不同模型参数

数据集：

1）VQA，显示图片+抽象场景；每个问题给10个不同答案；含有无图片答案（考察图片和问题的客观性）

为了降低语言偏置、不均衡（language priors）-》一个问题对应2个图片，予以场景相似但是答案不同 ~ 即有时候由于主观想法，对一场景的想法可能大多数都是yes，所以给出对立的图片可以降低偏置问题，只有一个人两个图片都能回答对才算正确，而不是蒙对的

2）Visual7W

图像问答模型：

基本模型结构--》

cnn提取图片特征~vgg倒数第二个全连接层4096输出

rnn提取问题特征~lstm最后一个时刻的隐含状态和记忆状态（一般的是只含记忆状态的）

文本特征embedding~onet-hot编码是高度稀疏的 ~矩阵乘映射，共享特征空间-》变为稠密的；全连接层降维

特征映射：2个1024维的全连接层

特征融合：点乘 2*1024-》1024，图片信息和文本信息融合

特征推理：1个全连接层，1个softmax层 ~1024-》1000，因为答案集是1000，比如频率低于多少的会被滤掉 ~拖尾效应都扔掉

QA的attention机制类似image caption即图像理解：

图像特征~vgg，问题特征~lstm

堆栈注意网络stacked attention network：查询语义相关区域，滤除噪声区域，多步推理，精华查询 ~ cnn/lstm提出问题特征之后，在“图像不同位置的特征中找相似，并赋予权重，拿到权重相加后的综合特征，并送到下一时刻得到增强特征，再送到下一网络做推断

模型增强之注意机制的基本模型结构--》

图片模型结构~vgg，输入488*488，输出最后一个池化层，14*14，特征维数512

图片特征embedding模块~单层神经网络，将图片特征映射到共享特征空间

问题模型结构~lstm，不同单词对应不同时刻，输出最后时刻的隐含状态

文本特征embedding模块，将one-hot编码映射到共享特征空间

堆栈注意网络~不断增强和答案相关区域的特征权重；部分二图片区域特征权重相加后得到”场景特征“；场景特征和问题特征相加后，得到增强特征；一般两步推断性能最好即first/second attention layer，如first关注谁带了帽子，second关注到带的什么帽子

模型增强之外部知识库knowledge base：

MCG算法拿到image的proposals，每个proposal区域拿到标签和属性概率-》max pooling->属性特征

属性特征-》lstm-》5个caption句子

属性特征+内部特征+知识特征，串接合并

官方实验：

vgg+lstm ：是选择的baseline