微信订阅号案例之一

目标：（1）了解图像字幕生成器如何使用编码器-解码器工作（2）知道如何使用Keras创建自己的图像标题生成器

最大的挑战是绝对能够创建一个描述，该描述不仅必须捕获图像中包含的对象，而且还必须表达这些对象之间的相互关系。

如何从头开始创建图片说明生成器，开始之前的先决条件：1、Python编程 2、Keras及其模块 3、卷积神经网络及其实现 4、RNN和LSTM 5、转移学习

问题陈述的处理:

使用编码器-解码器模型解决此问题,

(1)编码器模型将图像的编码形式和文本标题的编码形式结合在一起，并馈送到解码器

(2)模型会将CNN视为“图像模型”，将RNN / LSTM视为“语言模型”，以对不同长度的文本序列进行编码

(3)将两种编码所产生的向量合并并由密集层进行处理，以进行最终预测

(4)创建一个合并体系结构，以使图像不属于RNN / LSTM，从而能够使用来自单独训练集中的图像和语句来训练处理图像的神经网络部分和分别处理语言的部分。

(5)合并模型中，可以在每次预测之前将图像的不同表示形式与最终RNN状态进行组合。

图像字幕方法的训练，测试和评估.

数据集在各种角度上都不同，例如图像数量，每个图像的字幕数量，字幕格式和图像大小.

三个数据集：Flickr8k，Flickr30k和MS COCO数据集被广泛使用。在Flickr8k数据集中，每个图像都与五个不同的标题相关联，这些标题描述了图像中所描述的实体和事件。通过将每个图像与多个独立产生的句子相关联，数据集捕获了一些可用于描述同一图像的语言多样性。

在Flickr8k数据集中，每个图像都与五个不同的标题相关联，这些标题描述了图像中所描述的实体和事件。通过将每个图像与多个独立产生的句子相关联，数据集捕获了一些可用于描述同一图像的语言多样性。

Flickr8k体积小巧，可以使用CPU在低端笔记本电脑/台式机上轻松进行培训，因此是一个很好的入门数据集。我们的数据集结构如下:

参考：https://zhuanlan.zhihu.com/p/95065951