CRNN for Text recognition

CRNN 在文字识别上的优点:

对于序列类型的对象, CRNN所具有的优点:

CRNN 由 1. 卷积层 2. 循环层(BLSTM) 3. 转录层 (CTC) 构成

信息提取:

由卷积层从输入图片(需要缩放至同一高度)中读取信息.
从卷积层输出的特征图中提取出特征序列 (作者设计了一个网络层 — “Map-to-Sequence”) 作为循环网络的输入.
具体来说, 就是在特征图上从左到右按列 (每列固定为单个像素的宽度) 来生成特征序列的每个特征向量.
这样可行的原因: 卷积, 池化, 激活操作具有位置不变性, 故特征序列中每个特征向量按从左到右与输入图片上的感受野相关联.

给序列贴标签:
循环网络(BLSTM) 给特征序列中的每个特征向量预测一个标签分布(probability)

循环网络有三个优点:

转录:
转录就是把 RNN 做的每个预测转化为标签. 转录有两种模式: lexicon-free 和 lexicon-based.

标签序列的可能性(probability):
作者采用了传统的可能性定义 — Connectionist Temporal Classification (CTC)