文字检测部分文章总结

一、论文：

1.EAST——EAST: An Efficient and Accurate Scene Text Detector

2.Fots——FOTS: Fast Oriented Text Spotting with a Unified Network

3.RefineNet——RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation

4..PixelLink——PixelLink: Detecting Scene Text via Instance Segmentation

二、内容：

1.EAST：

1）端到端的检测方式

2）多层特征融合方式

2.Fots:

与EAST主要区别：

1）检测+识别端到端，识别提高检测

2）将特征融合方式改成了去卷积

3）将图像放大到2560，裁剪块512->640，宽不变高度随机0.8-1.2scale

4）用synth800k做预训练

3.RefineNet:

1）改了特征融合的方式

4.PixelLink:

1）基础网络用了VGG，收敛快

2）score map用了两个channel

3）预测周边是否是字，最后用opencv算法求最小外接矩形

4）后期规则过滤

三、总结

1）EAST这种端到端，先卷积再特征融合的直接回归方式预计会成为以后检测的主流。

2）改进的点，无非在前置网络和特征融合方式上，其他就是数据集的处理。

3）貌似这种方式已经突破不了发不了文章了。