文字检测部分文章总结

一、论文:

     1.EAST——EAST: An Efficient and Accurate Scene Text Detector

     2.Fots——FOTS: Fast Oriented Text Spotting with a Unified Network

     3.RefineNet——RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation

     4..PixelLink——PixelLink: Detecting Scene Text via Instance Segmentation

二、内容:

    1.EAST:

   

       1)端到端的检测方式

       2)多层特征融合方式

    2.Fots:

     

    

       与EAST主要区别:

      1)检测+识别端到端,识别提高检测

      2)将特征融合方式改成了去卷积

      3)将图像放大到2560,裁剪块512->640,宽不变高度随机0.8-1.2scale

      4)用synth800k做预训练

    3.RefineNet:

   

   

      1)改了特征融合的方式

     4.PixelLink:

    

            1)基础网络用了VGG,收敛快

            2)score map用了两个channel

            3)预测周边是否是字,最后用opencv算法求最小外接矩形

            4)后期规则过滤

三、总结

     1)EAST这种端到端,先卷积再特征融合的直接回归方式预计会成为以后检测的主流。

     2)改进的点,无非在前置网络和特征融合方式上,其他就是数据集的处理。

     3)貌似这种方式已经突破不了发不了文章了。

原文地址:https://www.cnblogs.com/EstherLjy/p/8650055.html