传统OCR的字符切割与识别

英文字母与阿拉伯数字:连通性好,切割准确

汉字:对于左右结构的字切割效果不好,也是因此现在OCR没有到100%识别率的原因之一。

    当然可以考虑汉字是等宽度的,对于纯中文文本有效。但是当中英文混合的时候效果也不行

    传统的方法是先识别,然后进行后处理。

传统的文本识别过程:考虑倾斜及噪声

  1.行检测(水平切割)

  2.字符检测(行内的竖直切割)

  3.字符识别

  4,.后处理(如左右结构错误)

原文地址:https://www.cnblogs.com/Henry-ZHAO/p/12867821.html