机器学习笔记(photo OCR)

photo OCR应用

1.介绍:光学字符识别, 图片文字转为可编辑的文字。

2.步骤:(使用管道pipeline )

  • 识别出文本区域
  • 字符分割
  • 单个字符识别

3.识别出文本区域

  • 收集长方形的图形作为训练集,表示是否是文字区域,训练算法。
  • 在图片中使用长方形(不同大小的)滑动窗口进行扫描,对每个长方形使用训练的算法判读是否有文字,有的话则标记这个区域。
  • 扩展文字区域,如果这个像素有文字,则周围10个像素都标记为有文字,方便后面处理。
  • 根据实际情况选出复合要去的文字区域

4.字符分割

  • 收集长方形的图形作为训练集,表示是否是字符的分割(中间可以画一条线),训练算法。
  • 在文本区域图片中使用滑动窗口扫描,对每个长方形使用训练的算法判读是字符的分割,是的话则标记这个区域。
  • 划分区域

5.单个字符识别

这个同样使用训练集进行处理。

6.人工合成数据

  • 数据曲解
  • 添加噪音

 注意区别太小的改变不会产生作用,尽量使用区别大的。

 7.上限分析Ceiling Analysis

应用在管道pipeline中:

  • 确定当前系统的预测准确率。
  • 从头开始,对每一步达到100%的准确率(可以使用人工),记录每步修改后,整个系统的准确率(就是确定,如果在这步中花费时间,是否会有不错的改进)。
  • 从前面的记录中确定要对哪些步骤花费时间是值得的。

作用:当一个系统的准确路不满足要求时,确定哪一步的缺陷比较大,值的花费时间,改进后效果明显。

原文地址:https://www.cnblogs.com/sbaof/p/4145332.html