机器学习笔记（photo OCR）

机器学习笔记（photo OCR）

photo OCR应用

1.介绍：光学字符识别，图片文字转为可编辑的文字。

2.步骤：（使用管道pipeline ）

识别出文本区域
字符分割
单个字符识别

3.识别出文本区域

收集长方形的图形作为训练集，表示是否是文字区域，训练算法。
在图片中使用长方形（不同大小的）滑动窗口进行扫描，对每个长方形使用训练的算法判读是否有文字，有的话则标记这个区域。
扩展文字区域，如果这个像素有文字，则周围10个像素都标记为有文字，方便后面处理。
根据实际情况选出复合要去的文字区域

4.字符分割

收集长方形的图形作为训练集，表示是否是字符的分割（中间可以画一条线），训练算法。
在文本区域图片中使用滑动窗口扫描，对每个长方形使用训练的算法判读是字符的分割，是的话则标记这个区域。
划分区域

5.单个字符识别

这个同样使用训练集进行处理。

6.人工合成数据

数据曲解
添加噪音

注意区别太小的改变不会产生作用，尽量使用区别大的。

7.上限分析Ceiling Analysis

应用在管道pipeline中：

确定当前系统的预测准确率。
从头开始，对每一步达到100%的准确率（可以使用人工），记录每步修改后，整个系统的准确率（就是确定，如果在这步中花费时间，是否会有不错的改进）。
从前面的记录中确定要对哪些步骤花费时间是值得的。

作用：当一个系统的准确路不满足要求时，确定哪一步的缺陷比较大，值的花费时间，改进后效果明显。

【推广】免费学中医，健康全家人

原文地址：https://www.cnblogs.com/sbaof/p/4145332.html