关于OCR，一些想法

OCR一般分为两种：

1，根据给定的字符特征集合，提取未知字符的特征进行匹配识别；（典型例子：GOCR）

2，不知道字符特征，但给出提取特征的规则，通过机器学习training来获取某个字符集的特征集，对未知字符进行匹配识别。；（典型例子：tesseract）

第一种方法简单，在某些场合很高效，但比较局限，字符集不能太大，比如汉字，不可能每个字符都去人工的找特征，只能是用在字符集较小的情况。第二种方法比较通用，可以应用于任何字符集，但是在前期训练的过程中必须人工教导，后期识别过程与第一种方法类似。