tesseract-orc 合并识别结果

在实际使用 tesseract-orc 识别库的时候，初次制作的识别库很有可能识别率不太理想，需要后期慢慢补充

本文演示如何将多个修正过的box文件合并成一个识别库。

首先，需要图片样本.tif文件，位置文件.box ,只要有这两个文件在，就可以合并字典

假设已存在如下样品图片和修正过的box文件：

image.font.1.tif image.font.1.box

image.font.2.tif image.font.2.box

image.font.3.fit image.font.3.box

1、先生成相对应的 .tr 文件

tesseract image.font.1.tif image.font.1 nobatch box.train

tesseract image.font.2.tif image.font.2 nobatch box.train

tesseract image.font.3.tif image.font.3 nobatch box.train

2、提取字符

unicharset_extractor image.font.1.box image.font.2.box image.font.3.box

3、生成字体特征文件

新建 font_properties 文件（注意没有后缀名）把所有box文件对应的字体特征都加进去

font 0 0 0 0 0

4、执行如下命令

mftraining -F font -U unicharset image.font.1.tr image.font.2.tr image.font.3.tr

5、聚集所有.tr 文件

cntraining image.font.1.tr image.font.2.tr image.font.3.tr

6、重命名文件

将如下文件重命名，在前面增加字体的名称，这里我使用【CK】

unicharset

inttemp

normproto

pfftable

shapetable ---- 很多教程都漏了这个文件，不改这个文件创建识别库的时候会报错。

重命名后各文件名如下

CK.unicharset

CK.inttemp

CK.normproto

CK.pfftable

CK.shapetable ---- 很多教程都漏了这个文件，不改这个文件创建识别库的时候会报错。

7、合并所有文件生成一个大的字库文件

combine_tessdata CK.

打完收工