- tessdata/eng.freq-dawg
- tessdata/eng.word-dawg
- tessdata/eng.user-words
- tessdata/eng.inttemp
- tessdata/eng.normproto
- tessdata/eng.pffmtable
- tessdata/eng.unicharset
- tessdata/eng.DangAmbigs
How to use the tools provided to train Tesseract for a new language
转 http://hi.baidu.com/romeroad/blog/item/4aec7d4a2fc69a2808f7ef58.html
训练TesseractHow to use the tools provided to train Tesseract for a new language.说明
Tesseract 2.0具有充分的可塑性. 本文描述了具体训练过程, 提供了一些引导说明 可以用在任意的语言中, and what to expect from the results.
背景和限制
Tesseract 开始是为英语识别而编写的. 现在由于训练系统和识别引擎的改变他已经可以识别其他语言和 UTF-8 characters. Tesseract 2.0 能处理任何Unicode characters (coded with UTF-8), 但他能成功处理的语言还是有限制的, 所以请必须注意这些,然后再开始训练你的语言,不然只会让你失望
Tesseract 只能从左到右处理语言. 当你需要处理从右到左的语言是,输出文件是按照从左到右排列的. Top-to-bottom languages will currently be hopeless.
Tesseract i现在还不能处理阿拉伯文 ,.
Tesseract处理中文这种大字体集时可能会因变慢而不是很好用. 当字符超过 256 characters时,代码就需要相应改变一下.
核心算法是基于asii码的 ,所以对于一些语言中的特殊标点符号和数字可能无效
需要的Data 文件
To train for another language, 在子文件夹testdata里你需要创建8个文件 . The naming convention is languagecode.file_name Language codes follow the ISO 639-3 standard. The 8 files used for English are: