Windows环境安装tesseract-ocr 4.00并配置环境变量

 第一步:
 官方安装包下载地址:download
     因为只包含英文语言包,如果需要其他语言包下载地址:download the appropriate training data
     并将语言包解压至tessdata目录。

最常用的简体字识别包:https://raw.githubusercontent.com/tesseract-ocr/tessdata/4.00/chi_sim.traineddata,也可以从上面的语言包下载地址获取各种你所需要的语言包

第二步:

直接执行下载好的tesseract-ocr-setup-4.00.00dev.exe(我的),下一步、下一步安装。其中




如果可以,也可以全部勾选,避免以后再单独下载字符库,其实我是全部下载,不过过程有点漫长,超级慢,我是隔夜安装好的。


第三步:配置环境变量

注意:我的系统是win7,其他系统应该差不多,跟配置java变量一样

复制你的安装地址,我的是安装在C:Program Files (x86)Tesseract-OCR,界面如下:



复制安装路径“C:Program Files (x86)Tesseract-OCR”,进入“控制面板系统和安全系统”,点击

“系统保护”(就是修改环境变量)


刚才的安装路径“C:Program Files (x86)Tesseract-OCR”添加到的PATH中

配置好了点击保存。

 

打开命令终端,输入:tesseract -v,可以看到版本信息



如果出现报错,估计是环境变量没配置好。

到这里,我们就算安装完成了,但是,我们的系统还是无法识别中文的,我们要去下载简体汉字、繁体汉字语言包(上文给了地址了),下载好之后放到安装目录的tessconfigs目录下即可。

补充:因为没有配置全局变量,无法跨盘执行数据转换,这里我们在环境变量那增加一个配置信息

系统变量—->新建:


增加一个TESSDATA_PREFIX变量名,变量值还是我的安装路径C:Program Files (x86)Tesseract-OCR;

命令行操作:

查看Tesseract-OCR支持语言
tesseract --list-langs
利用Tesseract-OCR识别
 tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]
如输入:

tesseract 1.jpg 1.txt -l chi_sim+equ+eng

然后回车

1.jpg是当前目录中的1.jpg图片

1.txt是指定结果输出到文本文件

-l是指定使用的包

chi_sim是中文识别包,equ是数学公式包,eng是英文包



原文地址:https://www.cnblogs.com/mxhmxh/p/9367677.html