Tesseract 4使用教程(一)

1.下载

tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/

其中文件名中带有dev的为开发版本,不带dev的为稳定版本,可以选择下载不带dev的版本。

2.双击安装

 一路next 到 如下界面

 选择需要的语言,选中后在安装过程会下载勾选的语言,可能需要翻墙,下载不下来只能单独下在

3.安装完成后,pip需要的python库pytesseract

pip install pytesseract

4.配置环境变量,将Tesseract-OCR的安装路径加到环境变量中

 5.配置TESSDATA_PREFIX环境,将Tesseract-OCR安装路径的tessdata加入到环境中,不然有可能会报错

 6.如果你在安装时没能成功安装勾选的语言包,可从如下地址下载

https://github.com/tesseract-ocr/tessdata

 中文简体,中文繁体

7.将语言包放到tessdata文件夹下即可

 8.修改pytesseract.py

tesseract_cmd = '本地的安装路径'

 9.重启一下

10.测试

from PIL import Image
import pytesseract
import cv2
img = cv2.imread("wz.jpg", cv2.IMREAD_UNCHANGED)
text = pytesseract.image_to_string((Image.open("wz.jpg")), lang='chi_sim')
print(text)
cv2.imshow("img", img)
cv2.waitKey(-1)

效果:

原文地址:https://www.cnblogs.com/answerThe/p/11435822.html