图片转文字(错误解决)

使用过程中都是错误,不是找不到训练数据,就是路径不对,还好最终解决

不用爬虫就可以图片转换文字了,爽~

下面是步骤,一步一步来就行了,规避了错误的发生

1、如果是几张图片可以在线转

  https://ocr.wdku.net/(这种在线的很多,也可以自己找)

2、如果是很多,可以用程序批量转

  软件环境:python3.5,pycharm

  安装 pytesseract,Pillow  可以在pycharm上搜索安装

  安装 tesseract-ocr     

    https://github.com/UB-Mannheim/tesseract/wiki

    这是非官方下载包,下载并安装4.0:  https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.0.0-alpha.20170804.exe

    安装时注意勾选简体中文,默认安装,安装完毕后,敲命令(看看装的怎么样了,支持什么语言):

    cd C:Program Files (x86)Tesseract-OCR

    tesseract

    tesseract -v

    tesseract --list-langs  #查看Tesseract-OCR支持语言

3、改文件:

  C:Python3Libsite-packagespytesseractpytesseract.py,找到这两行:

# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
tesseract_cmd = 'tesseract'

  改为这样:

# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
#tesseract_cmd = 'tesseract'
tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'

4、配置环境变量(根据你的安装目录来)

  path 中加入   C:Program Files (x86)Tesseract-OCR

  再建一个  TESSDATA_PREFIX  变量值是  C:Program Files (x86)Tesseract-OCR essdata

5、重启pycharm(很重要)

6、测试

from PIL import Image
import pytesseract
text = pytesseract.image_to_string(Image.open('ci.png'), lang='chi_sim')
print(text)

参考:

https://www.cnblogs.com/qq21270/p/7704952.html

https://blog.csdn.net/qq_14998713/article/details/78824859

https://blog.csdn.net/weixin_42183288/article/details/81327028

原文地址:https://www.cnblogs.com/51python/p/11266332.html