图片转文字（错误解决）

使用过程中都是错误，不是找不到训练数据，就是路径不对，还好最终解决

不用爬虫就可以图片转换文字了，爽~

下面是步骤，一步一步来就行了，规避了错误的发生

1、如果是几张图片可以在线转

　　https://ocr.wdku.net/（这种在线的很多，也可以自己找）

2、如果是很多，可以用程序批量转

　　软件环境：python3.5，pycharm

　　安装 pytesseract，Pillow 可以在pycharm上搜索安装

　　安装 tesseract-ocr　　　　　

　　　　https://github.com/UB-Mannheim/tesseract/wiki

　　　　这是非官方下载包，下载并安装4.0：　　https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.0.0-alpha.20170804.exe

　　　　安装时注意勾选简体中文，默认安装，安装完毕后，敲命令（看看装的怎么样了，支持什么语言）：

　　　　cd C:Program Files (x86)Tesseract-OCR

　　　　tesseract

　　　　tesseract -v

　　　　tesseract --list-langs　　#查看Tesseract-OCR支持语言

3、改文件：

　　C:Python3Libsite-packagespytesseractpytesseract.py，找到这两行：

# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
tesseract_cmd = 'tesseract'

　　改为这样：

# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
#tesseract_cmd = 'tesseract'
tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'

4、配置环境变量（根据你的安装目录来）

　　path 中加入 C:Program Files (x86)Tesseract-OCR

　　再建一个 TESSDATA_PREFIX 变量值是 C:Program Files (x86)Tesseract-OCR essdata

5、重启pycharm（很重要）

6、测试

from PIL import Image
import pytesseract
text = pytesseract.image_to_string(Image.open('ci.png'), lang='chi_sim')
print(text)

参考：

https://www.cnblogs.com/qq21270/p/7704952.html

https://blog.csdn.net/qq_14998713/article/details/78824859

https://blog.csdn.net/weixin_42183288/article/details/81327028