图像识别-身份证识别爬坑记录1

说明

本文主要为参考博客：【python 图像识别】python 身份证号码识别自己在进行实践过程中遇到的一些问题的记录。

实践环境

anaconda3+python3.6

macos

实践记录

1、在执行这段时候会提示没有reload模块，原因是博主使用python2写的，需要声明编码方式，而python3 中系统默认使用的就是UTF-8编码，所以需要注释掉。

2、在中间定义的几个函数中涉及print输出的，都需要把print后面的内容括号起来

3、TesseractNotFoundError: tesseract is not installed or it's not in your path

提示：tesseract 不在环境变量中或者没有安装

需要修改源码中的

tesseract_cmd = 'tesseract'

在运行代码的时候，提示没有pytesseract模块，然后安装了这个包，上面链接提示的这个文件理论上应该在这个包里面

在安装包中pytesseract.py中的35行位置

那问题是现在这个路径怎么修改呢？

作者修改好的内容，指定到的是一个exe结尾的文件，也提到需要安装这个tesseract-ocr软件

安装说明：https://github.com/tesseract-ocr/tesseract/wiki

上面提到tesseract提供类似API的功能去实现从图片中提取文字信息，所以这个软件还必须要进行安装。

我这里对应安装的是mac版，参考homebrew的安装方式

没有homebrew的童鞋欢迎参考官网进行安装，mac安装软件神器，用它官网的话来讲是 “The missing package manager for macOS”

安装好了，那么问题是，那么多文件夹，应该把路径对应到那个文件呢？没什么头绪，难道不用像windows系统那样指定 exe文件？

先不管对应到哪个路径，先在来试试安装完tesseract后执行py程序有什么变化

果然，可以跑出来了，不过证件号码没识别出来

在终端试一下执行

tesseract test1.png output

能识别一部分出来，不过效果有点差，身份证号码部分基本能识别出来，其他部分效果就很差了，估计是默认的语料库里面，没中文部分。

既然终端可以直接识别，为什么调用pytesseract.py无法进行识别呢？还是需要设置路径么？

修改一下pytesseract.py中的35行

tesseract_cmd = '/usr/local/Cellar/tesseract/4.0.0/share/tessdata/'

　提示：TesseractNotFoundError: /usr/local/Cellar/tesseract/ is not installed or it's not in your path