《python网络数据采集》读后感 第十章:图像识别和文字处理

1. OCR库:

a.  pillow

b. tesseract:

Tesseract 是一个 OCR 库,目前由 Google 赞助(Google 也是一家以 OCR 和机器学习技术

闻名于世的公司)。Tesseract 是目前公认最优秀、最精确的开源 OCR 系统。

c. numpy:

具有大量线性代数 以及大规模科学计算的方法。因为 NumPy 可以用数学方法把图片表示成巨大的像素数组, 所以它可以流畅地配合 Tesseract 完成任务。

2. 处理格式规范的文字:

原文地址:https://www.cnblogs.com/chengchengaqin/p/9517445.html