国税总局全国发票查验平台验证码识别，98%准确率

全国增值税发票查验平台验证码识别

关键字：发票查验验证码识别;发票查验验证码;发票查验验证码识别; 国税验证码; 国税验证码识别; 国税验证码识别;税务验证码识别;

7.14 更新

后来想想94不好看，就跑到96.7%了，测试次数为一千个官网请求，这样又是全网最高识别率。
在这里插入图片描述

7.13 更新

由于没有更高的需求，中文字符集训练过于耗时，GPU资源也不能一直用来跑这个，决定停止训练，目前版本官网实测5千次请求，94.3%准确率。

7.12 更新

最新的思路：样本生成器自动调参的方法，当然了写生成器需要有一定的技术含量，需要弄清楚哪些是变量，CSDN有位大佬写过python版本的生成器，我下载来生成了一波，发现相似度比我简书放出的钓鱼版本还低hhhh，通过预留参数接口基于给出的一张样图，生成各种参数的生成样本，自动对比生成样本和给定对照样本的相似度，取最佳参数即可获得官网算法的最佳参数，调参成本也就生成w级别的样本即可找出最佳参数，对于计算机而言1分钟不到。这样只要掌握的通用生成器，只要在一定范围内更新都不是问题。此方法过于偏门，其实就算公开了思路，但是能写出来的人估计也没几个。有钱的大公司每次更新无脑去人工打码采集样本就好了，小公司还是不要做什么发票查验了，实力劝退。

7.6 更新

由于官网会测试本接口，对生成参数进行算法微调，不论是字体样式，颜色配比，字符集等等都针对这CSDN的两篇文章的生成器做了对抗，由于之前训练的时候尽可能考虑到模型的泛化能力，测试接口识别率降比不大，目前仍有90%的识别率，为了保证模型的持续抗更新能力，目前在线接口已不再进行更新，新的模型能更好的对抗和适应各种参数的更新，后续心情好或会开放最新的防更新思路，如何提高模型的泛化能力，最新接口请直接联系我，白嫖勿扰。

6.19 更新

有人说我文章没有干货只有思路，这里我分享一下源码，训练及部署的教程：
https://www.jiqizhixin.com/articles/2020-06-11-13

至于国税总局的发票查验平台JS这块的逆向可以参考：
https://blog.csdn.net/qq_35228149/article/details/106818057

请认真看完这段话再往下看：

1）这里先解答一下100万样本怎么来的：首先样本生成到做基础模型再到逆向JS对接官网采集再针对性的微调参数，再用新的参数生成样本，做模型。如此重复这个过程花费了不少时间精力。

有人质疑为什么我要做这么多遍重复劳动，是的，如果你能保证写得参数和官网图片得参数一致，可以只需要生成一次，但这是不可能的，肉眼以为得相似对于依据像素观察图片的机器而言，有天壤之别，机器的泛化能力没有你们想象的万能。生成样本要随时遭受0识别率的社会毒打。对这方面有误区的需要好好再了解一下深度学习——图像识别的原理。钱多的各位可以用最直接的方法，直接打码，不过花费至少五六千元起。

2）我分享思路，是想告诉各位量力而行，不少人私信我问我卖不卖，说老板预算只有几百。心里一阵凉，在老板们看来，你们未来一个月以上的劳动只值几百，我不赞同同为算法岗的各位把时间浪费在做标注上，做算法的各位应该更专注于算法本身。技术分享的意义重在分享技术和思路，不要和白嫖技术成果混淆了。

3）其实老板真心想做，花钱打码或找人标注就完事了，一分钱都不舍得花让你标注的老板首先严重低估你的劳动价值，轻易就让一个算法工程师或爬虫工程师做低效率的劳动，缺乏资源，如果连训练的机器都没有，少说得多花费一个月时间，光薪资成本都不止打码的花销了。这样的老板不懂得计算取舍成本，因小失大，公司想要盈利是比较困难的，前途渺茫，其次，不了解员工真正的价值，不考虑员工的未来发展，他们的目的只是纯粹的 “劳动力压榨” 。请开发者们认清这样的领导，这是双输局面。

验证码分析

验证码地址：
https://inv-veri.chinatax.gov.cn/index.html

如图所示：图像验证码，识别指定颜色的文字。
在这里插入图片描述

识别思路

首先有几条道路可以通向罗马，这里不分先后优劣一一讲述。

颜色提取的思路，可以采用HSV/K-means聚类进行颜色的分离提取：效果如下：

弊端显而易见，会有较大的特征丢失，识别率有较大的提升瓶颈，经过测试，中英文+汉字的识别率在90%左右。
不分离颜色的思路，该方案有两种处理方法：

（1）同时预测颜色和字符内容，这种方法看起来比较正统，但是成本较高，需要标注每张图的颜色和字符内容，这个要求有多高呢，一般的打码平台是无法提供这样的结果的，打码平台只返回对应颜色的内容，只能人工标注，那么需要多少样本呢？笔者训练的识别率98的模型用了100w左右的样本。一张这样的样本标注假设需要0.1元，那么100w样本需要10w标注费用，假设0.01元，也要1w的标注费用。但是验证码高质量的人工标注几乎是不存在的，因为很多样本，人眼的识别率是不如机器的，总体标注的准确率大概也只能在85左右。看起来并不可取，有一种节约成本的办法，可以通过算法生成样本，但是呢，生成的识别率英文数字还可以，中文的识别率就低的可怜了。附上生成方法：https://www.jianshu.com/p/da1b972e24f2

（2）每个颜色分别训练一个模型， 这种方法看起来有点蠢，但是确实比较合适有效的办法了，可以轻松借助打码平台的返回结果标注样本。需要的颜色可以通过官网提供的字段取到，返回结果通过打码平台识别得到，这样一组合，样本就有了。这种方法的成本相对较低，样本数不变的前提下，打码价格低于人工标注的成本。但是笔者训练的是一种颜色的样本用了100w。每个颜色分别训练这样成本还是下不来。四种颜色就是500w样本。官网的每次获取图片的时候颜色随机出现的概率也不一定是1/4。

（3）把所有颜色都通过颜色变换为一种颜色，整体思路同（2）。如下图，笔者将黑色转换为红色。我们只需要训练红色的图片：蓝转红、黄转红、黑转红，样本成本只有采集一种颜色的成本。看起来是目前位置最佳的方案了，事实也是如此的。但是呢，100w的总样本量对于普通人来说也是一笔不小的花销，即便有了样本能做出来也需要花费不少的时间和精力。

有些算法工作者可能会低估样本的实际需求量，3.6k分类，中文字体小，容易混淆相似的字多，不同的角度重叠干扰都会大大增加，过于复杂的网络对性能的要求也高，为了平衡性能和准确率，足够数量的样本支撑是必须的，100w样本量其实不大，一点都不要惊讶

不过采集样本不是单纯的接打码平台就完事了，需要经过官网判断，只有通过验证，正确的样本才保存下来。这样有效的样本对提高识别率才有帮助。
在这里插入图片描述

实验成果

在这里插入图片描述

笔者实时对接官网对实验模型进行检验，结果如上图，测试了200+次，识别率达到98%以上，识别速度的话，CPU大概5-8毫秒左右，模型大概3mb。

附上接口，为了防止滥用，接口每天只支持请求500次：

请求地址	Content-Type	参数形式	请求方法
http://152.136.207.29:19812/captcha/v1	application/json	JSON	POST

具体参数：

参数名	必选	类型	说明
image	Yes	String	Base64 编码
param_key	No	String	颜色，redluegreenlackyellow

请求为JSON格式，形如：
{"image": "iVBORw0KGgoAAAANSUhEUgAAAFoAAAAjCAIAAA...base64编码后的图像二进制流", "param_key ": "blue"}

注意：图片只能是 90x35 尺寸的原图，请勿截图

也请勿使用 模拟浏览器 的截图获取，如果不知道如何使用协议获取验证码，可以参考这个文章的方法：
https://blog.csdn.net/kerlomz/article/details/106793781
若对最新的JS逆向感兴趣可以关注作者。

若以上方法都不清楚，可以【另存为图片】，本模型针对【原图】训练。
截图无法识别，不理解的可以先了解下深度学习 图像识别原理 ，或咨询作者。

返回结果：

参数名	类型	说明
message	String	识别结果或错误消息
code	String	状态码
success	String	是否请求成功

该返回为JSON格式，形如：
{'uid': "9b5a6a34-9693-11ea-b6f9-525400a21e62", "message": "xxxx", "code": 0, "success": true}

请勿恶意使用，若超出当日限制将返回：
{'uid': "9b5a6a34-9693-11ea-b6f9-525400a21e62", 'message': '超出当日请求限制，请联系作者QQ：27009583', 'success': False, 'code': -555}

若返回 400 则表示数据包格式有误，请检查是否符合JSON标准。
若返回 405 则请检查确保使用POST方式请求。

Python示例：

import requests
import base64

with open(r"C:1.png", "rb") as f:
    b = f.read()

# param_key: black-全黑色,red-红色,blue-蓝色,yellow-黄色
r = requests.post("http://152.136.207.29:19812/captcha/v1", json={
    "image": base64.b64encode(b).decode(), "param_key": "yellow"
})
print(r.json())

如有疑问可以加我QQ：27009583