也来说说验证码识别

转载:http://www.cnblogs.com/yemuzi/p/3507162.html 

1.介绍

据wikipedia介绍,验证码,全称为全自动区分计算机和人类的图灵测试(英语:Completely Automated Public Turing test to tell Computers and Humans Apart,简称CAPTCHA),是一种区分用户是计算机和人的公共全自动程序。在CAPTCHA测试中,作为服务器的计算机会自动生成一个问题由用户来解答。这个问题可以由计算机生成并评判,但是必须只有人类才能解答。由于计算机无法解答CAPTCHA的问题,所以回答出问题的用户就可以被认为是人类。目前多数网站用它来作为防止恶意注册,灌水,恶意攻击等的安全手段。

常见验证码样式:

2.案例分析

验证码识别流程:

举个现在很火的某网站验证码的例子:

        

特点:

前四个:字符重叠;1,4和2,3字符方向相同,字体单一,颜色单一,背景单一

后一个:横线干扰;字体大小单一

根据字符特点,按上面识别流程处理得到识别率:50%+

3.结论

1.目前该网站验证码最大的特点就是单一,字符重叠的结果不但没有达到很好的达到反robot的目的;对于某些字符,比如r,对人也形成很大的干扰,

2.建议采用:变形:,变字体等对人友善,机器难识别的样式

原文地址:https://www.cnblogs.com/yemuzi/p/3507162.html