ReCaptcha——基于验证码的数据挖掘

验证码发展历史

验证码(CAPTCHA)是“Completely Automated Public Turing test to tell Computers and Humans Apart”(全自动区分计算机和人类的图灵测试)的缩写,是区分用户是机器或者是人的公共全自动程序。
  早期的互联网是没有验证码的,由于搜索引擎的出现和网络营销的兴盛,导致了机器可以通过任何一个网站的注册的程序疯狂注册,通过垃圾邮件或者垃圾评论轰炸网民的眼球。作为免费邮件提供商,它们希望更多用户注册免费邮箱来增加用户注册数量。同时它们的免费邮箱又恰好是垃圾邮件的最爱,每天都耗费大量的资源来阻止的垃圾邮件,都来自自己的服务器。因此如何解决人机辨识的问题就迫在眉睫。
  通过专家的设计,验证码应运而生,虫虫营销助手,刚开始计算机的辨识技术还很落后,对于经过扭曲,污染的文字无法识别。而人就能轻松识别。简单而绝妙的设计,计算机产生一个随机字符串,然后经过程序处理把这个字符串生成图像进行污染和扭曲,再在前端显示出来。凡能识别出来的就是人类。
  刚开始的验证码比较简单,主要以4个字符串为主,字符串在图片中的位置中规中矩,有些机器通过字符串显示在图片上的一些客观规律,也非常容易破解验证码。由于机器的辨识能力在不断提高。中文验证码,8个字符或者以上的验证码,扭曲和污染非常严重的验证码在各大网站都频频出现(有时候人都不能识别)。小小的验证码也充满无穷商机,目前有些公司提供人工识别验证码服务。客户端的验证码通过api把图片提交给他们公司,公司安排人工(通常找一些人力成本相对低的国家的工人,这样导致一些特殊字符他们识别不了,例如中文等)识别,识别完后通过api返回给客户端。道高一尺,魔高一丈验证码的技术随着网络的发展还在不停地变化,但愿验证码的发展不要通过牺牲用户体验来换取。

验证码为什么要做成有两个单词这样,一个单词不就够了吗?

大家可以了解下,有个项目叫reCAPTCHA(http://baike.baidu.com/view/1944705.htm

“CAPTCHA”的技术在2000年被发明时是为了防止垃圾邮件和不必要的骚扰,后来发明者又寻找到了使人的计算能力得到更有效利用的方法,发送两个单词,其中一个单词用来确认输入结果,另外一个机器无法识别的字符则随机发送给五个人,直到他们都输入正确才确认这个单词。这也是我们有时明明输错了最终也能登陆的原因。2009年谷歌收购了这家做验证码公司reCAPTCHA,并将其技术用于图书扫描项目,自此全世界的网民都沦为谷歌的免费打字员。。(因为众包的力量,这项技术每年能为谷歌省下十多亿美元。 

原文地址:https://www.cnblogs.com/xianghang123/p/3084670.html