191. 验证码在剥削什么(1 / 2)
“现在谷歌的验证码是怎么做的?”
孟繁岐有点好奇,他此前一直对这方面的事情有所怀疑,不过却没有仔细研究过,尤其是比较早期的时候。
“现在的所谓验证码系统,说得专业一点,叫【区分人机的全自动图灵测试系统】(cAptchA),前些年是一家叫做recAptchA的公司做的,不过这家公司已经被谷歌收购了。”
阿里克斯在这方面关注过一段时间:“现在世界上用得最多的验证码系统,就是这家公司的产品。”
“当时是卡耐基梅隆大学的一个教授想到的,可以说这个系统从推出之初,就是打着白嫖劳动力的主意。”
计算机在1980到1990年左右开始逐渐进入个人家庭,在二十一世纪初,人类开始初步进入数字化生活,并且越来越依赖这种数字化。
这种数字化突如其来,带来了一个很大的难题:那就是这几千年来,所有的知识和典籍,基本上都是通过纸质书籍来记载的。
这些东西很多都是人类的瑰宝,在新的计算机时代,怎么把这些流传下来的知识数字化,是一个很大的难题。
最简单的办法,就是手打录入,但这个就比较要命了。
手工录入需要的人数可不是三四位数那么简单,没有几万上十万人,这项工程是不大可能做出点名头的。
市值万亿的苹果公司,人数才十来万,想搞十万人来录入,代价显然太大了一些。
人力的问题说白了还是钱的问题,这个工程虽然意义重大,什么都好,但就是没有什么油水,它不赚钱。
退一步说,即便你有钱也有人,人类做这种长时间的机械劳动,就是很容易输错。
别的不说,网文作者一天几千字,就到处都是错别字,这还是自己想出来的内容。
若是让他们录入别人的文本,还很可能是看不明白的内容,那还得了?输错字输串行都是再正常不过的事情了。
另一种策略,那就是先扫描,然后结合文字识别技术,自动录入。
听起来非常不错,但大家都知道,直到2023年,这种图像直接识别文字的功能,都仍旧有很多的缺陷和不便之处。
就别提二十一世纪初了,而且很多早期的文字典籍,人看都费劲,扫描出来一团浆糊,识别出来更是一团乱码。
因而,07年的时候,recAptchA这个系统就出现了。
它先是扫描这些文本,然后选出一个个的单词,最后在单词上面加点特技,让人可以识别出来,机器却很难做到。
这就是为什么大家看到的字母验证码总是千奇百怪的形状,上面还有很多干扰的条纹。
这种验证装置,看似是用于验证,可通常都是真假结合。
比如第一个是有正确答案的真的【验证码】,第二个则是其实根本没有答案的义务劳动。
如果你第一个填对了,它就会默认你对第二个验证码的劳动也是正确的,并把这个结果传回项目主机。
并且,同一张义务劳动的图片还会交叉发给多个人类用户,用以对比和确保答案的正确和可信程度。
“你猜猜,recAptchA每天能够协助录入多少字符?”
阿里克斯带着一脸坏笑,他觉得这个数字量孟繁岐一定猜不到。
“你都这么说了,我肯定往大了猜,每天一天八万多秒,一秒就算他一百个,八百万?”
“08年的时候每天六千万字符,现在应该几个亿了。”
根据统计估算,全世界每天输入验证码上亿次,每次接近十秒钟。
每天网民在验证码上的时间,就得接近百万小时。
通过白嫖这部分劳动力,不知不觉之间,人类已经通过验证码的方式录入了超过两千五百万本书进入数字世界。
这还仅仅只用了几年的时间。
“09年谷歌把recAptchA买下来了,此后,验证码的种类开始变得多种多样起来,而不仅仅只是文本验证了。”
谷歌09年花了将近三千万美金买这个系统,当然不是为了做慈善。
此举,是为了获取海量的带标签数据,为自己后来的人工智能做准备。一半验证你是不是真人,有没有认真答题;另一半,则开始让你义务劳动打白工。
标注门牌号,路牌,分类各种图片,只要你生活在网络的世界,伱就或多或少地每天要给谷歌打几十秒的白工。