对抗性样本
搜索文档
你以为在点「红绿灯」验证身份,其实是在给AI免费打工
36氪· 2025-11-12 23:46
CAPTCHA技术演进与商业模式 - CAPTCHA全称为“全自动区分计算机和人类的图灵测试”,核心作用是区分人类和机器人以防止恶意行为[11] - reCAPTCHA v1版本采用双词验证,其中一个为“控制词”用于验证人类,另一个为“未知词”来自谷歌需数字化的古籍或报纸,全球网民在不知情下完成了海量档案的免费数字化工作[14] - 谷歌AI利用卷积神经网络(CNN)破解文本验证码的准确率在2014年达到99.8%,导致v1版本技术失效[15] - reCAPTCHA v2版本采用图像验证,如“选出所有汽车”、“选出所有交通信号灯”,其训练数据与谷歌同期重点投资的自动驾驶项目Waymo高度契合,全球网民无偿贡献的劳动总价值估算超过61亿美元[19] - 2024年研究显示,基于YOLOv8模型的AI破解reCAPTCHA v2图像挑战的准确率达到100%[20] - reCAPTCHA v3版本转向“行为生物识别”,通过分析鼠标轨迹、点击位置、浏览器指纹和谷歌Cookie等隐私数据,为用户生成0.0(机器人)到1.0(人类)的可信度分数[23][24] AI攻防与技术前沿 - AI攻击者面临“先有鸡还是先有蛋”的数据难题,但可通过生成对抗网络(GAN)解决,仅需少量真实样本即可生成无限合成训练数据[23] - 防守方reCAPTCHA v3的大规模行为监控引发隐私争议,被指控为“间谍软件”并与GDPR等法规冲突,用户使用VPN或隐私浏览器反而会降低可信度分数[25] - 学术界提出“对抗性CAPTCHA”作为未来方向,利用AI易被“对抗性样本”(人类肉眼无意义但AI会高置信度误判的噪音图像)欺骗的弱点来区分人类和AI[27] - 未来验证码可能从“解决人类问题”转变为“是否会犯AI才会犯的错误”[28] 社会影响与用户反应 - 一篇调侃“我不是机器人”验证流程的帖子浏览量超过一百万,引发广泛互动[5] - 用户社区中存在“图像验证是在帮AI训练数据,还免费”的讨论热点,揭示了公众对无偿劳动贡献的认知[9] - 验证码难度升级对视障、听障或有阅读障碍的用户造成了访问障碍[25]