AI视觉识别能力局限 - 多机构研究团队发现主流AI模型在识别"看得见但读不懂"文字时表现极差 包括OpenAI GPT-5/GPT-4o 谷歌Gemini Anthropic Claude及国内Qwen LLaVA等模型均出现严重识别失败 [2] - 实验采用100条四字成语进行汉字横切/竖切/斜切后拼接 人类识别无压力但AI几乎全错 [4][6] - 英文测试选用100个八字母单词 用红绿双色渲染叠加后人类可自动分离颜色 AI模型同样无法正确识别 [9][10] 模型性能数据表现 - GPT-4o在基础提示/上下文提示/详细提示三种模式下的严格匹配率分别为0.0%/0.0%/0.7% 平均匹配率仅11.1%/5.2%/7.7% [7] - Claude-opus-4-1模型在详细提示模式下严格匹配率最高达5.2% 平均匹配率14.7% 但仍远低于人类100%的识别水平 [7] - 国内Qwen2-vl-7b模型平均匹配率相对较高 在基础提示模式下达24.4% 但严格匹配率仍为0% [7] - LLaVA系列模型表现最差 所有模式平均匹配率均低于0.6% 严格匹配率全部为0% [7] 技术缺陷根源分析 - AI识别依赖模式匹配而非结构理解 缺乏符号分割与组合机制 将文字视为"图片模式"处理 [23][25] - 人类依赖结构先验知识 理解汉字偏旁部首和英文字母组合规则 具备多重感知与推理能力 [24][29] - 文字稍作扰动即导致AI系统崩溃 尽管人类仍能正常识别 [26] 实际应用影响领域 - 教育领域AI无法正确识别非标准文本 影响教学辅助工具效果 [30] - 历史文献与科学笔记整理中 AI缺乏从残缺文字恢复含义的能力 [30] - 安全场景存在被攻击者利用识别盲点绕过AI审查的风险 [30] 技术发展路径 - 需重新思考视觉语言模型如何整合视觉与文本 可能需新的训练数据或分割结构先验 [28] - 需要全新的多模态融合方式提升AI识别韧性 使其接近人类综合推理能力 [28][29]
人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等顶级模型集体“翻车”
量子位·2025-09-09 12:20