文章核心观点 - 当前以Transformer和扩散模型为代表的AI模型在理解和生成精确的离散结构(如手指数目)上存在根本性缺陷,这暴露了其在视觉推理和几何理解方面的重大瓶颈 [32][36][50] AI模型在“手指难题”中的表现 - 当被要求对一张有六根手指的图片进行数字标注时,Nano Banana Pro模型只标出了1至5,直接略过了一根手指 [2] - 即使提示中明确说明图里有六根手指,GPT-5.2依然斩钉截铁地回答“五根”,其理由是“人类有五根手指,所以图里没有五根手指就是错的” [6] - 无论网友将手指画得多么奇形怪状,AI模型(如Nano Banana Pro)始终无法数出6根手指,坚持回答“5根” [8][9] - 通过一些变通指令(如将手绘数字改为电子版,或明确指示从小指到大拇指依次放数字),网友最终能让模型成功标注 [15][18] 技术缺陷的根本原因 - AI视觉系统的工作本质是将复杂场景简化为一组可识别模式,当遇到六指手这种包含罕见特征的图像时,系统倾向于将其强行纳入已知的“五指”模式 [32][34] - 模型从海量训练数据中学到了“人手=五指”的强关联,当情况偏离时,模型会视为异常并自动“纠错”,而非理解新事实 [32] - 扩散模型擅长捕捉整体分布和纹理风格,但在精确控制局部、离散、高对称性的结构(如正确的手指)时显得力不从心 [43] - 现有“端到端”的模型架构直接从文本提示映射到像素,中间缺乏明确的符号化结构表示层,导致“长什么样”和“结构是什么”冲突时系统失效 [45] Transformer架构的局限性 - Transformer架构的并行计算设计存在代价,其单次前向传递难以有效追踪状态信息,系统不擅长执行需要多步骤逻辑推理的任务 [37] - 对于手部这种数量固定、结构复杂、局部高度相关的对象,其多局部一致性、跨区域约束等特性恰是Transformer最不擅长的领域 [39] - Transformer将世界打平为token序列,缺乏对象概念和显式结构约束,这是其强大Token-to-token预测能力带来的致命短板 [46][47] 潜在的解决方向与行业启示 - 解决瓶颈可能需要采用混合建模,例如将擅长纹理的扩散模型与显式结构模型(如3D网格)相结合 [45] - 另一种思路是在模型架构中强化对特定区域(如手部)的局部注意力机制,或在训练/推理过程中引入几何约束损失函数 [45] - 视觉数据的复杂性远超文本,可能需要数十个数量级更多的计算资源才能真正处理视觉世界的全部细微差别 [47] - 当前AI在语言、知识、编码等领域已远超常人,但在视觉推理、长期学习、因果关系理解上仍然不足 [48] - “手指难题”提醒行业,即使是最先进的AI,也仍在学习如何看待世界的基本细节,对其能力需有更清醒的认识 [50]
全网破防,AI“手指难题”翻车逼疯人类,6根手指,暴露Transformer致命缺陷
36氪·2025-12-15 12:39