文章核心观点 - AI幻觉源于训练过程中系统性地奖励猜测行为 而非技术缺陷 这种机制使幻觉成为AI在现有评估体系下的最优策略[5][6][8] - 幻觉具有双重性:在需要精确度的领域(如医疗、财务)属于风险 但在创造性领域(如艺术、故事创作)却是人类想象力的体现 可能推动文明进步[14][15][17] - 解决幻觉需改变评估体系 单纯提升模型规模或开发检测工具无效 关键要调整激励机制以鼓励AI在不确定时承认无知而非强行猜测[9][10][11] AI幻觉的机制与成因 - 训练机制缺陷:AI通过"答对加分 答错/不答零分"的规则学习 猜测策略能提高期望得分 例如面对365种可能的生日日期 猜错无损失但猜对可获1分[5][6] - 实证数据对比:OpenAI测试显示o4-mini模型准确率24%但错误率75% 仅1%弃权率 而GPT-5-thinking-mini准确率22%但错误率26%且52%问题选择弃权 证明高分模型依赖大量猜测[6][7] - 信息特性影响:当信息在训练数据中仅出现一次(孤例率)时 因缺乏规律性 AI判断真假错误率显著上升 例如宠物生日无规律可循导致必然性幻觉[8][9] 幻觉的系统性特征 - 不可避免性:因部分问题本身无解(信息缺失或逻辑矛盾) AI准确率永远无法达到100% 幻觉必然存在[9] - 模型规模悖论:大模型因接触更多碎片化知识反而更容易在不确定领域猜测 而小模型可能更诚实 例如仅懂英语的小模型对毛利语问题直接弃权 但接触少量毛利语的大模型却尝试猜测[10] - 评估体系缺陷:现有数百个主流评估指标均奖励猜测行为 惩罚诚实弃权 导致幻觉成为系统激励下的理性选择[11] 幻觉与人类创造力的类比 - 文明起源视角:人类神话源于祖先对未知现象(如狂风、闪电)的创造性解释 这种"幻觉"能力催生了共同故事 进而形成宗教、国家等社会结构[12][14] - 生物学差异:动物仅有基于感官误判的低级幻觉(如猫扑影子) 但人类能基于虚构故事协作(如建造金字塔、建立公司) 这种能力是文明发展的核心[12][13][14] - 科学创新关联:哥白尼日心说、爱因斯坦相对论均起源于超越事实的想象 说明创造性幻觉推动科学突破[14] 对AI幻觉的辩证看待 - 领域依赖性:医疗、财务等领域需绝对真实 要求AI避免幻觉 但艺术创作等领域需突破事实枷锁 幻觉反而成为创造力来源[15] - 未来发展矛盾:人类既希望AI成为精确工具 又期待其具备人类般的想象力 这种双重标准创造了一个既需严谨又需浪漫的矛盾体[15][16] - 人文价值思考:在过度依赖数据和逻辑的时代 人类对故事与意义的渴望反而更强烈 幻觉可能弥补现代社会的精神空缺[16][17]
AI最大的Bug
投资界·2025-09-12 07:31