OpenAI的新论文,为什么被业内嘲讽是营销?
虎嗅·2025-09-12 09:16
近期,OpenAI 发布了一篇新论文《 Why Language Models Hallucinate 》,指出当前大模型幻觉的主要 来源,引发了广泛关注。 OpenAI 拿自家模型举了一个例子,在 SimpleQA 基准中,旧模型 o4-mini 相比新模型 GPT-5-thinking- mini 准确率略高( 22% vs. 24% ),但也有高得多的错误率( 75% vs. 26% ),因为它更少 " 弃答 "。 OpenAI据此主张:在往后的评估基准中,应对高自信的错误施以惩罚,并为恰当的不确定表达给出适 当分数,使激励从 " 大胆猜 " 转向 " 知之为知之 ",改变主流排行榜长期以 " 准确率 " 一项称王的局 面。 可以说,这篇研究是在把 " 幻觉 " 从工程缺陷转化为技术社区的 " 激励设计 " 问题。 如果真的往这个方向发展,以后真正值得关注的,将不再是谁的准确率小幅上涨,而是谁愿意重写评测 与产品规则,让模型在不确定时自然地说:" 我不知道 "。 他们给出了一个简洁却颠覆性的解释:大模型之所以出现幻觉,并非由于模型架构的失灵,而是当前技 术社区的训练与评测机制倾向于奖励猜测,并且惩罚承认 ...