Workflow
OpenAI新幻觉论文惹争议!GPT-5拉胯是测试基准有问题??
量子位·2025-09-08 09:00

henry 发自 凹非寺 量子位 | 公众号 QbitAI OpenAI好不容易发了篇新论文,还是给GPT-5挽尊? 最近,《语言模型为何会产生幻觉?》这篇论文火了。 它提出模型有幻觉是因为: 标准的训练和评估流程,更倾向于奖励"猜对",而非承认不确定 。 正因如此,模型在面对不确定的问题时,往往会选择冒险猜测以获得更高评分。 | Adam Tauman Kalai* | Ofir Nachum | Santosh S. Vempala† | Edwin Zhang | | --- | --- | --- | --- | | OpenAI | OpenAI | Georgia Tech | OpenAI | 所以,为了让模型"老实说不",就应该 重新设计 评估指标,从而 鼓励模型承认自己不会,惩罚随意猜测 。 而好巧不巧的是, OpenAI 自家的GPT-5就 最不爱猜测 。 所以,这究竟是OpenAI为了GPT-5这口醋才包的饺子,还是说真的揭开了大模型幻觉背后的更深层问题? 要回答这个问题,得先看这篇论文到底说了什么。 | Metric | gpt-5-thinking-mini | OpenAl o4- ...