OpenAI新幻觉论文惹争议！GPT-5拉胯是测试基准有问题？？

henry 发自凹非寺量子位 | 公众号 QbitAI OpenAI好不容易发了篇新论文，还是给GPT-5挽尊？最近，《语言模型为何会产生幻觉？》这篇论文火了。它提出模型有幻觉是因为：标准的训练和评估流程，更倾向于奖励"猜对"，而非承认不确定。正因如此，模型在面对不确定的问题时，往往会选择冒险猜测以获得更高评分。 | Adam Tauman Kalai* | Ofir Nachum | Santosh S. Vempala† | Edwin Zhang | | --- | --- | --- | --- | | OpenAI | OpenAI | Georgia Tech | OpenAI | 所以，为了让模型"老实说不"，就应该重新设计评估指标，从而鼓励模型承认自己不会，惩罚随意猜测。而好巧不巧的是， OpenAI 自家的GPT-5就最不爱猜测。所以，这究竟是OpenAI为了GPT-5这口醋才包的饺子，还是说真的揭开了大模型幻觉背后的更深层问题？要回答这个问题，得先看这篇论文到底说了什么。 | Metric | gpt-5-thinking-mini | OpenAl o4- ...