OpenAI最强AI模型竟成“大忽悠”,o3/o4-mini被曝聪明过头、结果幻觉频发?
36氪·2025-04-21 11:07
可刚发布没两天,这些"最智能"的模型就成了"幻觉专业户":据 OpenAI 内部测试显示,o3 和 o4-mini 比旧版模型更容易产生幻觉! 最强推理模型,却成"幻觉大师"? 在 o3 和 o4-mini 发布之初,OpenAI 官方对其评价极其的高: "OpenAI o3 是我们最强大的推理模型,它推动了编码、数学、科学、视觉感知等领域的发展","OpenAI o4-mini 是一款经过优化的小型模型,适用于快 速、经济高效的推理。它在数学、编程和视觉任务方面,以自身规模和成本而言,表现十分出色"。 为了证实 o3 和 o4-mini 的能力,当时 OpenAI 还展示了许多测试成绩: 作为全球 AI 领域的标杆,OpenAI 上周推出的新一代推理模型 o3 和 o4-mini 模型在编码、数学等复杂任务上展现出表现出色,在多个基准测试中也取得 了瞩目的成绩——为此OpenAI 官方表示,o3 和 o4-mini 是 OpenAI 迄今为止发布的最智能模型。 连"非推理"模型都比不过:甚至,传统"非推理"模型 GPT-4o 都比 o3 和 o4-mini 的幻觉率还低——新模型在"胡编乱造"上实现了"反向 ...