OpenAI最强AI模型竟成“大忽悠”，o3/o4-mini被曝聪明过头、结果幻觉频发？

可刚发布没两天，这些"最智能"的模型就成了"幻觉专业户"：据 OpenAI 内部测试显示，o3 和 o4-mini 比旧版模型更容易产生幻觉！最强推理模型，却成"幻觉大师"？在 o3 和 o4-mini 发布之初，OpenAI 官方对其评价极其的高： "OpenAI o3 是我们最强大的推理模型，它推动了编码、数学、科学、视觉感知等领域的发展"，"OpenAI o4-mini 是一款经过优化的小型模型，适用于快速、经济高效的推理。它在数学、编程和视觉任务方面，以自身规模和成本而言，表现十分出色"。为了证实 o3 和 o4-mini 的能力，当时 OpenAI 还展示了许多测试成绩：作为全球 AI 领域的标杆，OpenAI 上周推出的新一代推理模型 o3 和 o4-mini 模型在编码、数学等复杂任务上展现出表现出色，在多个基准测试中也取得了瞩目的成绩——为此OpenAI 官方表示，o3 和 o4-mini 是 OpenAI 迄今为止发布的最智能模型。连"非推理"模型都比不过：甚至，传统"非推理"模型 GPT-4o 都比 o3 和 o4-mini 的幻觉率还低——新模型在"胡编乱造"上实现了"反向 ...