无需再训练微调,一个辅助系统让GPT-5.2准确率飙到创纪录的75%
机器之心·2025-12-25 05:26

文章核心观点 - 决定AI性能上限的关键因素可能正从底座模型本身,转向外围的“推理编排”系统[1] - 初创公司Poetiq开发的“元系统”在不改变大语言模型的前提下,通过一套智能的Agentic System,显著提升了AI在复杂推理任务上的表现[1][15] - 该系统展示了强大的泛化能力,能够适配不同模型并实现跨版本、跨模型族的性能提升,为AI能力提升提供了新路径[15] Poetiq公司及其技术 - Poetiq是一家由6位研究员和工程师组成的初创公司,核心成员多来自Google DeepMind[12] - 公司开发了一套名为“元系统”的AI推理和自我改进系统,该系统不依赖特定大模型,可与GPT、Gemini、Grok等前沿模型配合使用[15] - 该系统采用迭代式推理过程,包含“迭代式问题求解循环”和“自我审计”两大核心机制,通过多步骤自我改进来构建和完善答案,并能自主判断终止时机以控制成本[16] 性能测试结果 - 在ARC-AGI-2测试集上,GPT-5.2 X-High结合Poetiq系统在PUBLIC-EVAL数据集上的成绩达到75%,比之前的SOTA高出约15%[3] - 每个问题的解决成本低于8美元[3] - 在测试中,X-High版本比High版本成本更低,原因是能更快收敛到正确答案[11] - 系统处理问题的时间范围较广,最简单问题约8-10分钟完成,最难问题需在12小时时限内终止[9] 技术特点与行业意义 - 该系统的核心优势在于“模型交换”能力,无需对系统或模型进行大规模调整或重新训练,即可切换不同模型应对不同任务[7] - 系统所有适配工作在新模型发布前完成,且未直接接触过ARC-AGI任务集,表明其对推理策略具有良好的泛化能力[15] - 行业评论认为,在模型之上构建智能而非在模型内部构建,是“非常高明”的做法,意味着可以在几小时内适配新模型,并捕捉到推理过程本身的基本规律[15] - OpenAI总裁Greg Brockman转推确认,GPT-5.2在ARC-AGI-2上超越了人类基准成绩[8]