核心观点 - 提出一种新的AI任务解决范式:使用一个经过强化学习微调的8B参数小模型作为“指挥家”,智能编排和调用包括代码解释器、网络搜索、数学模型及更强的大模型在内的多种工具,在保证任务正确性的同时,显著优化成本和效率,并能够对齐用户偏好 [1][13] - 在多项基准测试中,该Orchestrator-8B模型在性能上超越了GPT-5等顶级大模型,同时计算成本大幅降低,展示了“小模型指挥大工具/模型”系统的优越性 [1][9] 技术架构与训练方法 - 系统核心名为ToolOrchestra,其将各类工具(网页/本地检索、代码执行、数学与通用LLM等)统一封装为JSON接口,使指挥家模型能够在多轮交互中执行“思考-调用-反馈”的循环直至问题解决 [4] - 采用GRPO强化学习方法进行训练,通过最大化三重奖励来优化指挥家:1) 任务解决的正确性;2) 效率(货币/时延惩罚);3) 用户偏好(如更爱本地检索还是云搜索,更看重速度还是成本) [4][5] - 为支持强化学习训练,研究团队构建了一个名为ToolScale的合成数据集,该数据集覆盖金融、医疗、出行、教育等10个领域,通过LLM生成领域数据库、API及“任务-黄金动作序列”,并经过可验证标准筛选,为训练提供了真实丰富的环境 [7] 性能与成本优势 - 在Humanity's Last Exam (HLE)基准测试中,Orchestrator-8B取得了37.1%的成绩,超过GPT-5的35.1% [1][9] - 在FRAMES(事实推理)基准上,Orchestrator-8B得分为76.3,高于GPT-5的74.0 [9] - 在τ²-Bench(复杂工具调用)基准上,Orchestrator-8B得分为80.2,高于GPT-5的77.7 [9] - 在取得上述性能领先的同时,Orchestrator-8B平均成本仅为9.2美分,时延8.2分钟,显著低于GPT-5的30.2美分成本和19.8分钟时延,计算成本约为对手的三成 [9][10] - 成本-效果曲线显示,在同等预算下,Orchestrator-8B的准确率曲线始终在GPT-5、Claude等之上;在达到相当准确率时花费更少 [11] 解决的问题与系统特性 - 解决了仅靠提示词构建多智能体系统时存在的两大偏见:1) 自增强偏见,即模型倾向于调用同家族模型(如GPT-5调用GPT-5-mini)导致性能下降;2) 他增强偏见,即无脑调用最强模型导致成本爆表(如Qwen3-8B大量调用GPT-5) [3][4] - 系统具备良好的泛化能力,即使面对训练时未见过的新工具或模型组合,指挥家也能从模型描述中推断其能力与擅长领域,维持最优性价比 [15] - 系统能够有效对齐用户偏好,对于“更私密的本地检索”、“更快速度”或“更低成本”等要求,指挥家比强大的基座模型更能遵从指令执行 [15] 应用场景与行业意义 - 为企业客户提供了稳定、可控、可落地的解决方案,将昂贵的大模型资源仅用于真正的难点,其余工作交由便宜高效的工具链完成 [13] - 具体应用场景包括:1) 企业内部问答/报表分析,默认用本地索引和代码沙盒完成80%工作,仅在遇到歧义或复杂推理时短暂调用强模型;2) 研发检索/调研,可设定时间/成本上限及来源偏好,由指挥家动态权衡;3) Agent工作流,将各种函数/工具纳入统一接口,由指挥家进行端到端智能编排,替代写死的if-else逻辑 [16] - 该范式标志着从依赖“单一强大模型”到构建“小模型+工具+专家模型的复合系统”的转变,在智能体从单体走向复合系统的趋势下,此类“协调者”角色至关重要 [13] 资源开放情况 - 论文、全部代码、模型与数据均已公开,方便学术界与产业界跟进研究与应用 [14][17]
Agent微调复活?英伟达开源8B新模型带飞GPT-5:在HLE狂卷37分,还把成本打下来