英伟达巧用8B模型秒掉GPT-5,开源了
英伟达英伟达(US:NVDA) 量子位·2025-12-06 05:40

文章核心观点 - 英伟达与香港大学合作开源的Orchestrator-8B模型,通过扮演“工具主理人”角色协调调用各类工具,在多项关键性能测试中超越了GPT-5等顶级大模型,同时实现了更低的成本和更快的运行速度,展示了小模型驱动复合系统的巨大潜力[1][2][23] 模型性能与优势 - 性能超越:在人类终极考试HLE测试中,Orchestrator-8B得分达37.1%,超过了GPT-5的35.1%[16] - 成本优势:Orchestrator-8B的成本仅为GPT-5的1/2.5,具体成本为9.2(单位未明确),而GPT-5为30.2[16] - 速度优势:运行速度比GPT-5快一倍多,具体延迟为8.2(单位未明确),而GPT-5为19.8[16][18] - 综合领先:在FRAMES、τ²-Bench测试中也取得了SOTA(State-of-the-Art)成绩[18] - 社区热度:模型在HuggingFace平台受到高度关注,冲到了热门模型前五[4] 技术原理与架构 - 核心功能:模型自身不直接解题,而是作为“工具主理人”,负责判断、协调并控制调用外部工具的顺序和次数,兼顾效果、成本与用户偏好[6][9][14] - 工具团队:其协调的工具库包括GPT-5、Claude Opus 4.1等顶级大模型,Qwen2.5-Math等专业数学工具,以及网页搜索、本地检索、代码解释器等实用工具[7] - 训练方法:采用名为ToolOrchestra的训练方法,核心包括有奖有罚的强化学习以及量身定制的ToolScale数据集[11][12] - 奖励规则:训练时设立三条强化学习规则:1) 效果奖(解题正确加分);2) 效率奖(花费少、耗时短加分);3) 偏好奖(遵循用户指令如隐私保护、节省成本加分)[15] 行业背景与趋势 - 研究脉络:行业内在探索让小模型学会调用工具的赛道上已有先例,如谷歌DeepMind的Toolformer(2023年)、MIT与CMU的ToolRL,以及香港大学与微软的Optimal Tool Calls(OCT)[19][20] - 领域关注:越来越多的研究团队关注并投入该领域,旨在解决大模型成本高、速度慢的落地难题[21][22] - 未来方向:该模型的成功表明,AI的未来可能并非依赖参数庞大的单一模型,而是通过低成本、高效率的小模型协调专业工具系统来实现高智能[23]