Workflow
大模型智能调度路由
icon
搜索文档
国产AI路由系统开源逆袭!仅用19%成本达到Gemini-2.5-Pro同等性能
量子位· 2025-08-20 04:33
文章核心观点 - 顶级大模型性能优越但成本高昂,使预算有限用户难以承受 [1][2] - 上海人工智能实验室推出Avengers-Pro多模型调度路由方案,通过集成和智能调度8个行业领先模型,实现性能与成本的最优平衡 [3][5][14] - 该方案在多个挑战性数据集上表现卓越,最高性能超越GPT-5-medium 7%,超越Gemini-2.5-Pro 19%,且成本显著降低 [5][20][22] 技术方案与机制 - 核心机制包括嵌入、聚类和评分三步骤:将用户请求转换为向量,聚类相似任务,评估模型性能-成本综合评分 [15][25] - 动态调整参数α(0-1范围),在追求极致性能(α=1)与极致性价比(α=0)间灵活切换 [17] - 通过实时路由决策,将任务分配给最合适模型,避免资源浪费并提升回复质量 [10][11][15] 性能与成本优势 - 在6个数据集(GPQA-Diamond、Human's Last Exam等)上,平均正确率达0.66,优于最强单模型GPT-5-medium的0.62 [20] - 与GPT-5-medium性能持平时,成本降低27%;达到其90%性能时,成本仅需37% [5][20][21] - 实现与Gemini-2.5-Pro同等性能时,成本仅需19% [5][22] - 在任何成本水平下提供最高准确率,或任何准确率目标下控制最低成本,达到帕累托最优 [5][23] 模型集成与调度 - 集成8个顶尖模型:OpenAI的GPT-5-chat和GPT-5-medium、Anthropic的Claude-4.1-opus和Claude-4-sonnet、Google的Gemini-2.5-pro和Gemini-2.5-flash、阿里的Qwen3系列 [19][26] - 调度策略灵活:倾向成本时多选低成本模型(如Qwen系列),倾向性能时多选高性能模型(如GPT-5-medium) [28][29][30] - 系统在推理时自动归类请求到相关聚类,并分配得分最高模型 [17] 行业意义与前景 - 智能调度路由方案解决大模型领域性能与成本平衡的关键问题 [9][10] - 推动大模型降本增效,满足多样化应用场景需求 [14][31] - 证明在当前生态下,该方案具有突出表现和巨大潜力,未来可能带来更多突破 [32][33]