评测结果与行业动态 - 第三方评测机构SuperCLUE发布的11月DeepSearch评测报告显示,国产大模型openPangu-R-72B在模型榜单中名列第一,体现了国产昇腾算力的大模型研发实力 [1] - 在SuperCLUE-DeepSearch中文深度搜索测评模型总榜中,openPangu-R-72B以73.33的总分位列第一,领先于Google的Gemini-3-Pro-Preview(70.48分)和OpenAI的GPT-5.1(high)(70.48分)[2] - 该模型在人文社科、工程技术和自然科学三个子任务类别中得分分别为75.47、54.55和83.33 [2] 模型架构与技术底座 - openPangu-R-72B是基于昇腾集群训练的MoE(混合专家)模型,采用80选8的专家选择机制,在740亿总参数量的基础上,将激活参数量控制在150亿,以平衡效率与性能 [4] - 模型使用了24万亿tokens的训练数据,并具备128k长序列处理能力,为处理深度搜索任务中的长文本信息奠定了基础 [4] - 在注意力机制层面引入了参数式Sink Token技术,有效缓解极大激活值问题,提升了训练稳定性并对后续量化更亲和 [7] - 采用K-Norm与Depth-Scaled Sandwich-Norm组合的架构,其中K-Norm仅对attention的key施加RMS Norm,在达到与QK-Norm相当稳定性的同时降低了计算开销 [7] - 通过增加Query头数和注意力头维度来捕获细粒度语义关系,并引入Partial RoPE机制,仅对Query和Key中1/3维度应用位置编码 [7] - 通过将KV组数量减半,在Key头维度增加的情况下,实现了37.5%的KV cache缩减,平衡了推理阶段的显存占用、速度与模型效果 [7] - 采用Adaptive Aux Free负载优化技术的升级版本,通过自适应调整各个专家负载bias的更新幅度,有效减少均衡震荡,让专家负载分布更均衡 [8] 深度搜索能力专项优化 - 模型通过后训练阶段的长链难题合成、非索引信息处理、快慢思考融合三大策略,显著提升了DeepSearch能力 [10] - 在长链QA难题合成方面,通过query条件模糊化将问题平均难度提升10%,并引入verification agent以提升用于训练问答对的准确性 [12] - 针对非索引知识问答场景,训练中注入了“Planner聚焦关键URL + URL_crawler爬取网页 + Document_QA识别下一步浏览链接”的循环工作流,通过同一站点内的多跳浏览实现深度信息搜集 [12] - 采用步骤级快慢融合策略,在DeepSearch的ReACT执行过程中,为Document_QA步骤启用慢思考以保障精度,为其他工具调用步骤采用快思考以提升速度,实现精度与效率的平衡 [13] 国产算力与模型生态 - openPangu-R-72B是基于国产昇腾算力平台训练的代表模型,证明了该平台在支撑大参数量、高复杂度模型研发方面的坚实能力 [15] - openPangu系列的兄弟模型openPangu-718B在同期SuperCLUE通用榜单中斩获第二名,展现了该系列在不同任务场景下的全面实力 [15] - 随着大模型在企业服务、学术研究、政务处理等领域的深度落地,深度搜索能力被视为模型实用化的核心竞争力 [15]
登顶SuperCLUE DeepSearch,openPangu-R-72B深度搜索能力跃升
机器之心·2025-12-05 10:17