Workflow
ScienceQA最新榜单出炉!多家公司新模型分数均提升|xbench 月报
红杉汇·2025-09-22 00:27

备注: • 汇率取 1 USD=7.1491CNY xbench最新一期Leaderboard出炉啦! 新一期双轨评估体系 (Dual Track) AGI进程 (AGI Tracking) 系列的科学问题解答测评集 (xbench- ScienceQA) 榜单,有6家模型发布的版本更新进入前10,包括GPT-5-high、Qwen3-235B-A22B-Thinking- 2507、Kimi K2 0905、GLM-4.5、Hunyuan-T1-20250711以及Claude Opus 4.1-Extended Thinking,各公司的新 模型分数均有3-5分小幅提升。 双轨评估体系 (Dual Track) AGI进程 (AGI Tracking) 系列的中文互联网深度搜索测评集 (xbench- DeepSearch) 正在进行新一期题库升级,将于近期公布基于全新题库的Leaderboard,并对新测评集题库进行 开源。 xbench采用长青评估机制,持续汇报最新模型的能力表现,更多榜单未来将陆续更新,期待你的关注。 你 可 以 在 xbench.org 上 追 踪 我 们 的 工 作 和 查 看 ...