Workflow
通才智能
icon
搜索文档
九成以上模型止步白银段位,只有3个铂金!通用AI下半场评测标准来了
机器之心· 2025-05-21 00:33
AI发展新阶段 - AI发展进入下半场,重点从模型架构与训练方法突破转向评估模型真实智能,定义问题比解决问题更重要[2] - 评估标准革新成为AI进步关键,需像产品经理一样思考"让AI解决什么问题"及"如何衡量解决得好"[2] - 行业趋势从比拼模型规模转向定义有效评测标准,推动AI向对人类有用的方向演进[2] 通才智能评测框架 - 新加坡国立大学与南洋理工大学团队提出"通才智能"评测框架,包含General-Level五级评估体系和General-Bench测试集,覆盖700项任务32.58万道问题[3][19] - 评测核心指标为"协同效应"(Synergy),衡量多模态/任务间互相赋能能力,分为青铜(专才)至王者(全模态互促)五级[11][16] - 当前90%模型仅达Level-2白银段位(无协同),仅3款模型达到Level-4铂金段位(图文理解生成协同),尚无模型达到王者级[27][28] 多模态模型现状与短板 - 现有模型多为"拼接怪",通过松耦合架构堆叠不同模块,缺乏跨模态深度协同[7] - 三大短板:偏科严重(跨模态任务表现差)、生成能力薄弱(仅会描述不会创作)、协同单向(语言辅助视觉但反向不成立)[29] - GPT-4V在图像任务正确率仅65%,视频任务几乎失效,音频任务行业平均分不足30/100,3D任务最佳正确率仅6.7%[23][25] 评测体系设计特点 - General-Bench覆盖5大模态(图像/视频/音频/3D/文本),145项技能29个场景,强调开放式生成与跨模态组合任务[24] - 采用五步数据构建流程,包含开放集与闭卷集,支持动态扩展[21] - 评估方法创新:Level-3以上需超越单任务SOTA,Level-4要求理解与生成能力调和平均数均衡,Level-5需语言与非语言模态双向提升[16] 行业影响与展望 - 评测框架获ICML 2025 Spotlight认可,开源社区已形成协作生态,Hugging Face平台提供实时排行榜[35][36] - 将推动研发重心转向模型全面能力,促进行业从"拼装式"向"熔炉式"架构演进[41] - 统一评测标准有望加速AGI进程,王者段位达成或标志真正通用智能诞生[42]