AI评测

搜索文档
上海交大/上海AI Lab翟广涛:当评测不再重要,AGI就实现了
机器之心· 2025-07-15 03:20
核心观点 - 完美的AI评测体系等同于通用人工智能(AGI),当评测不再重要时AGI才真正实现[3][20][21] - 当前AI评测体系存在数据污染、原子化能力评测局限性和主体危机三大核心问题[5][7][10] - 行业需要建立"以人为中心"的动态评测框架,通过EDGE技术路径实现训评一体[12][13][16] 评测体系现状与问题 数据污染 - 大公司普遍将评测数据集纳入训练集以提高分数,导致评测失去诊断价值[5][6] - Chatbot Arena存在系统性漏洞,厂商可通过秘密内测和用户偏好数据过度拟合[6] 原子化能力局限性 - 当前评测将智能拆解为数学推理等独立能力,但无法区分模型真实能力边界与提示优化效果[8] - 具身智能领域存在仿真环境与真实场景巨大差距(仿真成功率100% vs 真实世界5%)[9] 主体危机 - 企业自评存在利益冲突,学术界缺乏长期维护资源,需要新型中立机构主导[10] - 评测领域呈现碎片化态势,大量维度指标因论文创新需求被提出但无人维护[9] 解决方案与创新框架 以人为中心评测 - 采用统计学方法聚合用户主观体验(QoE),针对不同受众群体定制评测[13] - 建立超10万题高质量内部题库,采用季度性逐步开源策略防止污染[15] EDGE技术路径 - 四大特征:Evolving(演进)、Dynamic(动态)、Granular(粒度)、Ecosystem(生态)[13] - 三大评测支柱:信息质量、问题解决能力、交互体验[14] 训评一体机制 - 开发与人类偏好对齐的"AI裁判"作为奖励模型指导训练优化[17] - 提出AI-45°平衡律,要求能力与安全性同步提升[17] 行业影响与愿景 - 司南团队目标成为智能时代度量衡,引导行业从刷分竞赛转向价值创造[22] - 构建终极评测体系是通往AGI的核心路径,评测的消亡将标志AGI实现[21][24]
《我的世界》成为AI新「考场」?高三生用游戏评测AI:DeepSeek-R1位列第三
36氪· 2025-03-25 12:45
核心观点 - 一名高中生开发了基于《我的世界》游戏的AI评测基准MC-Bench 通过视觉化建造任务评估大模型综合能力 并采用众包投票机制形成排名 目前Claude 3.7 Sonnet以85.2%胜率位列第一 DeepSeek-R1以67.6%胜率排名第三 [1][2][14][15] 评测方法 - 核心机制为AI模型根据文本提示(例如"晶莹剔透的酒杯装满了深红色的葡萄酒")在游戏中生成建筑 用户对匿名作品进行A/B投票或平局选择 投票结束后揭晓模型归属 [2][5] - 本质上属于编程基准测试 模型需通过代码生成实现建造任务 但通过游戏视觉化降低参与门槛 [9] 选择游戏的原因 - 《我的世界》作为全球销量最高的电子游戏之一 具有广泛认知度 上亿玩家基础可形成众包数据 [8] - 游戏环境能模拟真实世界复杂度 考验AI问题解决 策略思维和适应能力 同时提供安全可控的测试空间 [7] - 视觉化输出使普通用户无需编程知识即可参与评判 相比文本或代码更直观 [8][9] 技术优势 - 评估维度涵盖逻辑推理 规划能力和空间认知等传统测试难以覆盖的领域 [8] - 可重复测试环境确保不同模型在相同条件下对比 [7] - 避免"基准测试陷阱"——模型在标准化考试(如LSAT超越88%人类)与实际应用(如数字母错误)表现脱节的问题 [2] 项目现状 - 由8名志愿者团队维护开发 获Anthropic Google OpenAI和阿里巴巴等公司提供模型访问权限和计算资源支持 但无官方合作关系 [10][13] - 当前聚焦基础建造能力评估 未来计划拓展至长期规划和目标导向型复杂任务 [15] 行业意义 - 游戏化评测可能成为AI评估新趋势 使研究过程更有趣且公众更易理解技术进展 [8] - 排行榜结果与用户实际体验高度一致 可为AI公司提供发展方向参考 [16]