基准测试的陷阱

搜索文档
《我的世界》成为AI新「考场」?高三生用游戏评测AI:DeepSeek-R1位列第三
36氪· 2025-03-25 12:45
核心观点 - 一名高中生开发了基于《我的世界》游戏的AI评测基准MC-Bench 通过视觉化建造任务评估大模型综合能力 并采用众包投票机制形成排名 目前Claude 3.7 Sonnet以85.2%胜率位列第一 DeepSeek-R1以67.6%胜率排名第三 [1][2][14][15] 评测方法 - 核心机制为AI模型根据文本提示(例如"晶莹剔透的酒杯装满了深红色的葡萄酒")在游戏中生成建筑 用户对匿名作品进行A/B投票或平局选择 投票结束后揭晓模型归属 [2][5] - 本质上属于编程基准测试 模型需通过代码生成实现建造任务 但通过游戏视觉化降低参与门槛 [9] 选择游戏的原因 - 《我的世界》作为全球销量最高的电子游戏之一 具有广泛认知度 上亿玩家基础可形成众包数据 [8] - 游戏环境能模拟真实世界复杂度 考验AI问题解决 策略思维和适应能力 同时提供安全可控的测试空间 [7] - 视觉化输出使普通用户无需编程知识即可参与评判 相比文本或代码更直观 [8][9] 技术优势 - 评估维度涵盖逻辑推理 规划能力和空间认知等传统测试难以覆盖的领域 [8] - 可重复测试环境确保不同模型在相同条件下对比 [7] - 避免"基准测试陷阱"——模型在标准化考试(如LSAT超越88%人类)与实际应用(如数字母错误)表现脱节的问题 [2] 项目现状 - 由8名志愿者团队维护开发 获Anthropic Google OpenAI和阿里巴巴等公司提供模型访问权限和计算资源支持 但无官方合作关系 [10][13] - 当前聚焦基础建造能力评估 未来计划拓展至长期规划和目标导向型复杂任务 [15] 行业意义 - 游戏化评测可能成为AI评估新趋势 使研究过程更有趣且公众更易理解技术进展 [8] - 排行榜结果与用户实际体验高度一致 可为AI公司提供发展方向参考 [16]