具身的「Imagenet 时刻」,李飞飞团队官宣全球顶级具身智能挑战赛
具身智能之心·2025-09-25 00:04

文章核心观点 - 具身智能领域正迎来一个类似ImageNet的里程碑时刻,其标志是李飞飞团队与斯坦福AI实验室在NeurIPS 2025推出的首届BEHAVIOR挑战赛 [1] - BEHAVIOR挑战赛是一个为具身智能量身定制的综合性基准测试与研究资源,旨在通过大规模、高保真的家庭任务,推动机器人完成真实、复杂操作的能力发展 [1][14][20] - 该挑战赛不仅是一场学术竞赛,更是一次面向核心科学问题的集体实验,旨在探索具身智能距离独立完成以人为本的家务任务还有多远,以及泛化与扩展性等关键问题 [20][22] BEHAVIOR挑战赛的定位与意义 - 被视为具身智能与机器人领域的潜在“拐点时刻”,类似于引爆深度学习浪潮的Imagenet挑战赛 [1] - 是有史以来最全面的具身智能研究资源,旨在推动该领域的发展 [14] - 其价值不仅在于奖项(最高1000美元),更在于能在NeurIPS舞台与全球顶尖团队交流与展示 [16] 挑战赛的核心特点与规模 - 任务规模前所未有:涵盖真实家庭场景下最关键的1000个日常任务,并首次以50个完整长时段任务作为核心赛题 [1][5] - 任务复杂度高:平均单个任务需要6.6分钟连续操作,考验机器人在逼真虚拟环境中完成贴近人类生活的操作 [1][5] - 能力要求全面:要求机器人同时具备跨房间导航、双手精细操控、长期规划与动态适应等多项能力 [4] 挑战赛的技术与数据支持 - 高保真环境仿真:基于NVIDIA Omniverse的高保真模拟器OmniGibson,支持衣物折叠、液体倒水、加热/冷冻等复杂物理交互 [6] - 数据史无前例:提供10,000条专家遥操作示范,总计1,200+小时,细致标注物体状态、空间关系和自然语言描述,为模仿学习和强化学习提供“黄金数据集” [8] - 平台统一:采用星海图R1 Pro机器人作为默认本体,其双手协调与稳定导航能力保证了研究成果的可迁移性 [10] 挑战赛的赛制与评估 - 赛题:完成50个来自真实家庭场景复杂活动的BEHAVIOR任务 [19] - 主要评估指标:任务成功率(完全达成 vs 部分达成) [19] - 辅助评估指标:效率(用时、路径、动作)、数据利用率(示范数量 vs 成效) [19] - 时间线:2025年9月2日开放报名与数据下载,11月15日最终评估,12月6-7日在NeurIPS 2025公布结果 [19] 挑战赛的资源与参与方式 - 官方网站(behavior.stanford.edu)提供安装仿真器、下载3D资源与模型、加载数据集、入门套件、示例脚本和评估例程的详细指南 [17] - 提供从仿真器设置到提交结果的详细教程和分步指南,方便新手入门 [18] - 基准方法:官方提供模仿学习(如ACT、Diffusion Policy)与视觉语言行动模型(如OpenVLA、π0)的完整训练评估流程,帮助选手快速入门 [19]