Google 新作背后:机器人测评Evaluation范式正在发生变化
具身智能之心·2025-12-19 00:05

文章核心观点 - 在具身智能发展的下半场,模型评估的重要性日益凸显,并已成为技术发展的关键瓶颈[2][3] - 传统基于真实硬件或物理仿真的评估方法面临成本高、覆盖面有限和安全性风险等三重困境[4][5][6] - Google DeepMind的最新研究提出了一种评估新范式:利用视频生成模型(世界模型)作为机器人策略的通用评估器,标志着评估环境的范式变化[8][13] - 基于世界模型的评估方法,如Veo (Robotics)模拟器,能够有效预测机器人在常规任务、分布外泛化及安全性方面的表现,并与真实世界结果高度相关[27][36][61] - 尽管前景广阔,但世界模型评估在物理规律一致性、生成长度和自动化评分方面仍存在局限,未来评估将是具身智能需要解决的核心问题[65][66][72] 传统评估方法的困境 - 成本高昂:在真实硬件上进行大规模测试费时费力,对比多个策略版本或部署多台硬件会带来额外成本[4] - 覆盖面有限:真实场景难以穷尽所有现实情况(如干扰物、杂乱环境、光线变化),影响测评的全面性[5] - 安全性风险:测试机器人安全性需尝试危险动作,可能损坏昂贵设备或对人类造成伤害,在现实中不可接受[5][6] 评估新范式:从传统仿真到世界模型 - 传统物理仿真的挑战:高保真模拟需要大量真实世界资产和精细的物理建模,获取和定制海量多样物体模型困难[11];对非刚体或复杂接触动态的模拟存在局限,且存在模拟与现实之间的视觉差距(Sim-to-Real gap)[11][12] - 世界模型的核心思想:让机器人策略在模型“想象”出的世界中运行,以预测其表现,世界模型充当内部仿真器,支持进行虚拟试验[15] - 世界模型的优势:数据驱动的世界模型不依赖人工物理建模,而是从大规模视觉数据中学习现实动态[16];同一模型可模拟多种场景和对象,生成视觉逼真且物理合理的预测画面,为解决资产、真实性和视觉域差距问题提供新思路[17] Google DeepMind的Veo (Robotics)模拟器 - 模型基础:基于Google的Veo2文生视频模型构建,该模型采用潜空间扩散架构,能生成高质量连贯视频[21] - 关键改造: - 动作条件化:模型接收当前图像观察和机器人未来的动作指令序列,通过想象动作后果来生成未来视频帧[24] - 多视角一致性:训练模型能同时生成多个摄像头视角(如头顶、侧面、手腕)的视频,并保持时空一致性[24] - 工作流程:输入机器人当前画面、用户文本指令和计划动作序列,模型生成展示世界变化的视频,通过分析视频内容对策略进行打分[30] Veo模拟器的三大评估场景与验证 - 常规任务评估:在机器人熟悉的任务和环境中进行测试,使用ALOHA 2双臂机器人平台执行5项基本任务[32][33];Veo模拟器能够非常准确地预测GROD模型8种不同策略的优劣排名,模拟结果与现实世界表现一致[36] - 分布外泛化评估:利用生成式AI的图像编辑能力,创造从未见过的测试场景,无需重新布置真实场地[43];创造了四种维度的变化:背景颜色、添加小型干扰物(3-4英寸毛绒玩具)、添加大型干扰物(10-12英寸毛绒玩具)、替换操作物体为陌生物体[44];主要发现包括模拟器能生成符合物理规律的高保真视频,并成功预测出更换操作物体对性能影响最大,更换背景次之,添加干扰物影响较小的泛化难度排名[46][48] - 安全性红队测试:在模拟器中安全地测试潜在危险行为,例如指令目标旁有人手或危险物品的场景[51];模拟结果预测了不安全行为(如撞到人手、压碎屏幕),并在现实中用道具复现后得到证实,证明其可作为部署前的安全过滤器[52] - 验证方法:进行了超过1600次真实世界机器人评估实验,将每条真实轨迹与模拟视频对比[57];关键指标显示预测与现实强相关:皮尔逊相关系数高达0.88-0.91,Mean Maximum Rank Violation数值极低表明排名一致性高[60][61];模拟器预测的相对排名准确,但绝对成功率通常比现实略偏保守[62] 世界模型评估的局限性与未来展望 - 当前局限性: - 物理规律一致性:视频生成在涉及精细物体接触时可能出现幻觉(如物体穿模、凭空出现或消失),物理仿真在此方面更擅长[65] - 生成时长限制:目前生成视频片段仅约8秒,模拟长周期复杂任务需要实现长时程生成,而当前模型在长时间滚动上易累积误差[66] - 自动化评分:视频评分仍部分依赖人工观看打分,而传统仿真或实验可直接获取环境状态进行量化[66] - 未来展望:评估是具身智能下半场需要解决的核心问题,公平的跨模型评价、评估任务与指标设置、以及结果的可复现性均有待深入讨论[69][70][71];具备有效评估能力是训练出最佳模型的关键[72]