通用型机器人策略评估面临的挑战 - 真实世界评估成本极高,需要覆盖常规、极端及分布外环境,通常需进行成百上千次真实硬件实验,耗时、昂贵且存在操作风险[1] - 安全性评估尤为棘手,许多潜在不安全行为(如误夹人手、损坏设备)不适合在真实环境中反复测试,传统硬件评估方法难以实施[1] 现有仿真方案的局限性 - 传统物理仿真器在真实感、多样性、搭建成本和视觉一致性方面存在明显瓶颈[2] - 前沿视频模型作为替代路径面临困难,包括闭环动作条件生成易产生伪影、对接触动力学仿真困难、难以满足现代策略对多视角一致性的高要求[3] Google DeepMind提出的新评估系统 - 来自Google DeepMind Gemini Robotics团队的研究者提出了一种基于视频建模的机器人策略评估系统[4] - 该系统基于最先进的视频生成模型Veo,实现了带动作条件约束、具备多视角一致性的视频仿真,视觉高度真实且能对机器人细粒度控制做出合理响应[5] - 系统集成了生成式编辑技术,无需搭建真实物理场景即可生成包含新物体、新视觉背景及安全关键元素的多样化、逼真的真实世界场景变体[5] - 该系统能够支持完整范围的策略评估需求,包括分布内评估、分布外泛化评估以及红队测试[4] 系统方法与架构 - 采用Veo 2作为基础模型,在一个包含大量视频、图像及对应标注的数据集上进行训练,文本描述由Gemini模型自动生成[8] - 在一个大规模机器人数据集上对预训练的Veo2模型进行了微调,该数据集包含多种任务,覆盖了广泛操作技能[8] - 为减轻部分观测影响,将四个相机视角(俯视、侧视、左右腕部)拼接成整体输入,并对Veo2进行微调,使其能在给定初始帧和未来机器人位姿条件下生成拼接后的多视角未来帧[10] 实验验证与结果 - 使用经过微调的Veo(Robotics)视频模型,在分布内场景中对基于Gemini Robotics On-Device模型训练的端到端VLA策略进行评估[13] - 使用Veo(Robotics)模型对8个不同版本的VLA机器人策略进行性能预测,并将预测结果与真实世界实际测试结果对比[24] - 实验结果表明,视频模拟预测结果与实际成功率之间存在很强相关性,Veo(Robotics)能够根据性能对不同策略进行准确排名[26] - 通过1600余次真实世界实验,在八个通用型策略检查点和五项任务上验证了视频模型预测结果的有效性[5] - 系统在保持底层视频基础模型原有能力的同时,达到了进行严格机器人评估所需的高保真度[5] 系统高级能力展示 - 模型具备分布外泛化能力,可通过改造真实场景制造新情况,用视频模型提前预测机器人在陌生环境中的表现,并用真实实验验证预测可靠性[28] - Veo(Robotics)世界模型可用于安全红队测试,无需让机器人在真实世界中冒险,即可在视频模拟中主动寻找策略可能出现的不安全行为[31] 研究意义与前景 - 尽管视频建模在机器人领域仍处于早期阶段,但该研究展示了一条利用视频仿真世界实现机器人策略泛化能力与安全性可扩展评估的可行路径[6]
Veo何止生成视频:DeepMind正在用它模拟整个机器人世界