文章核心观点 - 具身智能领域正面临数据来源的根本性选择:是依赖仿真的效率、真实数据的真实性,还是寄希望于新兴的世界模型技术来弥合差距 [2] - 仿真数据与真实数据各有优劣,当前行业可能处于并将长期处于依赖仿真数据的阶段,但真实数据在特定场景下不可或缺 [14][15][20] - 世界模型(如Genie 3)被视为未来重要方向,但其在奖励机制设计、高维度动作生成等方面仍面临挑战,且计算资源限制其发展 [21][22][23][24][25] 对Sim-to-Real Gap的理解 - Sim-to-Real gap的核心是仿真对真实世界模拟不完全,存在视觉与物理细节还原不足的问题,例如物体的摩擦力、光影效果等差异 [3] - 该差距导致模型泛化能力弱,仅适配特定场景,缩小差距需围绕数据优化,包括结合模型需求设计虚拟与真实数据配比 [3] - 阴影问题可作为判断模型对真实世界理解程度的有效依据,例如通过观察模型能否正确利用阴影信息来停止操作 [3] 仿真数据与真实数据的价值与应用 - 真实数据在同等数量下训练效果优于仿真数据,但具身智能领域真实数据体量远不及自动驾驶,存在巨大缺口 [15] - 仿真数据在当前阶段的关键作用在于基础模型迭代和测试,可避免真机实验中烧电机、损坏关节等难以估量的损失 [15] - 仿真在强化学习规模化上潜力巨大,良好构建的仿真器可通过大规模并行训练让模型学习真实数据中难获取的场景 [18] - 仿真数据的核心优势包括代码复用性强(更换机器人时仿真代码基本无需改动)以及在教育领域可显著降低学习门槛 [21] - 长期来看,仿真数据是更有效的解决方案,只有在仿真无法满足需求时才考虑使用真实数据进行补充 [20] 世界模型的研究现状与挑战 - 世界模型应用于自动驾驶、具身智能的方向正确,但存在“小世界模型”路径是否可行以及奖励设计与下游任务衔接两大核心问题 [21][22] - Genie 3能够从文本生成可交互的动态环境,其核心优势是将“动作”与“观测”良好结合,但面向机器人场景时,当前动作维度(如六维、七维)不足 [24][25] - 未来12-18个月内,最重要的科学问题是如何在世界模型中引入reward(奖励机制),因为action和observation已有较好发展 [24] - 世界模型研究无需大量计算资源,学术界应聚焦用小资源就能探索的学术问题,这类研究更易出成果 [22] - 可引入力、触觉等新模态来丰富世界模型,聚焦其物理规律相关问题 [23] 技术案例分析与发展方向 - RoboTwin项目展示了数据配比的重要性:1.0版本服务小模型,虚拟与真实数据配比约300:20;2.0版本服务大模型,配比达上千:几十 [7] - 在自动驾驶领域,仿真测试已被验证更快速、省时省力且安全,大量安全性测试必然依赖仿真 [14] - 数字人技术中的Sim-to-Real应用是一大突破,可实现输入任意一句话指定表情,让数字人实时展示相应脸部动作 [11] - 波士顿动力机器人的“丝滑”表现得益于其出色的硬件技术方案、运动控制(运控)水平以及经过大量调整优化的推理架构 [26][28][30][31][32] - 传统控制的相关技术值得被结合、借鉴到现代具身智能中,以提升机器人动作的流畅性 [32]
Sim,Real还是World Model?具身智能数据的“困境”与解法
具身智能之心·2025-10-01 12:48