机器人预训练数据范式
搜索文档
InternData-A1开源:纯合成数据性能比肩顶级真实数据,效果媲美官方π0模型
具身智能之心· 2025-11-28 00:04
文章核心观点 - 由上海人工智能实验室、北京大学等团队推出的InternData-A1,通过其“高保真合成数据 + 模块化生成pipeline”的创新方案,首次实现了仅使用纯合成数据预训练的视觉-语言-动作模型在性能上比肩使用顶级真实数据集训练的模型,为突破机器人学习的数据瓶颈提供了全新路径 [1] 当前VLA模型训练的数据困境 - 当前机器人视觉-语言-动作模型训练面临“两难困境”:真实数据保真度高但采集成本极高、规模有限;传统合成数据则存在技能覆盖窄、物理真实性不足等问题,无法同时兼顾规模、多样性、保真度、迁移性、成本与效率 [2] - 具体而言,真实机器人数据(如π-dataset、Agibot World)采集需专业设备与人工,成本高、场景覆盖有限且多为闭源 [2] - 传统合成数据(如GraspVLA、RoboCasa)则技能单一(以抓取为主)、物理模拟与视觉渲染保真度低、生成效率低下 [2] InternData-A1的核心设计与特性 - InternData-A1的核心设计是通过模块化、自动化的生成pipeline,产出具备“多形态机器人 + 全场景任务 + 高保真交互”的大规模合成数据,以直接支撑VLA模型的端到端预训练 [4] - **核心特性1:超大规模与全维度多样性**:数据集覆盖4类机器人形态、70项任务、227个场景,累计包含63万条轨迹、7433小时交互数据 [4][6] - 机器人形态涵盖单臂(如Franka Emika Panda)和双臂(如AgiBot Genie-1)等主流机型 [6] - 任务类型包括抓取放置(占30.61%)、关节操作(占11.67%)、基础复合任务(占35.95%)和长序列任务(占21.77%) [6] - 资产库包含3185个刚性物体、321个关节物体、20种柔性衣物,场景覆盖227个真实室内布局 [6] - **核心特性2:高保真模拟**:通过物理引擎优化与视觉渲染升级,最小化模拟与现实间的迁移差距 [6] - 物理模拟采用Vertex Block Descent模拟柔性物体,用粒子动力学建模流体,精准还原关节物体物理参数 [6] - 视觉渲染支持照片级真实感,结合174种环境地图与随机光照调节 [6] - 通过域随机化自动随机化物体位姿、相机视角(±5°旋转 / ±5cm平移)等,增强模型鲁棒性 [6] - **核心特性3:模块化生成pipeline实现低成本高效量产**:采用“环境构建-技能组合-域随机化-轨迹生成”四阶段解耦流程 [6][8] - 环境构建阶段从资产库自动调用并标注机器人、场景和物体 [8] - 技能组合通过模块化原子技能(抓取、放置等)拼接任务,仅需调整参数即可适配不同场景 [8] - 轨迹生成基于CuRobo运动规划器生成无碰撞轨迹,仅保留成功案例以确保数据质量 [8] - 通过架构优化,该pipeline在8块RTX 4090 GPU上日均可产出209.7小时数据,大幅降低数据获取门槛 [9] InternData-A1的性能验证与对比 - **与真实数据集对比实现性能平权**:在相同π₀模型架构下,仅使用InternData-A1预训练的模型在模拟任务中全面超越基于真实π-dataset训练的官方模型,在真实场景中实现性能持平 [10] - 在模拟场景的49项任务中,Easy模式成功率达60%(超过官方π₀模型5个百分点),Hard模式成功率达26.5%(超过官方π₀模型6.5个百分点) [10][11] - 在真实场景的5项基础与4项灵巧任务中,性能与基于真实π-dataset的模型持平,部分任务(如“放置马克笔”)成功率超过90% [11] - **模拟-现实迁移效率高**:在10项代表性任务中零样本迁移成功率超过50%,仅需1600条模拟数据即可匹配200条真实数据的效果,部分基础任务实现1:1性能对标 [11] - 对于基础任务(如垃圾分类),200条模拟数据性能比肩200条真实数据 [20] - 对于复杂任务(如包裹翻转),1600条模拟数据即可匹配真实数据效果,数据成本仅为真实采集的1/10 [20] - **与开源数据集对比全维度领先**:相较于RoboCasa(合成数据)、Agibot World(真实数据)等开源方案,InternData-A1预训练模型在模拟任务中成功率领先10%-27.5个百分点,在真实任务中平均领先57.7个百分点 [14][15] - **消融实验验证数据多样性关键性**:禁用不同数据组件后模型性能显著下降,证明任务多样性对预训练至关重要 [16] - 移除长序列任务导致Hard模式成功率下降6个百分点 [16] - 移除关节操作任务导致整体成功率下降7个百分点 [16] 核心结论与行业意义 - 合成数据的规模化是VLA模型通用化的关键,InternData-A1证明足够规模、多样性与保真度的合成数据可完全替代真实数据进行预训练,打破数据采集瓶颈 [21] - 模块化pipeline是数据量产的核心,其解耦架构与自动化流程实现了“低成本、高质量、大规模”的数据生成,为社区提供了可复用的工具链 [21] - 模拟-现实迁移的关键在于“保真度 + 域随机化”,照片级渲染与多维度随机化设计大幅缩小了模拟与真实环境的差距 [21] - 该数据集及生成pipeline的开源,降低了机器人预训练数据的获取门槛,揭示了合成数据在机器人领域的巨大潜力,有望推动VLA模型向“低成本、高泛化、可规模化”方向快速发展 [22] 未来发展方向 - 扩展任务与形态覆盖,例如新增高精度灵巧任务(如精细装配)和更多机器人形态(如人形机器人) [19] - 进行多模态数据增强,融入触觉、声音等模态信息以提升复杂场景适应性 [25] - 端到端pipeline优化,通过强化学习自动优化任务组合与参数配置,进一步降低人工干预 [25]