Workflow
G0双系统框架
icon
搜索文档
Galaxea 团队推出:大规模高质量开放世界机器人数据集与G0双系统VLA模型
具身智能之心· 2025-09-03 03:23
数据集核心特征 - Galaxea开放世界数据集是在真实人类生活与工作环境中记录的大规模多样化机器人行为集合 采用统一机器人实体采集并配有精确子任务级语言标注 [2] - 数据集覆盖11个物理站点的50个独特场景 涵盖住宅 零售 餐饮 办公四大核心场景 其中住宅场景占比50.8% 办公场景占比33.2% [6][12] - 总规模达500小时数据 10万条演示轨迹 覆盖150类任务 1600种物体 58种操作技能 并以2Hz频率标注细分子任务指令 [8] 技术框架设计 - G0双系统框架耦合视觉语言模型(G0-VLM)与视觉-语言-动作模型(G0-VLA) 分别以15Hz和200Hz频率异步运行 平衡规划合理性与执行实时性 [19][21] - 采用三阶段课程训练策略:跨实体预训练获取通用知识 单实体预训练适配目标机器人 任务特定后训练精修复杂技能 [21][27][28][29] - 训练数据包含1000小时Open-X-Embodiment数据 500小时Galaxea数据集及200小时内部未标注数据 [27] 性能表现评估 - G0-VLM在指令准确率上显著领先主流模型 整理床铺任务达78.2% 桌面整理达83.3% 较基线模型提升超50个百分点 [42][47] - 单一本体预训练阶段对性能提升至关重要 G0-Stage2-400h在语言跟随和动作一致性上表现最优 且数据规模与性能呈正相关 [35][39] - 在少样本迁移场景中 G0-Stage2系列仅用20条轨迹微调即实现显著性能提升 而跨本体预训练显示负迁移效应 [38][40][46] 差异化竞争优势 - 相较BridgeData V2等数据集 具备完全开放世界场景采集 单一本体一致性和细分子任务标注三大核心优势 [15][17][18] - 行为模式覆盖仅手臂 躯干+手臂 全身协同操作 技能分布呈长尾特征 既包含基础拾取动作也涵盖打开冰箱等特殊技能 [11] - 物体覆盖家电 日用品等10余大类 对难操作物体采用高保真复制品 任务时长和复杂度呈多样化分布 [12]