G0双系统VLA模型

搜索文档
Galaxea 团队推出:大规模高质量开放世界数据集与G0双系统VLA模型
具身智能之心· 2025-09-04 01:04
核心观点 - Galaxea开放世界数据集是首个在真实人类生活与工作环境中采集的大规模机器人行为数据集 解决现有数据集场景单一、本体不一致、标注粗糙的问题 [3][5] - G0双系统框架通过视觉语言模型进行多模态规划 并与视觉-语言-动作模型协同实现细粒度执行 在桌面操作、少样本学习和长程移动操作等基准测试中表现优异 [3][5] - 三阶段课程训练策略包括跨实体预训练、单实体预训练和任务特定后训练 单实体预训练阶段与Galaxea数据集的结合对实现强劲性能具有关键作用 [3][35][39] Galaxea开放世界数据集 - 数据采集通过统一机器人本体Galaxea R1 Lite移动双臂机器人进行 具备23个自由度 搭载头部立体RGB相机与手腕RGB-D相机 负载能力达5kg [3] - 在11个物理站点的50个独特场景中采集 涵盖住宅、零售、餐饮、办公四大核心场景 住宅场景占比最高达50.8% 办公场景占33.2% [6][12] - 总计500小时数据、10万条演示轨迹 覆盖150类任务、1600种物体、58种操作技能 并以2Hz频率标注细分子任务指令 [8] - 操作中"仅手臂""躯干+手臂""全身协同"的动作占比均衡 技能分布呈长尾特征 既包含高频基础动作也包含特殊技能 [11] - 相较于BridgeData V2、Open-X-Embodiment等主流数据集 具有完全开放世界场景优势 数据采集无预设脚本 还原人类真实生活中的任务场景 [15][17] G0双系统框架设计 - 设计灵感来自Kahneman的"双系统理论" System 2负责规划 System 1负责反应 两者异步运行 G0-VLM以15Hz规划 G0-VLA以200Hz控制 [19] - G0-VLM接收人类高层指令并分解为可执行的子任务序列 G0-VLA接收子任务指令、实时视觉观察与机器人本体状态 生成连续动作序列实现闭环控制 [21] - 采用三阶段训练策略:阶段1跨本体预训练使用1000小时Open-X-Embodiment数据、500小时Galaxea数据集和200小时内部未标注数据 [27] - 阶段2单一本体预训练使用Galaxea数据集的完整标注数据 阶段3任务特定后训练每个任务仅用最多100条高质量轨迹 [28][29] 性能评估结果 - G0-Full模型表现最优 平均任务进度得分最高 在"拾取-放置"类任务中优势显著 [39] - 单一本体预训练不可或缺 G0-Stage2在语言跟随、动作一致性、全身控制上表现优于G0-Stage1 数据量400小时性能优于200小时 [39] - 在少样本迁移场景中 G0-Stage2系列模型任务进度得分显著高于G0-Scratch与G0-Stage1 跨本体预训练无优势 [40] - G0-VLM准确率领先主流VLM模型50%以上 在整理床铺上准确率达78.2% 桌面整理达83.3% [42][47] - G0-Stage2显著提升本体控制能力 在"走向床铺""躯干抬起抓被子"等技能上得分远超G0-Stage1与基线模型 [46]