Galaxea R1 Lite移动双臂机器人

搜索文档

具身智能之心· 2025-09-04 01:04

核心观点 - Galaxea开放世界数据集是首个在真实人类生活与工作环境中采集的大规模机器人行为数据集解决现有数据集场景单一、本体不一致、标注粗糙的问题 [3][5] - G0双系统框架通过视觉语言模型进行多模态规划并与视觉-语言-动作模型协同实现细粒度执行在桌面操作、少样本学习和长程移动操作等基准测试中表现优异 [3][5] - 三阶段课程训练策略包括跨实体预训练、单实体预训练和任务特定后训练单实体预训练阶段与Galaxea数据集的结合对实现强劲性能具有关键作用 [3][35][39] Galaxea开放世界数据集 - 数据采集通过统一机器人本体Galaxea R1 Lite移动双臂机器人进行具备23个自由度搭载头部立体RGB相机与手腕RGB-D相机负载能力达5kg [3] - 在11个物理站点的50个独特场景中采集涵盖住宅、零售、餐饮、办公四大核心场景住宅场景占比最高达50.8% 办公场景占33.2% [6][12] - 总计500小时数据、10万条演示轨迹覆盖150类任务、1600种物体、58种操作技能并以2Hz频率标注细分子任务指令 [8] - 操作中"仅手臂""躯干+手臂""全身协同"的动作占比均衡技能分布呈长尾特征既包含高频基础动作也包含特殊技能 [11] - 相较于BridgeData V2、Open-X-Embodiment等主流数据集具有完全开放世界场景优势数据采集无预设脚本还原人类真实生活中的任务场景 [15][17] G0双系统框架设计 - 设计灵感来自Kahneman的"双系统理论" System 2负责规划 System 1负责反应两者异步运行 G0-VLM以15Hz规划 G0-VLA以200Hz控制 [19] - G0-VLM接收人类高层指令并分解为可执行的子任务序列 G0-VLA接收子任务指令、实时视觉观察与机器人本体状态生成连续动作序列实现闭环控制 [21] - 采用三阶段训练策略：阶段1跨本体预训练使用1000小时Open-X-Embodiment数据、500小时Galaxea数据集和200小时内部未标注数据 [27] - 阶段2单一本体预训练使用Galaxea数据集的完整标注数据阶段3任务特定后训练每个任务仅用最多100条高质量轨迹 [28][29] 性能评估结果 - G0-Full模型表现最优平均任务进度得分最高在"拾取-放置"类任务中优势显著 [39] - 单一本体预训练不可或缺 G0-Stage2在语言跟随、动作一致性、全身控制上表现优于G0-Stage1 数据量400小时性能优于200小时 [39] - 在少样本迁移场景中 G0-Stage2系列模型任务进度得分显著高于G0-Scratch与G0-Stage1 跨本体预训练无优势 [40] - G0-VLM准确率领先主流VLM模型50%以上在整理床铺上准确率达78.2% 桌面整理达83.3% [42][47] - G0-Stage2显著提升本体控制能力在"走向床铺""躯干抬起抓被子"等技能上得分远超G0-Stage1与基线模型 [46]

具身智能

视觉-语言-动作（VLA）模型

Robotics

Galaxea Open-World Dataset

G0双系统VLA模型

Galaxea R1 Lite移动双臂机器人

具身智能

视觉-语言-动作（VLA）模型

Robotics

Galaxea Open-World Dataset

G0双系统VLA模型

Galaxea R1 Lite移动双臂机器人

Galaxea 团队推出：大规模高质量开放世界机器人数据集与G0双系统VLA模型

具身智能之心· 2025-09-03 03:23

数据集核心特征 - Galaxea开放世界数据集是在真实人类生活与工作环境中记录的大规模多样化机器人行为集合采用统一机器人实体采集并配有精确子任务级语言标注 [2] - 数据集覆盖11个物理站点的50个独特场景涵盖住宅零售餐饮办公四大核心场景其中住宅场景占比50.8% 办公场景占比33.2% [6][12] - 总规模达500小时数据 10万条演示轨迹覆盖150类任务 1600种物体 58种操作技能并以2Hz频率标注细分子任务指令 [8] 技术框架设计 - G0双系统框架耦合视觉语言模型（G0-VLM）与视觉-语言-动作模型（G0-VLA）分别以15Hz和200Hz频率异步运行平衡规划合理性与执行实时性 [19][21] - 采用三阶段课程训练策略：跨实体预训练获取通用知识单实体预训练适配目标机器人任务特定后训练精修复杂技能 [21][27][28][29] - 训练数据包含1000小时Open-X-Embodiment数据 500小时Galaxea数据集及200小时内部未标注数据 [27] 性能表现评估 - G0-VLM在指令准确率上显著领先主流模型整理床铺任务达78.2% 桌面整理达83.3% 较基线模型提升超50个百分点 [42][47] - 单一本体预训练阶段对性能提升至关重要 G0-Stage2-400h在语言跟随和动作一致性上表现最优且数据规模与性能呈正相关 [35][39] - 在少样本迁移场景中 G0-Stage2系列仅用20条轨迹微调即实现显著性能提升而跨本体预训练显示负迁移效应 [38][40][46] 差异化竞争优势 - 相较BridgeData V2等数据集具备完全开放世界场景采集单一本体一致性和细分子任务标注三大核心优势 [15][17][18] - 行为模式覆盖仅手臂躯干+手臂全身协同操作技能分布呈长尾特征既包含基础拾取动作也涵盖打开冰箱等特殊技能 [11] - 物体覆盖家电日用品等10余大类对难操作物体采用高保真复制品任务时长和复杂度呈多样化分布 [12]

具身智能

视觉-语言-动作（VLA）模型

Robotics

Galaxea Open-World Dataset

G0双系统框架

Galaxea R1 Lite移动双臂机器人

具身智能

视觉-语言-动作（VLA）模型

Robotics

Galaxea Open-World Dataset

G0双系统框架

Galaxea R1 Lite移动双臂机器人