推理 - 动作闭环
搜索文档
全部超越了π0、π0.5!端到端全身VLA模型Lumo-1:迈进推理-行动闭环时代
具身智能之心· 2025-12-11 02:01
文章核心观点 - 星尘智能公司推出的端到端全身视觉-语言-动作模型Lumo-1,通过创新的三阶段训练架构,显著提升了机器人在复杂物理环境中的推理与操作能力,使其能够处理多步骤长时序任务、理解抽象模糊指令并泛化至未见过的场景,在多项基准测试和真实任务中超越了当前主流先进模型[7][9][11] 技术方案:Lumo-1模型架构与训练 - 模型采用三阶段训练架构:第一阶段为具身化视觉语言模型预训练,在7个经典具身推理基准中大部分超过RoboBrain-7B、Robix-7B等专用模型[15];第二阶段为跨本体联合训练,融合多机器人、多视角轨迹与VLM数据,强化指令跟随与空间推理能力[16];第三阶段为基于绳驱机器人Astribot S1高质量真机轨迹的推理-动作训练,学习真实世界的可执行动作模式[16] - 训练最后加入强化学习推理-行动对齐,通过多维度的奖励信号校准高级推理与低级动作之间的误差,使模型在任务成功率、动作合理性与泛化能力上显著超越仅模仿专家示范的原始表现[18][27] - 训练策略验证了数据多样性(场景、物体、指令的覆盖面)对泛化能力的影响远超数据重复次数,为行业指明了注重数据质量的方向[28] 核心技术创新 - 引入动作空间建模,将连续动作轨迹压缩并聚类成紧凑的“动作单词”token,能像组合句子一样复用和组合动作,比FAST与分桶方法更紧凑稳定,减少了数据收集引入的无关噪音[19] - 采用结构化推理,将推理拆解为文字推理与视觉推理两个维度,形成解释动作的结构化推理链,使“为什么这样做”先于“怎么做”,并将2D视觉理解映射为3D控制路径点[22][23] - 模型展现出强大的抽象概念推理与实时决策能力,例如理解“代表爱情的花”指代玫瑰,或当左臂遇障时实时推理并切换为右臂执行任务[23][25] 性能表现与成果 - 在多步骤长时序、精细灵巧操作、可泛化抓取放置三大类核心机器人操作任务中,Lumo-1全部超越了π0、π0.5等先进模型[9][11] - 在未见过的物体、场景和指令等分布外情况,以及抽象、模糊、需扩展推理的指令中,模型优势更为明显[9][11] - 在7个多模态基准测试中的6个优于骨干模型Qwen2.5-VL-7B,并超越了专门的具身模型RoboBrain-7B和Robix-7B,且融入动作学习后未损害核心多模态感知与推理能力[29] - 在真实环境部署中,机器人S1展现出强大的泛化能力,如面对不同高度容器自动调整手臂姿态,或准确识别从印刷体换成手写体的菜单并进行食材配对[29] 行业意义与影响 - 该研究标志着机器人从依赖“轨迹记忆”和“动作库”模仿,向具备“理解烹饪原理”般的多层次推理能力演进,使机器人能理解任务意图、拆解子任务并规划运动路径[6][10] - 技术方案解决了当前主流视觉-语言-动作模型在开放环境中的三大缺陷:抽象概念失效、环境泛化困难以及长时序任务易崩溃[6] - 通过将大模型“心智”与高质量真机训练结合,实现了“心手合一”,让推理能直接转化为丝滑的全身操作,推动了具身智能向更通用、更智能的方向发展[7]