文章核心观点 - AI机器人公司星尘智能推出的端到端全身视觉-语言-动作模型Lumo-1,通过创新的三阶段训练架构,显著提升了机器人在复杂物理环境中的推理与操作能力,使其在多步骤长时序任务、精细操作及泛化能力上超越现有先进模型[9][11][12] 技术模型:Lumo-1的架构与训练 - Lumo-1是一个端到端全身VLA模型,旨在实现机器人的“心手合一”,通过具身化VLM、跨本体联合训练、推理-动作真机训练以及强化学习校准对齐等方式,将大模型“心智”转化为流畅的全身操作[9] - 训练采用三阶段架构:第一阶段为具身化VLM,在精选数据上预训练以获得空间理解等能力,在7个经典具身推理基准中大部分超过RoboBrain-7B、Robix-7B等专用模型[12][17];第二阶段为跨本体联合训练,融合多机器人数据以强化指令跟随与空间推理[18];第三阶段为真机推理-动作训练,利用绳驱机器人Astribot S1的仿人示教轨迹学习真实世界的可执行动作模式[18] - 最后加入强化学习推理-行动对齐,通过多维度的奖励信号校准高级推理与低级动作之间的误差,使模型在任务成功率、动作合理性与泛化能力上显著超越仅模仿专家示范的表现[20][29] 核心能力与性能表现 - Lumo-1在多步骤长时序、精细灵巧操作、可泛化抓取放置三大类核心操作任务中,全部超越了π0、π0.5等先进模型[11][13] - 在未见过的物体、场景和指令等分布外情况,以及处理抽象、模糊、需扩展推理的指令时,优势更为明显[11][13] - 在7个多模态基准测试中的6个优于其骨干模型Qwen2.5-VL-7B,并超越了专门的具身模型RoboBrain-7B和Robix-7B,同时未损害核心多模态感知和推理能力[31] 关键技术拆解 - 动作空间建模:通过空间动作分词器将连续动作轨迹压缩成可复用、组合的“动作单词库”,比FAST与分桶方法更紧凑和稳定,减少了数据收集引入的无关噪音[21] - 结构化推理:将推理拆解为文字推理与视觉推理两个维度,形成解释动作的结构化推理链,使“为什么这样做”先于“怎么做”,并将视觉理解映射为路径点预测,实现从2D到3D控制的自然过渡[24][25] - 数据策略:采用数据受限扩展定律验证,发现在固定模型规模下,数据多样性对泛化能力的影响远超数据重复次数,指明了注重数据质量的方向[30] 实际应用与泛化案例 - 机器人能够处理复杂、长时序的日常活动任务,如清扫、削皮、倾倒、刷洗、折叠等,这些任务可自然分解为多个子任务[23] - 展现出强大的抽象概念推理和情境理解能力,例如:理解“代表爱情的花”并放入花瓶;根据“KFC里的东西”推理出炸鸡、汉堡;根据“画海洋的工具”找到蓝色画笔[25] - 具备灵活的实时决策能力,例如在“把可乐放到盘子上”任务中,当左臂路径被加入障碍物时,能实时推理并切换为使用右臂[27] - 在真实环境中展现出惊人的泛化能力,如面对不同高度容器自动调整手臂姿态,以及识别从印刷体换成手写体的菜单并完成食材配对[31]
全部超越π0、π0.5!端到端全身VLA模型Lumo-1
自动驾驶之心·2025-12-12 03:02