Workflow
具身智能之心
icon
搜索文档
NeurIPS'25! AutoSeg3D:在线完成任意3D分割,只需1张4090
具身智能之心· 2025-12-12 01:22
点击下方 卡片 ,关注" 具身智能 之心 "公众号 编辑丨 具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 前沿 在大模型时代都在拼scaling,对于具身自驾这种任务似乎都想要8卡起步训练一个模型,今天借助分享的机会也给大家推荐可以1张4090就能发顶会的方向,就是本 文写的具身场景点云实例分割。当然不是说推荐给大家一个用少量资源"水论文"的方式,当时让学生做这个方向也是因为觉得是可以真实落地的技术,也没特别出 乎意料,这篇论文已经开始在两家公司进行技术转化切实落地。对于具身来说,VLA或者各种所谓世界模型是很fancy,但是还有很多听起来不那么fancy的方向既 能发论文又能真实落地,也希望能看到更多底层技术可以被研究优化支撑真正的产业化。 也欢迎大家来无界-AutoLab联合实验室(上海)实习,一起共创各种有意 思的技术方向:) -- Dylan老师 论文总结 (1)作者发现现有的在线 VFM 辅助方法通常先用 SAM 等 VFMs 预测 2D ...
AAAI 2026 Oral | 机器人也能“看人学活”?一次示范就能学会新任务!
具身智能之心· 2025-12-12 01:22
研究背景与问题 - 从人类示范中学习是机器人执行任务的一种潜力巨大的方式 但现有方法通常依赖粗对齐的视频对 只能学习全局或任务级别的特征 忽略了复杂操作和泛化所需的细粒度帧级动态信息[3] - 现有模型在已见任务上表现良好 但面对人类展示的从未见过的新任务时表现不佳 原因在于主流方法依赖粗糙的人机视频对齐 机器人只能大概知道人在干什么 却不知道人手具体如何动作[8] - 数据不够精细导致模型学不到关键动作细节 许多方法将整段视频压缩成固定长度向量 丢失了细节 使得模型无法理解动作间的微小差别 从而缺乏真正的泛化能力[8] 解决方案与核心创新 - 复旦大学和上海创智学院提出了一种范式转变 将细粒度的人机动作对齐视为一个条件视频生成问题[3] - 核心创新是让机器人看着人类做 然后脑补出自己应该怎么做 即直接生成一段对应的机器人操作视频 该方法要求模型逐帧预测机器人下一步如何移动 从而在生成过程中学会动作细节和理解操作逻辑[8] - 为支持该方法 研究团队引入了一个全新的第三人称数据集H&R 该数据集包含2,600段通过VR远程操控系统采集的精准同步的人类和机器人动作视频 涵盖4类基础任务和6类复杂长程任务[3][9] Human2Robot技术框架 - 该方法分为两个阶段 第一阶段是视频预测 机器人看到人类操作时 模型直接生成一段机器人应该如何动作的视频 模型先学会生成单帧 再进阶训练整个视频以掌握完整的动作演化过程[12][13][14] - 视频预测模型包含三个关键组件 Spatial UNet负责捕捉机械臂形状和手部动作等关键信息 Spatial-Temporal UNet负责理解动作连贯性并学会逐帧预测的时间关系 Behavior Extractor负责提取人手的位置、速度和方向等运动线索[15] - 第二阶段是动作解码 由于视频渲染速度慢不适合实时操作 因此只取一次去噪后的中间特征 这些特征已包含机械臂下一步的位置、动作趋势和物体相对关系 然后训练一个动作解码器来输出机器人的关节角或位姿[16][21] 实验结果与性能 - 在已见任务上 Human2Robot方法在所有任务上均取得最高成功率 对比基线方法DP、XSkill和VPP Human2Robot保持超过10–20个百分点的优势[20] - 具体数据表明 在Push & Pull任务上Human2Robot成功率为100% 在Pick & Place任务上为90% 在Rotation任务上为90% 平均成功率为93%[19] - 引入KNN推断的Human2Robot在所有任务上仍优于各基线方法 相比完整版本 KNN策略仅带来约10–20%的成功率下降 处于可接受范围内[20] 泛化能力评估 - 该方法能够实现对新的位置、物体、实例 甚至全新任务类别的一次性泛化 对于一个没见过的任务 只需要给一段人类完成任务的视频 即可让机器人完成这个任务[4] - 在六类泛化设置中 Human2Robot在位置、外观、实例与背景变化下均保持领先 并能完成组合任务与全新任务 而XSkill与VPP在后两者上均失败[27] - 泛化优势被认为源于H&R数据集提供的明确人机动作对应关系 以及视频条件提供的细粒度动态信息 这使得策略具备了跨任务泛化能力[27] 消融研究与有效性验证 - 测试了直接从人类视频预测机器人动作的方式 该方法平均成功率仅为23% 动作执行抖动明显 对抓取等关键行为不敏感 说明仅依靠人类视频推断机器人动作映射较为困难[25] - 为验证视频生成预训练的必要性 设计了未进行预训练的变体 结果显示该方法几乎无法完成任务 最简单的推拉任务成功率仅为20% 抓取放置任务仅为10% 证明视频预训练对于建立动作先验至关重要[26] - 可视化分析表明 仅经过一步去噪的预测已包含足够的动作信息 可有效支持后续的动作规划 30步去噪结果与真实机器人视频高度一致 验证了所提出视频预测模型架构的有效性[24]
具身智能之心求职与内推服务正式对外啦!
具身智能之心· 2025-12-11 09:33
具身智能之心的职位内推服务正式对外啦!近50家主流具身公司,校招&社招&实习均可。第一时间拿到靠谱 和高薪的岗位,欢迎简历砸来~ 这些问题,我们将逐个答复~~~ 各家公司的薪资结构 √ 技术路线和上升通道 √ 未来行业发展的前景 √ 工作到底适不适合自己的性格 √ ...... ...
只用SO-100可以完成π0和π0.5的效果吗?
具身智能之心· 2025-12-11 09:33
文章核心观点 - 文章指出视觉语言动作模型在从理论到实际部署的落地过程中存在显著障碍 包括开源模型难以复现效果、训练与部署脱节、以及缺乏系统性的实战指导 [2][4][10] - 文章旨在推广一门名为《面向实战与求职的VLA小班课》的课程 该课程宣称是国内首个系统性解决VLA落地难题的实战课程 提供从硬件、数据采集、算法训练到真机部署的全栈教学 [10][12][15] VLA模型落地的主要挑战 - **开源模型复现困难**:GR00T、π0等模型虽已开源 但依据开源代码难以展示出良好的演示效果 [2] - **训练与部署脱节**:训练过程像炼丹 损失函数虽已降低 但部署到实体机器人进行推理时任务常失败 且原因难以定位 [2] - **世界模型应用模糊**:业界讨论世界模型已一年多 但学习者不清楚如何在训练和推理中实际应用 [2] - **全流程打通门槛高**:将数据、VLA模型、训练优化、部署整套流程打通对初学者非常困难 有人踩坑半年仍无法入门或取得好效果 [4] - **模型训练存在大量“技巧”**:特别是π0、π0.5、GR00T这类模型 在数据采集和模型训练环节存在许多未公开的细节与技巧 [4] VLA落地的关键模块与难点 - **数据采集**:主要方法包括基于模仿学习的遥操作、VR、全身动捕捉 在机械臂+VLA领域更多采用前两种 如何采集高质量数据及实现仿真到现实的转换是关键难点 [5][6] - **模型训练**:真机部署前需进行仿真调试 在真机数据不足时 使用Mujoco、Isaac Gym等框架进行仿真与Sim2Real尤为重要 [7] - **训练技巧至关重要**:如何微调模型、如何在小数据量下取得好结果是核心 许多学习者训练的模型存在机械臂运动不准、夹爪控制不好或运动误差大的问题 [7] - **算法选择影响效果**:ACT等算法相对简单易出效果 而π0和π0.5则非常难训练 对细节和技巧要求高 强化学习优化模型也极具挑战性 [7] - **模型部署与轻量化**:具身模型参数量大 即使是2B规模的模型 对边缘芯片部署挑战也很大 需通过量化、蒸馏等轻量化操作在保证性能的同时最小化参数量 [9] 课程解决方案与内容 - **课程定位**:该课程由具身智能之心平台联合业内VLA专家开发 是国内首个面向实战与求职的VLA小班课 旨在解决技术更新快、学习困难的问题 [10] - **课程内容全面**:课程涵盖机械臂硬件、数据采集、VLA算法、评测、仿真、主流VLA模型部署、VLA+世界模型、各类真机实验以及具身产业讲解 [12] - **课程硬件配套**:购买课程即赠送一套SO-100机械臂 包含示教臂和执行臂 [17] - **讲师背景**:讲师为某机器人公司VLA高级研究员 拥有5年以上机器人行业实战经验 精通具身智能全栈技术 并在顶级期刊发表学术论文10余篇 [20] 课程面向人群与要求 - **目标学员**:包括正在具身领域求职需要实战项目的同学、VLA领域需要进阶的学习者、从事具身智能研究的各学历层次学生、希望从传统CV、机器人或自动驾驶转行的人员 以及对领域感兴趣的其他人员 [22] - **硬件与基础要求**:建议推理使用RTX 3060及以上显卡 训练建议2张以上RTX 3090 Ti 也可自租云服务器 学员需具备一定的Python和PyTorch基础 [22] 课程学习收获与安排 - **学后收获**:学员将掌握真机调试与数据采集、各类VLA算法在真机上的部署、对VLA模型量化有深入了解、对具身产业落地有清晰认识 简历可获得足够项目支撑 学完可达1-2年以上算法工程师经验水平 [25] - **开课时间**:课程于2025年12月30日正式开课 共分九章 持续至2026年2月25日 [23][26]
全球首个!灵巧手真实世界具身数采引擎Psi-SynEngine来了
具身智能之心· 2025-12-11 04:02
公司核心业务与战略定位 - 公司专注于通用具身智能、视觉语言动作大模型以及灵巧操作算法等前沿技术,致力于打造业界领先的通用操作智能体 [2][16] - 公司的战略选择是做通用灵巧操作,认为灵巧手与人手形态差异最小,数据迁移效率最高 [6] - 公司已成功推出行业内首个端到端强化学习具身模型 Psi R0、R0.5 及 R1,成为行业内率先实现长程任务的具身模型研发企业 [16] 数据采集方案 Psi-SynEngine 的发布与意义 - 公司发布全球首个具身原生人类数据采集方案 Psi-SynEngine,标志着其全自研的真实世界具身数据引擎正式启动 [3] - 该方案从根本上突破了行业数据采集的困境,直接采集一线作业人员在真实工作中的操作数据,覆盖物流、工厂、商超、酒店和家庭等真实场景,无需二次迁移 [5] - 该方案的发布标志着公司基于人类真实操作数据的具身智能新范式正式确立,意味着向真实世界的具身 AI 大模型预训练拥有了可规模化的可能 [14] Psi-SynEngine 的技术构成与优势 - 方案包含便携式外骨骼触觉手套数采套装、大规模 in the wild 数采数据管线、基于世界模型和强化学习的跨本体数据迁移模型 [3] - 相比传统方案具有三大优势:1) 成本低,数据获取成本仅为真机遥操方案的 10%;2) 多模态高自由度,能完整采集触觉、视觉、动作、语言的操作数据;3) 便携性强,可大规模并行采集,效率极高 [7][11] - 自主研发的外骨骼触觉手套定位精度最高能达到亚毫米级别,可完整采集手部和手臂的全部自由度及全手触觉信息,同时不影响正常操作 [9] - 核心技术护城河在于解决了人手与灵巧手之间的跨本体差异,通过基于世界模型、强化学习和触觉模态对齐的解决方案,有效弥合 embodiment gap,提升模型泛化性和成功率 [10] 数据集 Psi-SynNet-v0 的特征与规划 - 同步发布覆盖视觉、语言、触觉、动作的大规模真实世界多模态数据集 Psi-SynNet-v0 [3] - 该数据集具备四大核心特征:1) 数据多样性强,覆盖多行业、多场景、多物体与多技能;2) 模态覆盖全面;3) 数据规模海量,量级达到大语言模型同级水平;4) 自闭环已验证,已在多个落地产业中完成闭环验证 [12] - 公司已迅速构建出上万小时规模的 Psi-SynNet-v0 数据集,并计划于明年突破百万小时量级,这将是全球最大的灵巧操作数据集 [14] 行业痛点与现有方案局限 - 数据问题是困扰整个具身智能领域的痛点 [5] - 行业现有数据采集方案存在三大局限:1) 仿真环境数采存在 Sim-to-Real 差距,调参与场景搭建成本高;2) 机器人遥操数采难以规模化,成本高效率低;3) UMI设备数采(双夹爪)存在本质局限,无法满足精细操作需求,根据美国劳工部数据,工厂内 98.7% 以上的工序都需要双手多指协同完成 [11] 硬件、平台与数据闭环体系 - 公司构建了完整的硬件与平台体系,包括专为数采设计的外骨骼触觉手套、支持大规模数据处理的自建管线与平台,并配合自研大模型完成高精度数据标注和后处理,形成完整的数据生产闭环 [9] - 数据体系已在公司多个落地产业中完成闭环验证,确保所采集数据能够高度匹配算法需求,并持续推动模型迭代 [12]
连场景都做?这家给智元机器人造大脑的公司4个月融了3个亿
具身智能之心· 2025-12-11 04:02
公司概况与融资 - 公司为星源智机器人,成立不到半年,已完成超亿元人民币天使+轮融资,天使轮融资额达2亿元 [1] - 公司由北京智源研究院孵化,在北京亦庄注册,目标是让机器人理解物理世界并自主行动 [2] - 本轮融资资金将用于具身大脑专业版RoboBrain Pro的研发、垂直行业解决方案拓展及高端人才引进 [1] 核心团队背景 - CEO刘东曾任京东智能驾驶总经理,牵头京东无人配送车全国落地 [2] - 联合创始人穆亚东为北京大学研究员、智源学者,近五年发表具身智能顶会论文30余篇 [2] 核心产品与技术 - 产品体系为“通用大脑”加“算力炸弹” [3] - 推出跨本体具身大脑RoboBrain,同一套AI系统可在机械臂、AGV、人形机器人之间即插即用,无需重复训练 [3] - 该产品已搭载于智元机器人发布的工业级交互式具身作业机器人“精灵G2”上 [3] - 推出T5算力平台,基于NVIDIA Jetson Thor处理器开发,具备2070 TOPS端侧算力,拥有强大的Transformer模型加速能力 [5] - 该算力平台可满足复杂场景下的实时感知、智能决策与精准控制需求,使边缘端能实时推理,成本降低60% [5] 商业化进展与订单 - 与北京亦庄机器人科技园签署三年5亿元战略协议,公司将作为“大脑”供应商入驻园区所有机器人项目 [5] - 与全球最大电动叉车厂商中力机械联合发布“具身装卸”方案,首批交付预计在明年第二季度完成 [5] - 智元机器人作为合作伙伴,在公司天使轮融资中就已参与 [3] 投资逻辑与行业价值 - 公司在短时间内完成了将具身大脑加载到算力平台的工作,覆盖了算法、算力、场景,这体现了其商业化价值 [6]
从视频生成到机器人操控:VideoVLA 开启通用机器人新范式
具身智能之心· 2025-12-11 04:02
文章核心观点 - 由西安交通大学、微软亚洲研究院等机构联合提出的VideoVLA框架,创新性地将大规模视频生成模型转化为端到端的视觉-语言-动作系统,通过“动作预测+视觉想象”的双目标策略,首次实现了机器人在未知场景下的稳健泛化,为通用机器人操控提供了全新技术路径 [2][3][26] 传统VLA模型的局限性 - **泛化能力受限**:传统VLA模型依赖预训练视觉语言理解模型,对未知物体、未学习技能的适配能力差,难以应对真实世界的多样性 [5] - **缺乏物理推理能力**:现有模型多专注于动作映射,缺乏对动作物理后果(如抓取受力、放置稳定性)的建模 [6] - **规划能力不足**:复杂任务需预判动作序列的视觉反馈,传统模型缺乏“视觉想象-动作规划”的联动机制 [7][9] VideoVLA技术方案 - **核心思路**:利用视频生成模型从海量真实世界视频中学到的物理合理性与场景动态规律,改造视频扩散Transformer,新增动作输出模态,实现“语言指令+当前视觉→动作序列+未来视觉”的端到端预测 [12] - **三层技术架构**: - 输入编码层:语言指令用T5编码器转为226维令牌序列;视觉输入用CogVideoX的3D因果VAE编码器转为latent表征 [14] - 核心建模层:采用Diffusion Transformer统一建模视频、语言、动作三模态;动作用7维向量表征(3维旋转+3维平移+1维夹爪状态) [14] - 输出层:协同预测K步动作序列和N帧未来视觉latent,通过VAE解码器可还原为视频 [14] - **训练与推理**: - 预训练基于Open X-Embodiment数据集(含超过100万机器人轨迹、22种机器人形态),迭代10万次 [14] - 真实世界微调使用Realman 7自由度机械臂数据集,迭代1.5万次 [14] - 推理采用DDIM采样(50步去噪),仿真场景预测49帧未来视觉,真实场景预测13帧 [14] 性能验证:域内任务 - **WidowX机器人**:在4项任务(如放置、堆叠)上平均成功率达到53.1%,远超基线模型RT-1-X(1.1%)和Octo-Base(17.0%) [15] - **Google机器人**:在VA协议下平均成功率达到62.8%,优于CogACT(61.4%)和π₀(43.4%)等先进模型 [15] - **Realman机器人**:在真实世界“放置”任务中平均成功率达到56.3%,显著高于OpenVLA(14.6%)和SpatialVLA(10.4%) [15] 性能验证:泛化能力 - **未知物体操控**:在YCB和GSO数据集的10种未训练物体上,平均成功率达到65.2%,在8种物体上排名第一,远超OpenVLA(6.4%)和SpatialVLA(50.8%) [16] - **跨机器人技能迁移**:将WidowX机器人的8种未训练技能迁移到Google机器人,平均成功率达到48.6%,比第二名CogACT(20.4%)高出28.2个百分点 [18] 关键发现与消融实验 - **视觉想象与执行强相关**:未知物体场景中,视觉想象成功率84.0%,实际执行成功率65.2%;新技能场景中,视觉想象成功率63.4%,实际执行成功率48.6% [19][23] - **运动轨迹相似度分析**:当视觉想象与实际执行的keypoint轨迹相似度高于0.6时,任务成功率超过80% [21] - **预训练骨干网络价值**:使用CogVideoX-5B预训练模型性能达80.4%,比从零训练(12.6%)提升6倍 [22][25] - **预测帧数影响**:预测49帧(80.4%)优于25帧(77.4%)和13帧(75.2%),更长时间视野提升规划准确性 [24][25] - **双预测策略核心作用**:仅预测动作时平均性能降至25.5%,无视频损失时降至27.0%,验证双目标协同的必要性 [25] 当前局限与未来方向 - **当前局限**: - 推理速度:单H100 GPU推理约1.1秒/步,控制频率3Hz,难以满足高速操控 [28] - 长序列任务:复杂多步骤任务的规划能力仍需提升 [28] - 小物体处理:微小物体在遮挡场景下的抓取成功率较低 [28] - **未来方向**: - 模型轻量化,优化视频生成骨干网络以降低计算开销 [28] - 采用单步去噪等技术减少扩散步骤,提升推理速度 [28] - 引入触觉、力反馈等多模态传感器信息,增强物理交互精度 [28]
告别专家依赖,让机器人学会自我参考,仅需200步性能飙升至99.2%
具身智能之心· 2025-12-11 02:01
文章核心观点 - 复旦大学、同济大学与上海创智学院的联合研究团队提出了一种名为“自参考策略优化(SRPO)”的新框架,旨在解决视觉语言动作(VLA)模型在机器人操作任务中面临的奖励稀疏和依赖专家数据等瓶颈问题 [3] - SRPO框架通过构建内生的自参照评估机制,利用模型自身生成的成功轨迹作为参照来评估和引导失败尝试,从而实现了无需外部专家数据注入、免除任务特定奖励工程的自适应策略优化 [3][9] - 该方法在多个基准测试中取得了突破性成果,包括在LIBERO榜单上以99.2%的成功率刷新SOTA,在LIBERO-Plus的泛化任务上性能提升167%,并能显著提升开源模型在真实机器人上的表现 [3][12] 动机与贡献 - 当前VLA模型性能严重依赖成本高昂的专家示范数据,且存在“示范偏差”,而强化学习又常因“奖励稀疏”问题导致训练效率低下 [3][6] - 基于组优化的方法(如GRPO)是VLA-RL的重要技术路径,但仍面临多轮轨迹推理计算成本高、对失败轨迹信息利用低效的挑战 [6] - 研究团队提出自我参考学习范式,将监督问题的核心从“如何获取专家标签”转变为“如何从自身成功经验中提取渐进式奖励” [9] - 核心贡献包括:1)提出SRPO框架,缓解奖励稀疏性问题并消除对专家示范的依赖 [10];2)提出基于潜在世界表征的渐进式奖励方法,克服传统像素级世界模型的泛化局限 [11];3)实验验证了该方法在基准测试中的SOTA性能、强大泛化能力及真机可迁移性 [12] 技术方案 - SRPO采用“向成功者学习”的方式,核心环节包括:同策略轨迹收集、世界表征提取与聚类、渐进式奖励计算及策略更新 [14][17] - 框架将机器人决策过程形式化为部分可观察马尔可夫决策过程(POMDP),并引入世界模型驱动的任务无关奖励建模机制,为失败轨迹提供渐进式奖励信号 [18][19] - 奖励建模方法分为三步:1)将轨迹观察序列编码为世界模型潜空间表征 [20];2)对成功轨迹的潜在表征进行聚类,获得代表性中心以捕捉关键行为模式 [21];3)计算失败轨迹表征到最近成功中心的距离,并通过批次归一化将其转化为0到1之间的渐进式奖励 [22][23] - 策略优化使用PPO风格的裁剪目标函数,并添加KL散度正则项以保持策略稳定性,利用世界进展奖励替代传统任务特定奖励来计算优势估计 [24][26] 实验结果 - 在LIBERO基准测试中,仅使用第三视角图像和语言指令的SRPO模型取得了99.2%的平均成功率,超越了众多依赖腕部视角、本体感知、3D输入等更复杂输入的模型 [29][30] - 具体而言,仅用200步强化学习,模型成功率从初始的48.9%飙升至99.2% [29] - 在更具挑战性的LIBERO-Plus泛化测试中,SRPO带来的性能提升高达167%,即便未使用任何泛化场景数据进行训练,其性能也超越了经过15万步监督学习的基线模型 [31][32] - 在训练效率方面,对于LIBERO长时序任务,初始模型One-shot SFT成功率仅17.3%,SRPO仅用219步即提升至98.6%,相比同期GRPO性能提升15.3%,相较15万步的full-shot SFT模型性能提升12.9% [36] - 在真实机器人测试中,将SRPO的奖励建模应用于开源模型,在五个真机任务上,模型成功率相对SFT基线分别提升了66.8%和86.7% [39] - 此外,SRPO训练后的模型能够自主探索出专家轨迹中不存在的新路径与抓取姿态,展现了超越示范的创造性 [42] 潜在价值与行业意义 - 研究发现,SRPO可以作为Physical Intelligence公司提出的RECAP方法的零成本替代方案,后者需要针对每个任务收集数据并微调价值模型,而SRPO无需任何任务微调即可实现相似的价值曲线趋势 [45][46][54] - 该方法标志着机器人学习从依赖外部专家数据的“模仿”阶段,向利用自身成功经验和物理世界常识进行“创造”和“自主”学习的范式转变 [56] - SRPO为VLA强化学习开辟了一条无需昂贵数据标注、复杂奖励设计或密集专家示范的新路径,有望降低机器人智能化的开发门槛和成本 [56]
深大团队让机器人精准导航!成功率可达72.5%,推理效率+40%
具身智能之心· 2025-12-11 02:01
编辑丨 量子位 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 让机器人听懂指令,精准导航再升级! 深圳大学李坚强教授团队最近联合北京理工莫斯科大学等机构,提出视觉-语言导航 ( VLN ) 新框架—— UNeMo 。 通过 多模态世界模型 与 分层预测反馈机制 ,能够让导航智能体不仅可以看到当前环境,还能预测接下来可能看到的内容,并据此做出更聪 明的决策。 相比主流方法,UNeMo可大幅度降低资源消耗,在未见过的环境中导航成功率可达72.5%,尤其是在 长轨迹导航 中表现突出。 目前,该论文已入选AAAI2026。 以下是更多详细内容。 语言推理与视觉导航的"脱节困境" 作为Embodied AI的核心任务之一,视觉-语言导航要求智能体仅凭 视觉图像 和 自然语言 指令,在未知环境中自主完成目标导航。 而随着大语言模型 ( LLM ) 的兴起,基于LLM的导航方法虽取得进展,但仍面临两大关键瓶颈: 双模块协同打造"预判+决策"闭环 推理模态单一:现有方法仅 ...
全部超越了π0、π0.5!端到端全身VLA模型Lumo-1:迈进推理-行动闭环时代
具身智能之心· 2025-12-11 02:01
文章核心观点 - 星尘智能公司推出的端到端全身视觉-语言-动作模型Lumo-1,通过创新的三阶段训练架构,显著提升了机器人在复杂物理环境中的推理与操作能力,使其能够处理多步骤长时序任务、理解抽象模糊指令并泛化至未见过的场景,在多项基准测试和真实任务中超越了当前主流先进模型[7][9][11] 技术方案:Lumo-1模型架构与训练 - 模型采用三阶段训练架构:第一阶段为具身化视觉语言模型预训练,在7个经典具身推理基准中大部分超过RoboBrain-7B、Robix-7B等专用模型[15];第二阶段为跨本体联合训练,融合多机器人、多视角轨迹与VLM数据,强化指令跟随与空间推理能力[16];第三阶段为基于绳驱机器人Astribot S1高质量真机轨迹的推理-动作训练,学习真实世界的可执行动作模式[16] - 训练最后加入强化学习推理-行动对齐,通过多维度的奖励信号校准高级推理与低级动作之间的误差,使模型在任务成功率、动作合理性与泛化能力上显著超越仅模仿专家示范的原始表现[18][27] - 训练策略验证了数据多样性(场景、物体、指令的覆盖面)对泛化能力的影响远超数据重复次数,为行业指明了注重数据质量的方向[28] 核心技术创新 - 引入动作空间建模,将连续动作轨迹压缩并聚类成紧凑的“动作单词”token,能像组合句子一样复用和组合动作,比FAST与分桶方法更紧凑稳定,减少了数据收集引入的无关噪音[19] - 采用结构化推理,将推理拆解为文字推理与视觉推理两个维度,形成解释动作的结构化推理链,使“为什么这样做”先于“怎么做”,并将2D视觉理解映射为3D控制路径点[22][23] - 模型展现出强大的抽象概念推理与实时决策能力,例如理解“代表爱情的花”指代玫瑰,或当左臂遇障时实时推理并切换为右臂执行任务[23][25] 性能表现与成果 - 在多步骤长时序、精细灵巧操作、可泛化抓取放置三大类核心机器人操作任务中,Lumo-1全部超越了π0、π0.5等先进模型[9][11] - 在未见过的物体、场景和指令等分布外情况,以及抽象、模糊、需扩展推理的指令中,模型优势更为明显[9][11] - 在7个多模态基准测试中的6个优于骨干模型Qwen2.5-VL-7B,并超越了专门的具身模型RoboBrain-7B和Robix-7B,且融入动作学习后未损害核心多模态感知与推理能力[29] - 在真实环境部署中,机器人S1展现出强大的泛化能力,如面对不同高度容器自动调整手臂姿态,或准确识别从印刷体换成手写体的菜单并进行食材配对[29] 行业意义与影响 - 该研究标志着机器人从依赖“轨迹记忆”和“动作库”模仿,向具备“理解烹饪原理”般的多层次推理能力演进,使机器人能理解任务意图、拆解子任务并规划运动路径[6][10] - 技术方案解决了当前主流视觉-语言-动作模型在开放环境中的三大缺陷:抽象概念失效、环境泛化困难以及长时序任务易崩溃[6] - 通过将大模型“心智”与高质量真机训练结合,实现了“心手合一”,让推理能直接转化为丝滑的全身操作,推动了具身智能向更通用、更智能的方向发展[7]