开源模型技术突破 - Physical Intelligence开源π0.5模型 通过知识隔离训练实现更强的开放世界泛化能力[1] - 自变量机器人开源端到端具身智能基础模型WALL-OSS 包含完整预训练模型权重、训练代码和部署文档[3] - WALL-OSS采用紧耦合架构与多策略训练 在单一框架内整合指令推理、子目标分解与细粒度动作合成[8] 技术架构创新 - 采用QwenVL2.5-3B作为主干网络 接收视觉与文本输入并生成多模态输出[12] - 训练采用"先离散、后连续、再联合"三阶段pipeline 仅需RTX 4090级别算力即可完成全流程[14] - 通过流匹配方法实现离散到连续动作预测的转换 采用共享注意力+专家分流架构[16] - 实现统一跨层级思维链 覆盖从语义到感觉运动的完整推理链条[18] 性能表现优势 - 在具身视觉问答基准测试中 WALL-OSS在物体定位任务达到91.6%准确率 较基础模型46.1%提升显著[27][28] - 场景描述任务准确率87.6% 较基础模型57.7%提升近30个百分点[27][28] - 在抓取放置任务中 对已知物体指令达到85%平均任务进度 对新物体指令保持61%性能[29] - 在数据稀缺任务中(500条演示) 预训练模型保持90%以上成功率 未预训练模型降至20%以下[31] - 在积木拼写任务中 字母识别准确率达87% 数字识别达95% 显著高于动作专用模型的26%和80%[34] 数据集与训练 - 构建数万小时具身中心多源数据集 包含自收集机器人数据、开源动作数据和多模态视觉问答数据[20] - 数据集涵盖短程操作任务和长程推理任务 需任务分解、进度跟踪和实时决策能力[22] - 采用多模型pipeline进行细粒度步骤标注 辅以人工抽查和质量控制[23] - 按场景/物体/任务/形态分层抽样 对长程任务和稀缺技能采用温度控制重采样策略[24] 行业影响与公司发展 - 端到端系统被业内公认为最终形态 国内外具身团队都在深入研究突破[3] - 自变量机器人成立于2023年12月 聚焦自研通用具身智能大模型[39] - 公司已完成近10亿元A+轮融资 资金将投入全自研通用具身智能基础模型的持续训练[39] - 行业形成本体和大脑两条创业路线 硬件看宇树 大脑看自变量[39]
π0.5开源前,国内也开源了一个强大的端到端统一基础模型!具备强泛化和长程操作
具身智能之心·2025-09-11 02:07