机器人模型即服务（RMaaS） - 财报，业绩电话会，研报，新闻

机器人模型即服务（RMaaS）

搜索文档

Physical Intelligence 核心技术团队分享：物理世界的“Vibe Coding”如何实现？

海外独角兽· 2025-08-23 12:04

技术演进路径 - VLA是VLM在机器人领域的应用能够接收图像和文本输入并整合机器人状态信息直接输出控制机器人的动作指令与文本生成模型存在本质差异[6][12] - VLM在LLM基础上拓展视觉感知能力能处理纯文本输入和涉及视觉内容的复杂信息训练流程已较完善[7] - VLA发展路径与VLM类似但起步稍晚 2024年下半年出现Gemini for Robotics等方案仍属概念验证阶段[16] 机器人智能发展维度 - 能力指完成从未实现的复杂任务 π₀演示多步骤操作能力执行偏差时主动调整接近人类灵活应对能力[23] - 泛化指在陌生环境中正确执行任务训练覆盖家庭环境越多新环境表现越好数据多样性是提升泛化关键路径[23][44] - 性能需提升任务成功率稳定性速度和鲁棒性当前模型处于演示就绪而非部署就绪阶段失败仍频繁[24][25] 数据管线构建 - 团队从头搭建数据引擎超过一半工作集中在数据系统构建收集和质量保障六个月收集约1万小时机器人操作片段[30][37] - 数据涵盖数十个不同家庭环境和数百类任务包括折叠衬衫物品搬运和整理更贴近真实生活场景[37] - 移动操控系统采集数据提升多样性涵盖数百种不同场景捕捉动态变化环境任务复杂度从简单抓取扩展到细致操作[41][42] 算法架构创新 - 提出知识绝缘机制重构训练流程将连续动作序列离散化为text-like tokens 截断梯度回传保护主干网络训练速度提升10倍[47] - π₀.₅架构以pre-training的Transformer为核心拓展Action Expert Transformer子模块实现语义到物理执行高效衔接[50] - 采用软硬件解耦战略将智能软件作为系统核心降低对特定机器人硬件依赖提升模型部署灵活性与效率[53] 开放世界部署挑战 - 数据缺口体现在数量和质量机器人操作需物理交互闭环反馈时序数据收集真实有效交互数据门槛高成本昂贵[54] - 性能不稳健是最大挑战动作指令需高频率低延迟需应对物理扰动和感知不确定性存在时序错位问题[54][56] - 硬件平台迁移复杂不同机器人在控制协议感知系统和执行机制差异巨大缺乏统一接口层[58] 未来发展方向 - 重点突破性能瓶颈研发通用任务配方构建覆盖多场景多任务的标准化评估体系通过统一benchmark量化模型性能[60] - 构建通用可定制机器人智能生态用户通过自然语言发布命令引导机器人完成复杂操作降低使用门槛[61] - 推动软硬件深度融合用户可设计定制硬件并注入智能算法实现物理世界的vibe coding 可能催生机器人模型即服务新模式[61][62]

Physical Intelligence

Physical Intelligence