Physical Intelligence - 财报，业绩电话会，研报，新闻

Embodied Intelligence

Big Language Model

Artificial Intelligence

Embodied Intelligence

Physical Intelligence 核心技术团队分享：物理世界的“Vibe Coding”如何实现？

Big Language Model

海外独角兽· 2025-08-23 12:04

技术演进路径 - VLA是VLM在机器人领域的应用能够接收图像和文本输入并整合机器人状态信息直接输出控制机器人的动作指令与文本生成模型存在本质差异[6][12] - VLM在LLM基础上拓展视觉感知能力能处理纯文本输入和涉及视觉内容的复杂信息训练流程已较完善[7] - VLA发展路径与VLM类似但起步稍晚 2024年下半年出现Gemini for Robotics等方案仍属概念验证阶段[16] 机器人智能发展维度 - 能力指完成从未实现的复杂任务 π₀演示多步骤操作能力执行偏差时主动调整接近人类灵活应对能力[23] - 泛化指在陌生环境中正确执行任务训练覆盖家庭环境越多新环境表现越好数据多样性是提升泛化关键路径[23][44] - 性能需提升任务成功率稳定性速度和鲁棒性当前模型处于演示就绪而非部署就绪阶段失败仍频繁[24][25] 数据管线构建 - 团队从头搭建数据引擎超过一半工作集中在数据系统构建收集和质量保障六个月收集约1万小时机器人操作片段[30][37] - 数据涵盖数十个不同家庭环境和数百类任务包括折叠衬衫物品搬运和整理更贴近真实生活场景[37] - 移动操控系统采集数据提升多样性涵盖数百种不同场景捕捉动态变化环境任务复杂度从简单抓取扩展到细致操作[41][42] 算法架构创新 - 提出知识绝缘机制重构训练流程将连续动作序列离散化为text-like tokens 截断梯度回传保护主干网络训练速度提升10倍[47] - π₀.₅架构以pre-training的Transformer为核心拓展Action Expert Transformer子模块实现语义到物理执行高效衔接[50] - 采用软硬件解耦战略将智能软件作为系统核心降低对特定机器人硬件依赖提升模型部署灵活性与效率[53] 开放世界部署挑战 - 数据缺口体现在数量和质量机器人操作需物理交互闭环反馈时序数据收集真实有效交互数据门槛高成本昂贵[54] - 性能不稳健是最大挑战动作指令需高频率低延迟需应对物理扰动和感知不确定性存在时序错位问题[54][56] - 硬件平台迁移复杂不同机器人在控制协议感知系统和执行机制差异巨大缺乏统一接口层[58] 未来发展方向 - 重点突破性能瓶颈研发通用任务配方构建覆盖多场景多任务的标准化评估体系通过统一benchmark量化模型性能[60] - 构建通用可定制机器人智能生态用户通过自然语言发布命令引导机器人完成复杂操作降低使用门槛[61] - 推动软硬件深度融合用户可设计定制硬件并注入智能算法实现物理世界的vibe coding 可能催生机器人模型即服务新模式[61][62]

Jinqiu Select | 机器人创业的规模化之路：Physical Intelligence的通用模型实践

锦秋集· 2025-07-24 10:19

通用机器人模型的核心观点 - 通用模型比专用模型更有效、更易用能实现"一次训练处处部署" 解决机器人行业规模化困境 [1] - 通过高质量、多样化真实机器人数据验证仅用2 4%多样化环境数据即可让机器人在陌生环境中工作 [1][6] - 借鉴NLP领域"预训练-微调"策略使机器人处理未见过的V领衫和纽扣衬衫折叠衣物成功率从0%提升至可操作水平 [2][7][8] - 技术架构调整如"停止梯度"使指令遵循率从20%提升至80% [2][11] - 利用视觉语言模型生成合成指令低成本实现复杂指令理解如"做素食三明治但不要泡菜" [2][14] - 跨平台验证成功同一模型通过数据微调即可控制新机器人制作咖啡证明通用部署可行性 [2][10] 行业现状与公司愿景 - 当前机器人领域需为每个应用定制开发硬件/软件导致规模化困难 [4] - 公司目标开发通用目的模型使任何机器人在任何环境执行任何任务类比语言领域基础模型 [5] - 工业自动化数据缺乏多样性 YouTube数据存在人机差异需通过远程操作收集真实机器人数据 [6] 关键技术突破 - 叠衣服案例：1亿参数模型升级至30亿参数视觉语言模型折叠时间从20分钟缩短至9分钟 [7][9] - 预训练-微调策略使模型处理未见任务如清理桌面/研磨咖啡豆/组装纸箱等 [10] - 在100个独特房间收集数据占预训练数据2 4% 实现在陌生Airbnb中执行任务 [11][12] - 分层模型处理开放式指令通过合成数据训练理解约束条件（如"不要泡菜"）和即时纠正 [14] 数据策略与算法创新 - 高质量数据核心要素：策略一致性、高效性、可靠性强化学习在后训练中关键作用 [16] - 真实世界数据不可替代合成数据在评估和强化学习生成经验数据方面有价值 [20] - Transformer架构通过动作分词(tokenize)统一处理视觉、语言、动作信息 [22] 商业化路径 - 家庭应用为起点扩展至工业场景（如组装纸箱）激发投资界热情 [18] - 基础设施需求：机器人端需实时推理系统训练端需多模态数据处理能力 [19]

预训练 - 微调

通用机器人模型

预训练 - 微调

Physical Intelligence 创始人：人形机器人被高估了

通用机器人模型

海外独角兽· 2025-03-28 11:51

文章核心观点 - 通用机器人是AGI从数字世界走向物理世界的重要路径，robot foundation model旨在为机器人构建大脑以实现通用能力 [3] - Physical Intelligence（PI）被视为机器人领域的OpenAI，专注于开发通用机器人的foundation model，近期开源了通用模型π0并推出分层推理系统Hi Robot [3][10][26] - 实现机器人泛化的核心在于获取多样化数据而非仅追求数据质量，需扩大真实机器人数据规模并优化跨平台数据共享 [12][17][18] - 人形机器人形态当前被高估，未来机器人形态将呈现多样化"寒武纪大爆发"，物理智能才是AGI核心 [4][22][36] Chelsea Finn机器研究的开端 - 研究始于10年前伯克利博士阶段，早期探索神经网络控制将图像像素直接映射到机器人扭矩，当时属非主流方向 [6] - 关键挑战在于让机器人在不同环境/物体间泛化任务能力，如拧瓶盖、挂衣架等基础操作 [6] - 研究路径涉及构建广泛数据集，结合强化学习、模仿学习等方法，曾在Google Brain工作并创立斯坦福实验室 [7] PI的研究进展和发展 - 目标构建可控制任何机器人执行任何任务的神经网络模型，突破传统单一任务优化局限 [10] - 采用跨平台数据整合策略（六轴/七轴/单双臂机器人），最大化数据复用价值以解决硬件迭代导致的数据废弃痛点 [10][12] - 2023年10月展示复杂任务能力（叠衣/清理/纸箱搭建），当前重点扩展语言交互与环境泛化能力 [13][15] - 技术架构依托Transformer和预训练Vision-Language Model，利用互联网知识迁移（如Taylor Swift案例） [15][16] 机器人实现AGI的路径 - 短期难预测具体应用场景，需探索人机协作模式降低容错要求，语言交互是重要突破方向 [21] - 运动控制蕴含进化级智能，基础操作（倒水/做麦片）实际具有极高复杂性 [23] - 关键里程碑研究：SayCan（语言模型规划）、RG2（网页数据集成）、RT-X（跨机器人形态训练）、Aloha（远程操作训练） [24] Hi Robot系统设计 - 分层推理架构：高层模型处理任务规划（如"拿起番茄"），低层模型转换为具体动作指令 [26] - 解决长周期任务执行与实时交互需求，已实现三明治制作/购物/清理等场景 [28] 传感器与硬件发展 - 当前依赖视觉（RGB摄像头）已取得显著进展，手腕摄像头可部分替代触觉传感器 [29] - 嗅觉/味觉等冗余传感器虽有益但非优先级，当前瓶颈在于数据处理与记忆功能开发 [30] - 未来硬件将趋向场景专用化（厨房/折叠衣物等），形成多形态共存的生态系统 [36][37] 自动驾驶与机器人领域对比 - 机器人操作空间维度更高（14维vs自动驾驶2D），精度要求更严但分布问题范围较小 [31] - 初创公司优势在于快速迭代部署，大公司受限于安全规范难以实现多样化数据收集 [34] 训练数据方法论 - 人类观察数据（如YouTube）价值有限，机器人需从自身物理经验中学习运动控制 [35] - 数据泛化能力取决于分布广度，通过建筑物/场景数量等指标粗略评估 [36] - 自动化经验与强化学习结合是提升数据价值的关键路径 [35]

AGI

robot foundation model

General Robot

具身智能

AGI

robot foundation model

General Robot

具身智能