Workflow
和谐推理
icon
搜索文档
Generalist发现具身智能的Scaling Law,还让模型能同时思考与行动
36氪· 2025-11-21 01:52
公司概况 - 公司由Google DeepMind高级研究科学家Pete Florence联合创立,其Google学术引用数超过19000次,曾带队研发PaLM-E、RT-2等模型[4] - 联合创始人包括Andrew Barry(CTO,前波士顿动力员工)和Andy Zeng(首席科学家,曾参与PaLM-E研发)[4] - 核心团队拥有来自OpenAI、Waymo等顶尖公司的资深研究人员[4] - 早期投资者包括Spark Capital、NVIDIA、Boldstart Ventures、Bezos Expeditions、NFDG等机构,但投资金额未披露[3] 核心产品与技术 - 发布新型具身基础模型GEN-0,基于高保真度原始物理交互数据的多模态训练,设计目标为捕捉人类水平的反应反射与物理常识[1][5] - 模型核心特征为"和谐推理",实现感知流(持续接收传感器数据)与行动流(持续输出控制指令)在连续时间域中异步交织,无需显式同步点[6][7] - 模型架构借鉴视觉和语言模型优势并实现超越,适用于6自由度、7自由度及超过16自由度的半人形机器人[5][18] 模型性能与扩展规律 - 模型参数规模达到1B(10亿)时难以吸收复杂感知运动数据,6B(60亿)参数开始展现多任务能力,7B(70亿)以上参数可快速迁移至下游任务[10][11][12] - 扩展至10B(100亿)以上参数后,模型能以更少后训练数据快速适应新任务,在零样本下游任务中性能提升(下一动作验证预测误差降低)[14] - 首次在具身智能领域观察到模型固化现象,且相变发生在远大于语言模型的参数规模上,印证莫拉维克悖论[14] 数据与训练 - 训练数据集包含27万小时真实世界操控轨迹,从全球数千个家庭、仓库和工作场所收集,数据量比某些最大规模机器人数据集高出几个数量级[16][18] - 数据质量和多样性比纯粹数据量更重要,精心构建的数据混合可产生不同特性的预训练模型[18] - 模型展现出明显Scaling Law,预训练数据规模与下游性能存在幂律关系,适用于服装、制造、物流、汽车、电子等多行业任务[15] 行业竞争与前景 - 竞争对手包括Physical Intelligence(模型迭代至π 0.6,可完成连续长序列任务)、Skild AI(支持多形态机器人泛化)、Figure(采用快慢思考双系统架构)[19] - 行业技术思路尚未收敛,数据丰富度不足,商业化落地案例仍较少[19] - 具身智能Scaling Law已被初步验证,多形态泛化、动作延时、连续长序列任务等难题正被攻克,商业化前景逐步改善[20][21]