文章核心观点 - 具身智能模型应被视为一个独立于、平行于语言模型和多模态模型的全新基础模型,是专门为物理世界构建的智能底座,而非仅仅是现有模型的一个应用 [1][6][7][61] 对具身智能模型独立性的论证 - 物理世界与虚拟世界存在本质差异:物理世界充满连续性、随机性、不完全可观测性,以及大量与力、接触和时序强相关的过程,而虚拟世界是高度可复现、低随机性的符号世界 [2][10][12] - 现有以语言和视觉为中心的建模范式存在结构性错位:语言和视觉并非描述动作和物理过程的理想工具,语言难以描述精细操作(如10秒以下的事件),图像则面临工具使用、遮挡等局限,无法处理涉及力和接触的过程 [17][19][20] - 将具身智能视为独立基础模型将彻底改变模型架构、数据范式、推理方式乃至硬件形态的研发视角 [3][9][12] 模型架构与学习范式的变革 - 感知与决策方式需革新:人类在物理世界通过主动感知和交互感知进行学习,这与虚拟世界中基于静态图片的统计学习范式有根本不同,是多模态模型未来的重要发展方向 [28][29][30] - 需构建完全端到端的统一基础模型:该模型应整合视觉-语言-动作能力,并同时具备世界模型、空间智能和语言能力,而非让这些能力相互替代 [12][33][40][41] - 需专门设计以适应端侧部署和快速推理:当前架构在推理速度上的权衡是暂时的,根本解决方案是设计一个专为物理世界、考虑端侧推理的新模型 [33][34] 数据与Scaling Law的演进 - 现实世界数据是主要来源:训练需分阶段,包括预训练和后训练数据 [49] - 发现第三个Scaling Law:在后训练之后,可通过推理时的思维链等拓展方式进一步提升模型表现 [49] - 持续学习范式更优:物理世界中的机器人应能实时利用新数据进行体验式学习,这优于集中式批次训练,但对体系架构和硬件提出了新要求 [52][53] 硬件与商业化路径 - 必须让AI定义硬件:应软硬一体同步发展,而非先制造完美硬件再适配AI模型 [54] - 公司已实现软硬一体产品化:自主研发并开始销售轮式底盘人形机器人及高自由度灵巧手 [55] - 模型具备领先的泛化与执行能力:公司模型在跨本体泛化(如从夹爪迁移到20个自由度的灵巧手)和复杂任务执行速度上表现优异,速度快于人类遥操作 [34][35][37][38] 行业影响与长期愿景 - 具身智能可能反向吞噬多模态模型的生存空间:以十年为周期,物理世界基础模型的影响力可能超越现有虚拟世界模型 [12][32] - 具身智能是实现通用人工智能的关键:其发展能突破“人手劳动”的瓶颈,实现“机器制造机器”的指数增长,从而为AGI/ASI提供更多算力、芯片、电力和数据资源 [55][56][58][60] - 公司已推出开源模型:自研的WALL-OSS是领先的开源物理世界基础模型,具备视觉-语言-动作控制能力 [42]
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026
量子位·2025-12-21 05:45