AI落地物理世界
搜索文档
三个人,聊了很多AI真相
投资界· 2025-12-15 07:34
文章核心观点 - AI发展正从模型能力竞争转向物理世界的执行能力,物理AI(具身智能与自动驾驶)面临从数字模型到真实世界落地的巨大挑战,但行业对通过基础模型和规模化数据实现商业化突破抱有明确信心,预计2026年将成为具身智能商业化标志性年份 [2][3][21] 公司定位与业务 - **自变量机器人**:定位为具身智能基础模型公司,其次是人形机器人公司,致力于开发平行于语言模型、服务于物理世界的基础物理模型,最终提供软硬一体、直接面向终端客户的产品 [4] - **元戎启行**:深耕自动驾驶领域,经历了从基于高精地图的模块化技术到端到端及VLA(视觉-语言-动作)模型的技术演进,其辅助驾驶系统已累计搭载于20万辆汽车,预计明年将达到百万级规模 [5] AI落地物理世界的主要挑战 - **数据与预训练**:物理世界数据收集困难,尤其是机器人操作(Manipulation)领域缺乏大量训练数据,但海量真实数据(如20万辆车的行驶数据)是做好预训练的基础 [6][8] - **仿真与现实的差距(Sim-to-Real Gap)**:最大的难点不仅是感知差距,更是物理规律模拟的差距,仿真器中微小的物理过程不精确(如碰撞、摩擦)会导致现实世界结果的巨大差异 [9][10] - **操作(Manipulation)的特殊性**:与自动驾驶的感知、导航及本体的局部运动不同,操作涉及复杂的物理过程,对微小误差极其敏感,是AI落地物理世界最后走出来的领域 [8][9][10] 关键技术路径与模态讨论 - **视觉与触觉的作用**:纯视觉能提供大量信息用于预训练,且成本较低,但触觉信息对于完成精细操作、达到接近人类的水平至关重要,被认为是极度重要但非绝对必要 [11][12] - **语言模态的价值**:在训练阶段,语言提供丰富的语义监督信息,能帮助模型快速收敛;在部署阶段,语言增强了系统的可理解性与用户安心感;对于需要交互的人形机器人,语言模态是必需的 [12][13] - **模型发展路径**:应优先发展通用的具身基础模型,再通过蒸馏等方式适配垂直场景,专用模型的能力上限未超过通用模型,利用以语言为核心的多模态模型遗产是当前务实的选择,但未来物理基础模型的核心可能需一定程度上摆脱语言描述的局限 [13][14][15] 规模化与商业化进程 - **自动驾驶的规模化经验**:技术落地需循序渐进,从构建端到端基础能力开始,车辆规模达到1万至10万级别是引入语言模态、优化性能的关键门槛,工程层面需解决海量数据管理、筛选及资源效率等问题 [17][18] - **具身智能的商业化节奏**:行业目前类似十年前的自动驾驶,处于技术未收敛的demo阶段,过早聚焦单一垂直场景商业化被证明效率不高,基础模型的发展是核心 [19][20] - **商业化拐点预测**:2026年被认为是具身智能商业化具有标志性意义的一年,届时将批量出现能提供正投资回报率、真正为客户创造价值的场景,早期商业化可能出现在利用全球劳动力成本差距的区域(如美墨、日本与东南亚之间) [21][22] 未来展望与AGI时刻 - **发展时间线**:移动能力(如自动驾驶)的基础模型将较快收敛,具身智能在3-5年的周期内有望达到关键水平,而非8-10年 [23][24] - **算力与模型规模**:终端设备完成常规工作可能不需要像大语言模型那样巨大的参数量,因为所需编码的常识性知识密度较高,但实时处理对算力仍有要求,当前芯片算力(如1000 TOPS)可能仍不足 [24][25][26] - **物理AI的AGI信仰**:实现物理AI的AGI依赖于对Scaling Law(规模定律)在机器人领域存在的信念,以及相信在合理时间和资源投入下能收集到足够数据训练出基础模型 [16][24]