文章核心观点 - 人工智能正从语言理解迈向物理世界交互 未来十年的关键是将通用智能从语言领域拓展到物理世界 其核心路径在于融合“数据价值重构”与“一脑多形”架构革命 [1][5] - 数据正从“资源”演变为定义模型认知边界与价值对齐的“认知基础”与“价值载体” 高质量、结构化、富有逻辑链的数据是驱动智能持续进化的核心纽带 [3][4] - “一脑多形”范式旨在构建一个统一的底层认知核心 使其能动态衍生出适应不同场景、模态与任务的多种形态 这是实现从“专用智能”到“统一智能”跃迁的关键 [5] 新数据范式:驱动模型演进的核心基础设施 - 人形机器人代表的具身智能成为对高质量数据有强烈需求的新赛道 行业正系统性思考数据规模、质量与模型能力的关系 [10] - 具身智能数据获取面临三大结构性挑战:成本效率低且成功率低、能力存在局限性(如灵巧手内操作)、以及跨本体泛化能力差 [11][13] - 行业探索以人为中心的数据路径 构建不与单一机器人本体强绑定的数据体系以提升数据复用价值 诺亦腾正在建设覆盖标准化与真实场景采集的具身智能数据工厂 [12] - 具身数据体量将爆发式增长 “具身数据服务”被视为机器人赛道下一个“Scale AI”级别的确定性机会 [15] - 当前数据采集主要分为真机端(如末端执行器动捕、遥操作)与仿真端(如轨迹合成、资产生成)两条路径 [16] - 通过平台化与引入AI Agent构建数据工具链 可实现真实世界数据集构建速度提升30倍 仿真数据生成提升3.5倍 [17] - 圆桌讨论共识:好的数据应以终为始 由最终模型性能与机器人训练受益程度决定 采集方式将多元化 包括遥操作、UMI、动捕、仿真等 [19] - 野外数据采集技术门槛高 需低摩擦、高精度、多模态的数采设备 并可能通过世界模型进行先验估计来丰富数据维度 [20] AI的“大脑”革命:一脑,何以多形? - “一脑多形”指同一套智能系统可适配人形、车形等不同形态 核心大脑不变 这是当前具身智能的热门技术路线之一 [21] - 通用飞行智能处于爆发前夜 行业存在气流扰动大、机载算力弱、传感器廉价、数据采集困难等挑战 [26] - 微分智飞展示了多任务小脑技术 其最小的端到端神经网络可运行在自重约50克、机载算力低于1 Tops的无人机上 并通过自动化系统降低数据采集成本 [28] - 团队实现了飞行机械手通过单电机线驱动机构进行多自由度形变 具备指尖捏取和掌心抓握能力 可应用于短途物品运送 [29] - 空间智能技术分为三个层级:基础空间感知、进阶空间交互、最终空间理解与生成 并形成“建模-训练-迭代优化”的研发飞轮 [33] - 在自动驾驶领域 提出以“占据栅格”为中心的生成方案UniScene 其V2版本新增深度与语义分割模态 并与理想汽车合作测试泛化能力 [34] - 在机器人领域 提出ORV框架并构建InterVLA数据集 同时研发DreamVLA模型 将大语言模型“思维链”思想引入 以提升决策可解释性与泛化能力 [37] - 人形机器人是面向人类环境的相对通用方案 互联网上大量人类日常生活数据包含可用运动与操作逻辑 [40] - 通过体素化点云表示环境与引入激光雷达自扫描 可显著提升复杂地形下运动策略从仿真到真实的迁移成功率 使控制从“盲动”转向“感知驱动” [40][42] - 圆桌讨论认为 具身智能行业仍处探索阶段 技术路线尚未收敛 本质是AI与机器人结合带来的智能性与泛化性飞跃 [46] - 对于世界模型 自动驾驶与机器人任务的要求和技术范式区别很大 世界模型与视觉-语言-动作模型可结合应用 [47] - 通用控制器的实现 在仿真中需权衡精度与平衡性 在真实世界则高度依赖硬件性能 [47] - 技术落地面临“既要星辰大海 也要赶紧赚钱”的困境 虽然落地尚远 但已能看到现实应用 不再仅是科幻展示 [48]
GAIR 2025 「数据&一脑多形」分论坛,激辩 AI 演进路径
雷峰网·2025-12-14 06:27