AirScape
搜索文档
流形空间CEO武伟:当AI开始“理解世界”,世界模型崛起并重塑智能边界|「锦秋会」分享
锦秋集· 2025-11-05 14:01
世界模型的核心概念与定义 - 世界模型是AI智能的下一个基础范式,其目标不是生成内容,而是在智能体内部模拟世界的运行规律[9] - 世界模型是一种可以模拟所有场景的生成式模型,被理解为"the online simulator in our brain",即能够在线进行模拟的智能体模型[15] - 技术上,世界模型通过隐式建模学习并近似环境的状态转移概率分布,从而在仿真空间中进行预测与推演[16] - 与传统AIGC不同,世界模型的目标不是"还原现实",而是通过预测环境变化来做出更优决策[9] 世界模型的技术价值与应用方向 - 世界模型让AI第一次具备"心智推演"能力,能在脑中模拟因果、预判后果、优化行动[9] - 主要应用方向包括构建Agent Model和环境模型两大范式[18][22] - 作为Agent Model时,通过在线模拟和推演获得更好决策,替代依赖经验回放的模仿学习方式[18] - 作为环境模型时,通过离线强化学习获得更好泛化能力,成为通用的Omni Simulator[22] - 为自动驾驶、无人机、具身智能等领域奠定通用智能底座,实现从"经验学习"到"因果理解"的跨越[9] 行业技术路线与发展历程 - 世界模型方向最早可追溯到2018年论文《World Models》,提出Mental Model概念并通过RNN对世界状态进行建模[24] - 2024年OpenAI的Sora出现后形成首个具备文生视频能力的结构化模型,AIGC技术与视觉世界模型开始深度融合[24] - Google的Genie系列基于海量视频数据进行scaling up,训练具有三维空间一致性的视频生成模型,以自回归技术路线为主干[27][28] - Google的Dreamer系列核心思想与AlphaGo一脉相承,在模型构造的虚拟环境中让智能体进行强化学习,经过三代迭代实现跨游戏环境泛化[43][44][52] - Meta的V-JEPA技术路线引入新思路,通过sampling与能量函数评估方式搜索最优执行状态,提供更可解释、更物理一致的智能体建模方式[55][56][57] 流形空间的技术布局与成果 - 公司提出"全域世界模型"体系,已在自动驾驶、机器人、无人机等方向实现突破[9] - 2025年CVPR上发表DriveScape自动驾驶世界模型,比特斯拉Autopilot自动驾驶世界模型发布更早[75] - 2025年NeurIPS上发布RoboScape,是首个针对具身智能的物理可控世界模型,能通过单帧图像+语言指令执行物理动作,支持刚体与柔性物体交互[78] - 2025年ACM MM上推出全球首个无人机世界模型AirScape,通过显式世界建模实现空间与视角统一控制[81] - 所有模型基于自研LongScape基础架构,结合Auto-regressive + DiT混合建模方式,整体研发进度超前于特斯拉世界模型团队[83] - 已将模型量化蒸馏部署到边缘端推理系统,驱动机器人实现自主移动以及无人机实现自主导航[84] 当前挑战与未来发展方向 - 现有模型如Cosmos、Genie、WorldLabs在多模态感知、指令遵循、物理世界建模等方面仍有不足,任务适应性不够强[66] - 具身智能体面临跨尺度空间挑战,自动驾驶汽车、室内操作机器人、低空无人机等不同尺度下的泛化能力仍然较弱[67] - 未来提升主要集中在五个方面:需要更丰富的多模态数据、更强的表征学习能力、新的原生世界模型基模架构、转向任务执行能力的训练目标、以及任务泛化与跨环境自适应能力[69][70][71][72][73]
清华团队提出AirScape:动作意图可控的低空世界模型,全面开源!
具身智能之心· 2025-11-05 09:00
文章核心观点 - 清华大学团队提出名为AirScape的生成式世界模型,专为六自由度(6DoF)空中具身智能体设计 [5] - 该模型能基于当前的低空视觉观测和动作意图,推演未来的序列观测,以解决具身智能领域的推演和想象基础问题 [3][6] - 项目包含一个11k视频片段的数据集,并采用两阶段训练方案,在关键指标上相比基线模型有显著提升 [7][11][18][21] 技术挑战与解决方案 - 现有世界模型研究主要聚焦于二维平面操作的人形机器人和自动驾驶,动作空间有限 [4] - 关键挑战包括缺乏第一人称视角的低空飞行数据集、视频基础模型与世界模型的分布差异、以及无人机6DoF运行带来的生成多样性与复杂性 [8] - AirScape通过构建包含11,000个视频-意图对的数据集,并采用两阶段训练方案来解决这些挑战 [7][11] 数据集特点 - 数据集涵盖工业区、住宅区、海边等多种空间场景 [9] - 包含平移、旋转和复合动作等多种动作类型,以及晴天、多云、夜晚等多种光照条件 [9] - 通过多模态大模型生成意图并经过超过1,000小时的人工校正,确保意图描述的准确性和逻辑性 [9] 模型训练方法 - 阶段一:利用11k视频-意图对数据集对视频生成基础模型进行监督微调,学习意图可控性 [11] - 阶段二:引入self-play training机制,通过时空判别器进行拒绝采样,学习时空约束 [14] - 时空判别器评估四个关键特征:意图对齐、时间连续性、动态程度和空间合理性 [14] 性能表现 - 在衡量动作对齐能力的关键指标IAR上,相对表现最佳的基线模型提升超过50% [21] - 在衡量生成视频质量的FID和FVD指标上,分别取得了15.47%和32.73%的提升 [21] - 在平移、旋转和复合动作等任务上,平均IAR达到84.51%,显著优于其他对比模型 [13] 未来发展方向 - 未来目标包括提升实时性能、轻量化设计以及在协助现实世界空中智能体操作决策方面的适用性 [19]