文章核心观点 - 2026年将是多模态技术大年,视频生成将快速进步并推动应用大规模落地,世界模型将在研究上取得科学突破并开始从研究走向生产 [2] - 世界模型领域正分化为两条主要路线:一条以实时视频生成为核心,服务文娱、游戏等面向人类的消费者场景;另一条以显式3D结构为中心,服务机器人、自动驾驶等面向AI的领域 [2] - 世界模型相比视频生成模型,需要在交互性、实时性、长时记忆和物理合理性四个方面更进一步 [2] 世界模型定义与重要性 - 世界模型被定义为能理解时间和空间规律,并能根据当前环境和动作模拟未来世界演化的模型 [5] - 其重要性提升源于三大趋势:语言作为有损压缩的智能进步遇到局限,空间成为下一个重要智能来源;自回归Transformer与扩散模型的算法进步及融合,使生成模型具备智能层面的扩展定律;具身智能的需求倒逼,机器人行业需要高保真虚拟世界来满足指数级的数据需求 [5] 世界模型相比视频生成的关键进步方向 - 长时记忆:需生成持续、连贯的长时间世界,保持全局一致性,当前视频模型通常只能生成十秒级片段 [6] - 交互性:需支持在任意帧动态注入动作指令以影响后续画面,训练数据需同时包含视频帧序列和对应动作 [7][8] - 实时性:交互式应用要求低延迟,游戏需低于0.1秒,VR理想情况应低于0.01秒,当前扩散模型推理难达30FPS以上,业界通过蒸馏和架构改进(如DMD将50步扩散压缩为4步)来提升实时性 [12] - 物理合理性:对自动驾驶、机器人等高风险领域,模拟结果必须符合真实物理规律,当前模型在极端物理条件下易出现幻觉,研究者通过引入物理约束后处理或结合可微物理引擎进行校正 [16] 世界模型的两种发展路线 - 路线一:实时视频世界模型:以实时性为核心优化目标,适用于文娱、游戏等to C场景,包括互动内容创作与新型“引擎”、直播和虚拟形象、AR/VR三大应用场景 [18][19][20] - 路线二:3D/4D结构化世界模型:以物理准确性为核心,采用NeRF、3D高斯散点等显式3D表示,优势在于3D一致性强,适用于机器人、自动驾驶等for AI的领域,劣势在于数据获取和计算成本高 [18][21][22] 市场玩家四象限格局与代表公司分析 - 横轴表示表示形式(左侧Video-based,右侧3D/物理结构),纵轴表示服务对象(上部分面向人类,下部分面向AI与机器人) [24] - World Labs:位于右下象限,强调3D一致性与持久性,估值超10亿美元,融资总额约2.3亿美元,核心产品Marble是基于浏览器的交互式3D世界生成平台 [24][26][30][32] - General Intuition:位于左上象限,作为公益性公司,专注于利用游戏数据训练能进行时空推理的agent,其关联平台Medal每年可获得约20亿个游戏视频片段,拥有1000万MAU,公司已完成1.34亿美元种子轮融资 [24][33][35][38] - Decart:位于左下象限,推出可交互“开放世界”AI模型Oasis,该模型以Minecraft游戏视频训练,可实现端到端实时闭环,生成速度约25帧/秒,公司已完成3200万美元A轮融资,投后估值超5亿美元 [24][39][41][44] - Odyssey:位于右下象限,追求极致真实感与可编辑性,采用重装备采集数据和3D高斯泼溅技术,其Explorer模型可将单图像转化为高保真3D场景资产,公司已完成1800万美元A轮融资 [24][45][47][48]
深度解析世界模型:新范式的路线之争,实时交互与物理仿真
海外独角兽·2025-12-17 07:53