“世界模型”竞赛升级:Runway推出GWM-1,实时交互可持续数分钟之久
硬AI·2025-12-13 12:45

文章核心观点 - AI视频生成独角兽Runway发布其首款通用世界模型GWM-1 标志着公司战略从影视特效供应商向物理世界AI架构师进化 战场从比拼画质升级到比拼对物理世界的理解 [2] - GWM-1的核心突破在于连贯性与交互性 它是一个能够理解物理规律、几何结构及环境动态的模拟系统 能通过逐帧预测模拟世界演变 支持长达数分钟的连贯实时交互 [2] - Runway的最终愿景是将不同领域和动作空间统一到一个单一的基础世界模型中 [6] - 面对谷歌、英伟达等巨头的竞争 Runway需证明其有能力成为物理世界的AI架构师 这是评估其估值能否迈向下一阶段的关键 [20] 拆解GWM-1:从“像素预测”到“通用模拟” - 世界模型旨在让AI内部构建对现实世界运行机制的模拟 使其具备无需遍历所有现实场景的推理、规划和行动能力 [5] - Runway认为 教模型直接预测像素是实现通用模拟的最佳路径 [5] - 目前的GWM-1是由三个针对不同领域进行后训练的自回归模型组成的系列 均建立在Runway最新的Gen-4.5基座模型之上 [5] GWM-Worlds:可交互的数字环境探索界面 - GWM-Worlds采用逐帧预测方式 用户可在任何时刻根据应用场景进行干预 模型会模拟接下来发生的事情 [8] - 模型提供探索数字环境的界面 用户可通过提示词或参考图像设定场景 模型将以24fps帧率和720p分辨率生成环境 [8] - 与传统视频生成不同 用户可实时改变镜头视角、环境条件或物体状态 模型能理解几何与光影 确保长序列运动中画面连贯性 [8] - 除了用于游戏设计预览和VR环境生成 其更深远意义在于为AI Agent提供训练场 教导它们如何在物理世界中导航和行动 [8] GWM-Robotics:解决具身智能的“数据饥渴” - GWM-Robotics展示了Runway进军工业与具身智能领域的野心 [10] - 该模型旨在通过生成高质量的合成数据 模拟极端天气、突发障碍等长尾场景 帮助机器人在虚拟空间进行策略评估 从而大幅降低训练成本并在投入真实世界前预判违规风险 [11] - Runway正通过SDK向部分企业开放GWM-Robotics 并与多家机器人公司接触 试图在SaaS订阅收入外开辟面向B端工业客户的新业务 [11] GWM-Avatars:统一视频与语音的交互终端 - GWM-Avatars是一个将视频生成与语音结合的统一模型 宣称其生成的数字人能进行长时间连续对话且无画质损耗 [14] - 若该技术效果属实且能规模化落地 或将对客户服务及在线教育行业产生颠覆性影响 [15] 基座进化与算力军备 - Runway同期发布了Gen-4.5模型更新 补齐了原生音频和多镜头编辑短板 新版本支持生成长达一分钟的视频 并能保持角色一致性、生成原生对话和背景音效 [18] - 为支撑从创意生成迈向世界模拟的庞大算力需求 Runway宣布与云服务商CoreWeave达成协议 未来将利用其云基础设施上的Nvidia GB300 NVL72机架进行模型训练与推理 [18]