AI视频与多媒体生成技术
搜索文档
Runway深夜炸场:一口气发布5大更新,首个通用世界模型来了
机器之心· 2025-12-12 04:31
文章核心观点 - AI视频生成公司Runway发布了一系列重大更新,标志着行业正从单纯的“视频生成”迈向“世界模拟”的新阶段 [34] - 此次更新不仅发布了旗舰视频生成模型Gen-4.5,更首次对外展示了其在通用世界模型上的战略布局,旨在让AI理解并模拟物理世界的运行规律 [3][35] - 英伟达CEO黄仁勋专门发来祝贺视频,暗示了算力与前沿AI算法发展的深度绑定 [4][21][35] 产品更新:Gen-4.5 旗舰视频生成模型 - **核心能力提升**:Gen-4.5是Runway最新的旗舰视频生成模型,在画质惊人的基础上,引入了原生音频生成与编辑功能 [6][13] - **精确遵循提示**:模型实现了极高的物理精度和视觉精确度,物体运动符合逼真的重量、动量和力量,液体流动动力学正确,发丝和材料纹理等精细细节在运动和时间中保持连贯 [9] - **风格控制与一致性**:能够处理从照片级真实感、电影感到风格化动画的多种美学风格,同时保持连贯的视觉语言 [11] - **新增编辑功能**:支持多镜头编辑,用户可以对初始场景进行更改,并将该更改应用到整个视频中 [14] - **访问计划**:公司正在逐步开放对Gen-4.5的访问权限,将在未来几天内向所有人开放 [16] 战略布局:通用世界模型GWM-1及其变体 - **模型定位**:GWM-1是Runway的首个通用世界模型,被视为理解物理世界运行规律的基石,基于Gen-4.5构建但采用自回归的逐帧预测方式 [6][18][19] - **战略意义**:公司认为世界模型处于AI进步的前沿,是解决机器人技术、疾病、科学发现等棘手问题的关键,为通用模拟提供了最清晰的路径 [21] - **当前变体**:目前GWM-1有三种单独的后训练变体,公司正致力于将它们统一到一个单一的基础世界模型之下 [21] GWM Worlds:实时环境模拟器 - **产品定义**:GWM Worlds是一个基于GWM-1的环境模拟器,允许用户在无限的数字世界中实时探索 [6][23] - **核心特性**:关键在于保持空间连贯性,在长时间的移动序列中,环境能保持一致性并对用户的指令做出准确响应 [23][24] - **应用场景**:可用于交互式体验、游戏、可探索世界等沉浸式环境,也可作为训练AI系统在现实世界中导航和行动的沙盒模拟器 [24] GWM Robotics:机器人训练模拟器 - **产品定义**:GWM Robotics是一个打破物理瓶颈,为机器人训练提供合成数据的学习型模拟器 [6] - **核心功能**:支持合成数据增强策略训练,利用世界模型生成合成数据以提升机器人策略的泛化能力;支持策略模拟评估,允许在模型中直接测试策略模型,方式更快、更安全 [27][28] - **配套工具**:公司发布了GWM-1 Robotics SDK,这是一款面向其机器人世界模型API的Python SDK,支持多视角视频生成和长上下文序列 [27] GWM Avatars:音频驱动交互式视频模型 - **产品定义**:GWM Avatars是一个音频驱动的交互式视频生成模型,可让数字人拥有自然的灵魂 [6][29] - **核心表现**:模型能针对任意角色模拟自然的人类动作和表情,包括逼真的面部表情、眼球运动、口型同步和手势,在长时间对话中质量不下降 [30] - **应用潜力**:应用场景广泛,包括实时辅导与教育、客户支持与服务、培训模拟以及互动娱乐与游戏 [31][32] - **发布计划**:该模型即将登陆Runway网页产品和API,以便用户集成到自己的产品和服务中 [31]