Runway Gen-4.5刷屏发布,把重量、尘土和光影都做对了,网友:颠覆
量子位·2025-12-02 00:58

文章核心观点 - Runway最新发布的Gen-4.5模型在文本转视频领域实现了重大突破,被评价为“视频生成AGI时刻”和“颠覆者”[1][14] - 该模型在Artificial Analysis文本转视频基准测试中以1247的Elo评分获得SOTA,超越了所有现有模型[3] - 模型在物理还原度、视觉精准度、复杂指令理解和画质方面均有显著提升,且计划以与当前订阅套餐相近的价格全面开放[15][16][24] 模型性能与技术突破 - 基准测试表现卓越:在Artificial Analysis文本转视频基准测试中获得1247 Elo评分,达到SOTA水平[3] - 复杂指令理解与执行:擅长理解并执行复杂的序列式指令,可在单个提示词中精准指定镜头运镜、场景构图、时间节点和氛围变化[21][22] - 画质与物理特性突破:在保留Gen-4速度与效率优势的同时,实现了画质的突破性提升[24] - 生成的视频中物体移动具备符合现实的重量感与动量特征,物体表面呈现与现实世界一致的物理特性[25] - 高真实感与细节:运镜与视角切换丝滑,能很好地生成文字[6] - 能处理如“人照镜子”的复杂场景且几乎看不出破绽[8] - 能生成如“汽车疾驰尘土飞扬”并带有真实颠簸感的动态效果[10] - 能呈现如“刷墙视频”中颜料干后颜色变浅的细微细节[12] 模型功能与可控性 - 广泛的控制模式适配:除了文本生成视频,公司计划为Gen-4.5适配所有已有的控制模式,如图片转视频、关键帧生成、视频转视频等[39] - 强大的风格化能力:能够驾驭各种艺术风格,包括3D绘画风格[35][37] - 创作自由度:既能遵循物理定律生成逼真内容(如街头滑滑板效果逼真、背景模糊处理有质感),也能根据创作构想突破物理定律[28][30][32] - 例如,可以生成“小羊拉北极熊”这类超现实场景[33] 模型迭代与行业影响 - 快速迭代与质变:从Gen 1到Gen-4.5历经两年迭代,实现了质感的全面蜕变[14] - 提升内容真实性:其前所未有的物理和视觉准确性,使得真实内容与AI生成内容更难以区分[15] - 坦诚模型局限性:官方指出模型在因果推理与物体恒存性(理解“物体即使看不见也依然存在”的认知能力)方面仍存在不足[40] - 团队已在进行相关优化以改进这些局限性[41]