Workflow
通用世界模型
icon
搜索文档
Runway深夜炸场:一口气发布5大更新,首个通用世界模型来了
机器之心· 2025-12-12 04:31
文章核心观点 - AI视频生成公司Runway发布了一系列重大更新,标志着行业正从单纯的“视频生成”迈向“世界模拟”的新阶段 [34] - 此次更新不仅发布了旗舰视频生成模型Gen-4.5,更首次对外展示了其在通用世界模型上的战略布局,旨在让AI理解并模拟物理世界的运行规律 [3][35] - 英伟达CEO黄仁勋专门发来祝贺视频,暗示了算力与前沿AI算法发展的深度绑定 [4][21][35] 产品更新:Gen-4.5 旗舰视频生成模型 - **核心能力提升**:Gen-4.5是Runway最新的旗舰视频生成模型,在画质惊人的基础上,引入了原生音频生成与编辑功能 [6][13] - **精确遵循提示**:模型实现了极高的物理精度和视觉精确度,物体运动符合逼真的重量、动量和力量,液体流动动力学正确,发丝和材料纹理等精细细节在运动和时间中保持连贯 [9] - **风格控制与一致性**:能够处理从照片级真实感、电影感到风格化动画的多种美学风格,同时保持连贯的视觉语言 [11] - **新增编辑功能**:支持多镜头编辑,用户可以对初始场景进行更改,并将该更改应用到整个视频中 [14] - **访问计划**:公司正在逐步开放对Gen-4.5的访问权限,将在未来几天内向所有人开放 [16] 战略布局:通用世界模型GWM-1及其变体 - **模型定位**:GWM-1是Runway的首个通用世界模型,被视为理解物理世界运行规律的基石,基于Gen-4.5构建但采用自回归的逐帧预测方式 [6][18][19] - **战略意义**:公司认为世界模型处于AI进步的前沿,是解决机器人技术、疾病、科学发现等棘手问题的关键,为通用模拟提供了最清晰的路径 [21] - **当前变体**:目前GWM-1有三种单独的后训练变体,公司正致力于将它们统一到一个单一的基础世界模型之下 [21] GWM Worlds:实时环境模拟器 - **产品定义**:GWM Worlds是一个基于GWM-1的环境模拟器,允许用户在无限的数字世界中实时探索 [6][23] - **核心特性**:关键在于保持空间连贯性,在长时间的移动序列中,环境能保持一致性并对用户的指令做出准确响应 [23][24] - **应用场景**:可用于交互式体验、游戏、可探索世界等沉浸式环境,也可作为训练AI系统在现实世界中导航和行动的沙盒模拟器 [24] GWM Robotics:机器人训练模拟器 - **产品定义**:GWM Robotics是一个打破物理瓶颈,为机器人训练提供合成数据的学习型模拟器 [6] - **核心功能**:支持合成数据增强策略训练,利用世界模型生成合成数据以提升机器人策略的泛化能力;支持策略模拟评估,允许在模型中直接测试策略模型,方式更快、更安全 [27][28] - **配套工具**:公司发布了GWM-1 Robotics SDK,这是一款面向其机器人世界模型API的Python SDK,支持多视角视频生成和长上下文序列 [27] GWM Avatars:音频驱动交互式视频模型 - **产品定义**:GWM Avatars是一个音频驱动的交互式视频生成模型,可让数字人拥有自然的灵魂 [6][29] - **核心表现**:模型能针对任意角色模拟自然的人类动作和表情,包括逼真的面部表情、眼球运动、口型同步和手势,在长时间对话中质量不下降 [30] - **应用潜力**:应用场景广泛,包括实时辅导与教育、客户支持与服务、培训模拟以及互动娱乐与游戏 [31][32] - **发布计划**:该模型即将登陆Runway网页产品和API,以便用户集成到自己的产品和服务中 [31]
工业界大佬带队!彻底搞懂自动驾驶世界模型...
自动驾驶之心· 2025-12-11 03:35
课程核心定位 - 课程为自动驾驶领域首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地,并助力学员深入理解端到端自动驾驶 [11] - 课程聚焦于通用世界模型、视频生成、OCC生成等世界模型算法,涵盖特斯拉世界模型、李飞飞团队Marble等前沿工作 [1] - 课程由工业界专家授课,内容基于讲师丰富的端到端算法研发和量产交付实战经验 [3][6] 课程内容与结构 - **第一章:世界模型介绍** 复盘世界模型与端到端自动驾驶的联系,讲解其发展历史、应用案例、不同技术流派(如纯仿真、仿真+规划、生成传感器输入等)及其在业界解决的问题与所处环节,并介绍相关数据集与评测 [6] - **第二章:世界模型背景知识** 讲解世界模型的基础技术栈,包括场景表征、Transformer、BEV感知等,这些内容是当前世界模型求职面试频率最高的技术关键词 [6][7] - **第三章:通用世界模型探讨** 聚焦通用世界模型及近期热门工作,详细讲解李飞飞团队Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型,以及VLA+世界模型算法DriveVLA-W0和特斯拉ICCV分享的世界模型模拟器 [7] - **第四章:基于视频生成的世界模型** 聚焦视频生成类世界模型算法,讲解Wayve的GAIA-1 & GAIA-2、上海交大CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive,并以商汤开源的OpenDWM进行实战 [8] - **第五章:基于OCC的世界模型** 聚焦OCC生成类世界模型算法,讲解清华OccWorld、复旦OccLLaMA、华科ICCV'25的HERMES、西交II-World等三篇论文,并进行一个项目实战,此类方法可扩展至自车轨迹规划以实现端到端 [9][13] - **第六章:世界模型岗位专题** 基于前五章算法基础,分享工业界应用现状、行业痛点、期望解决的问题,以及如何准备相关岗位面试,内容为公司真正关注的经验积累 [10] 课程技术覆盖与学后收获 - **关键技术覆盖** 课程涵盖Transformer、视觉Transformer、CLIP、LLaVA、BEV感知、占用网络、扩散模型、闭环仿真、NeRF、3DGS、VAE、GAN及Next Token Prediction等生成式模型 [12] - **预期能力提升** 学员学完后预期能达到相当于1年左右经验的世界模型自动驾驶算法工程师水平,掌握世界模型技术进展,并对BEV感知、多模态大模型等关键技术有更深刻理解 [14] - **实践成果** 学员将能够复现II-World、OpenDWM等主流算法框架,并将所学应用到项目中,真正搞懂如何设计自己的世界模型,对实习、校招、社招均有助益 [14] 课程安排与面向人群 - **课程进度** 课程于1月1日开课,预计两个半月结课,采用离线视频教学,配合VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日 [15] - **章节解锁时间** 第一章于12月10日解锁,后续章节在1月1日至3月1日期间陆续解锁 [16] - **学员基础要求** 学员需自备算力在4090及以上的GPU,具备一定的自动驾驶领域基础,熟悉Transformer大模型、扩散模型、BEV感知等基本概念,并具备概率论、线性代数及Python和PyTorch编程基础 [14]
AI 能造世界了?谷歌 DeepMind 的 Genie 3 分秒生成《死亡搁浅》
36氪· 2025-08-06 11:29
如果说过去几年,生成式 AI 的突破让我们学会了和算法对话,能让它帮我们写文章、画插画、甚至剪视频,那么 DeepMind 在这个今天抛出的 Genie 3, 又让生成式 AI 走进了另一个维度。 8 月 5 日,DeepMind 在官网公布了 Genie 3,一款被称作「通用世界模型」的新模型。 打开 Genie 3,输入一句 prompt「在一个暴风雨中的中世纪村庄漫步」,几秒钟后,Genie 3 就可以生成一片可以探索、可实时交互的 3D 场景,在湿漉漉 的村庄,石板路上反射着雷电的光芒,你可以控制视角,在村庄里自由漫步,你走近一间小屋推开门,能看到炉火在风中摇曳的光影变化。 短短七个月,Genie 3 实现了惊人飞跃。 更神奇的是,当你离开小屋再返回,炉火还在,墙上的涂鸦也没变,此时你在指令框中输入「雨过天晴,屋外有一名骑士骑马而来。」几秒钟后,你就能 再次推门而出,迎接骑士的光临。 这一刻,你宛若小小世界的造物主,这就是 Genie 3 所呈现的「通用世界模型」的生成能力。而 Genie 3 的强大能力,让谷歌在激烈的 AI 竞争中,又扳回 了一分。 01 指尖创造世界 Genie 3 的前身是 2 ...