Workflow
世界模型
icon
搜索文档
视频生成 vs 空间表征,世界模型该走哪条路?
机器之心· 2025-08-24 01:30
世界模型技术路线之争 - 视频预测路线主张在像素空间预测未来视频片段,认为高质量画面生成代表模型对物理规律的掌握,如OpenAI Sora宣称通过大规模视频训练构建"通用物理世界模拟器"[8] - 世界表征路线主张在潜在抽象空间建模时空与因果结构,避免像素级冗余细节预测,如LeCun提出在抽象表征上进行预测以去除不可预测细节[9] - 技术实现差异显著:视频预测路线通过生成器在高维图像空间按帧还原视觉内容,世界表征路线通过VAE压缩数据至低维潜在空间后用RNN等模型预测状态演化[9] 前沿模型技术架构分析 - Google DeepMind发布Genie 3模型,能够根据文本提示生成可交互3D环境并支持机器人训练和虚拟现实应用[6] - 视频预测路线代表包括OpenAI Sora、Veo 3、Runway Gen-3 Alpha,侧重视觉生成质量与一致性[11] - 世界表征路线代表包括Meta V-JEPA 2和Genie 3,强调在抽象空间进行预测与规划[11] 技术路线有效性争议 - 支持视频生成的研究者认为高质量画面生成即代表物理规律掌握,批评者指出像素一致性不等于因果理解能力[10] - 研究机构指出除JEPA外多数所谓"世界模型"仅为严格视频生成工具,未真正融入决策或规划能力[10] - 核心争论在于建模优先级:从像素逐步抽象或直接跳过像素细节在抽象空间建模[9]
拾象 AGI 观察:LLM 路线分化,AI 产品的非技术壁垒,Agent“保鲜窗口期”
海外独角兽· 2025-08-22 04:06
大模型行业分化趋势 - 大模型公司正从通用模型向垂直领域分化 Google Gemini和OpenAI继续专注通用模型 Anthropic聚焦Coding和Agentic领域 Thinking Machines Lab探索多模态和下一代交互[6][7] - 行业呈现横向全家桶与纵向垂直整合两大路线 ChatGPT代表横向全家桶模式 Gemini代表纵向垂直整合模式[6][37] - 模型能力趋同导致前三名格局稳定 OpenAI、Gemini和Anthropic形成第一梯队 其他公司难以突破前三名壁垒[24][26] 头部公司战略与表现 - Anthropic通过聚焦Coding实现爆发式增长 2024年底ARR达9.5亿美元 预计2025年收入超120亿美元 月复合增速达20-30%[8][11] - OpenAI在C端建立强大壁垒 ChatGPT成为10亿用户最快增长产品 ARR达120亿美元 与Anthropic合计占AI产品营收70-80%[29][30] - Thinking Machines Lab获史上最贵天使轮融资 估值100亿美元融资20亿美元 团队来自OpenAI核心infra部门[13][18] - xAI面临战略定位困境 超大算力投入未带来相应回报 可能在未来半年并入Tesla[22] 产品与技术创新 - L4级别体验产品已出现 ChatGPT Deep Research和Claude Code分别实现信息搜索和软件开发的端到端体验[49] - Coding领域成为当前最大红利 Claude Code仅用3-4个月ARR反超Cursor 预计年底达15-20亿美元[33][50] - 模型保鲜窗口持续缩短 Perplexity窗口期近2年 Cursor窗口期9个月 Manus窗口期仅3个月[45] - Context能力成为关键差异点 Claude在long context领域具有独特优势 最新实现百万context能力[52] 市场竞争格局 - 头部效应加剧 OpenAI和Anthropic增速持续陡峭 其他公司出现明显断层[30] - 成本优势成为核心竞争力 不做模型的Coding公司将失去优势 未来竞争重点转向成本优化[3][53] - 谷歌规模效应开始显现 端到端整合TPU芯片、Gemini模型和安卓系统 后劲可能最强[37][60] - 产品形态趋向融合 ChatGPT计划推出广告平台 谷歌整合Gemini功能推出AI mode[55][58] 投资与创业环境 - 投资策略需要高度集中 头部公司拿走最大价值 错过头部项目意味着错过整个周期[65][66] - 创业窗口期缩小 科技巨头既看得懂又跟得动 留给创业公司的空间有限[37][39] - 华人团队全球影响力提升 在AGI领域扮演重要角色 需要积极开拓北美高价值市场[62][63] - 优秀AI产品经理画像变化 下一代PM需要算法或模型背景 才能更好利用模型红利[47] 技术发展前景 - 语言和代码仍是当前最大红利 多模态和机器人发展还需突破多个GPT-4级别技术[49][64] - 产品形态持续演进 可能打破APP端到端优势 介于手机屏幕和APP之间的新形态[60] - 世界模型与Coding可能本质相同 都是实现AGI的"虚拟子宫" 只是路径不同[12] - 智能与产品需要平衡 OpenAI在智能探索和产品转化方面做得最好[40][43]
从“内部世界”到虚拟造物:世界模型的前世今生
经济观察报· 2025-08-21 08:25
谷歌DeepMind Genie 3模型 - 谷歌DeepMind发布Genie 3模型 能够根据文本或图像提示实时生成可交互的3D虚拟环境 例如输入"月球上的火山边"可生成相应场景并允许用户探索 [2] - Genie 3在实时交互能力上显著提升 支持记忆连贯性 如用户涂鸦后离开再返回 涂鸦仍保留 并引入"可提示的世界事件"功能 允许通过新指令动态改变环境 [2] - 该模型被视为通向通用人工智能(AGI)的"世界模型"路径 刷新AI生成内容边界 引发行业对"世界模型"技术路线的广泛讨论 [2][21] 世界模型技术发展史 - 世界模型灵感源自人脑构建"内部世界"的能力 早期AI研究如维纳的反馈控制理论和符号主义知识图谱已尝试模仿该机制 [6] - 1989年理查德·萨顿提出Dyna架构 结合强化学习与内部世界模拟 1990年施密德胡伯首次用RNN实现"世界模型"概念 但受限于当时技术条件未受重视 [6][7] - 2018年施密德胡伯团队发表《世界模型》论文 借助深度学习革命浪潮 该概念重新引发关注 谷歌DeepMind随后推出PlaNet(2019)和Dreamer(2020)等迭代产品 [7][8][9] 世界模型技术实现路径 - 核心技术包括表征学习(如VAE压缩多模态数据)、动态建模(嵌入物理规律避免模拟偏差)、控制规划(蒙特卡洛树搜索或强化学习)及结果输出(潜在空间渲染) [11][12][13][14] - 动态建模需解决因果关系学习难题 通过嵌入物理定律或多样化数据训练确保模拟准确性 例如抛掷物体需涵盖羽毛与铅球不同场景 [12] - 输出环节采用潜在空间生成再解码为像素 效率高于直接像素生成 多模态输出需结合声音、触觉等渲染技术 [14] 世界模型行业应用前景 - 具身智能领域:为机器人提供安全虚拟训练场 通过"做梦"式模拟降低试错成本 避免现实环境中的事故风险 [15][16] - 数字孪生领域:从被动模型升级为主动预测系统 实现设备故障预警、流程优化等"感知-预测-决策"闭环 [16] - 游戏娱乐领域:实时生成动态虚拟世界 提升NPC交互智能 未来或成为"虚拟社会"基础设施 支持大规模数字生活 [17] 行业技术路线争议 - Meta杨立坤认为世界模型是AGI必经之路 因其模拟人类"离线思考"能力 而大语言模型缺乏物理一致性推理 [21] - DeepMind哈萨比斯等学者持反对意见 指出AlphaGoZero等无模型方法已超越人类 显式物理建模可能受误差累积限制 [22] - 中间路线派主张隐式建模 如大语言模型通过参数隐含世界知识 虽可解释性差但能完成逻辑推演 技术路径应依任务需求选择 [23][24]
上下文即记忆!港大&快手提出场景一致的交互式视频世界模型,记忆力媲美Genie3,且更早问世!
量子位· 2025-08-21 07:15
技术框架与核心创新 - 香港大学和快手可灵研究团队提出全新框架"上下文即记忆"(Context-as-Memory),通过将完整历史上下文帧作为记忆并利用记忆检索机制优化长视频生成的场景一致性 [8][10] - 框架核心思想包括:依赖长期历史记忆保持场景一致性、通过记忆检索模块智能筛选有用历史信息、将筛选后的上下文帧拼接至输入中指导新帧生成 [15][17][19] - 采用基于摄像机轨迹搜索的帧选取方法,通过计算视场重叠度选择高重叠上下文帧,在保证计算效率的同时维持一致性 [20][22] 实验设计与性能表现 - 在相同基础模型和训练配置下,Context-as-Memory方法在PSNR(20.22)、LPIPS(0.3003)、FID(107.18)和FVD(821.37)指标上均优于基线方法,显示其显著优越的记忆能力和生成质量 [25] - 对比方法包括:单帧上下文(PSNR 15.72)、多帧随机上下文(PSNR 17.70)、DFoT(PSNR 17.63)及FramePack(PSNR 17.20) [25][29] - 使用Unreal Engine 5构建包含100个视频、12种场景风格的数据集,每个视频由7601帧组成并附带摄像机位姿标注,简化位姿处理至二维平面移动和旋转 [22][23] 应用案例与泛化能力 - 方法成功应用于《塞尔达传说》绿色田野、《黑神话悟空》废弃寺庙及《原神》云堇角色模型等游戏场景,在镜头晃动时保持场景元素完全稳定 [1][3][5][7] - 在开放域测试中,使用互联网不同风格图像作为首帧并采用"旋转远离再返回"轨迹,验证了方法在开放场景中的强大记忆泛化能力 [26][27] 研究背景与团队构成 - 论文由香港大学、浙江大学和快手可灵团队联合完成,第一作者为香港大学博士生余济闻,师从刘希慧教授并在快手可灵担任研究实习生 [28][32] - 研究是作者在交互式视频生成、世界模型和具身人工智能方向的延续,其前期成果GameFactory曾入选ICCV 2025 Highlight [33]
上下文记忆力媲美Genie3,且问世更早:港大和可灵提出场景一致的交互式视频世界模型
机器之心· 2025-08-21 01:03
核心技术突破 - 提出Context as Memory方法 将历史生成帧作为记忆载体实现长视频场景一致性 无需显式3D建模辅助[2][10][17] - 创新设计基于相机轨迹视场(FOV)的记忆检索机制 动态筛选相关历史帧 减少计算开销并提升训练推理效率[3][12][17] - 通过context learning技术学习上下文条件 使模型隐式掌握视频数据中的3D先验[2][12] 技术实现细节 - 采用基于Context learning的视频自回归生成框架 所有历史帧作为记忆条件参与生成过程[12] - 基于Unreal Engine 5构建多样化场景数据集 包含精确相机轨迹标注的长视频用于训练测试[3] - 用户仅需提供初始图像即可沿设定相机轨迹自由探索生成的虚拟世界[3] 性能表现 - 在几十秒时间尺度下保持静态场景记忆力 并在不同场景展现优秀泛化能力[6] - 实验结果显示其场景记忆力显著超越现有SOTA方法 在开放域场景中保持记忆[10][15] - 与Google DeepMind的Genie 3效果接近 且投稿时间早于Genie 3发布[2] 研究背景与延伸 - 团队提出世界模型五大基础能力模块:Generation Control Memory Dynamics Intelligence 为领域研究提供框架指导[18] - 同期开发GameFactory技术 聚焦可泛化开放域控制能力 可生成无限可交互新游戏 获ICCV 2025 Highlight论文[18][19] - 已发表多篇交互式视频生成领域综述与观点论文 系统总结领域发展现状[18][19]
开源版Genie 3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品
机器之心· 2025-08-19 02:43
核心观点 - 昆仑万维发布开源交互世界模型Matrix-Game 2 0,参数量仅1 8B,能在单块GPU上实现25FPS的分钟级实时互动生成,效果媲美Google DeepMind的Genie 3 [1][12][11] - 该模型突破传统世界模型在实时交互、长序列生成和计算效率上的瓶颈,支持键盘WASD控制自由移动,生成画面具有物理一致性和高保真细节(如GTA地图、神庙逃亡无限延伸场景)[4][8][9][19] - 技术架构采用视觉驱动交互方案,通过3D Causal VAE+DiT模型实现少步骤自回归扩散生成,训练数据来自虚幻引擎和GTA5采集的120万视频片段(准确率99%)[35][36][37][39] - 定量对比显示其图像质量(0 61)、时间一致性(0 94)、键盘控制准确率(0 91)等指标显著优于Oasis模型,解决"转圈画风突变"问题[48][49] - 公司2023年持续发力开源生态,已发布SkyReels视频生成、Skywork-R1V多模态推理等10余个模型,技术覆盖图像/音频/视频/智能体全领域[51][53] 技术突破 - **架构创新**:移除文本分支专注视觉理解,动作模块支持帧级键鼠输入,通过MLP+交叉注意力实现精准交互控制[39][40] - **训练机制**:采用Self-Forcing将双向模型转为自回归变体,减少误差累积,生成视频时长可达分钟级[42][45] - **数据管线**:构建虚幻引擎+GTA5双数据源,开发Script Hook V工具同步记录动作与画面,积累1200小时交互视频[36][37][38] 应用场景 - **游戏开发**:实测可复刻《荒野大镖客》自然景观、《CS:GO》地图细节补充、《我的世界》像素场景动态生成[20][21][24] - **现实模拟**:成功生成自行车骑行第一视角,柏油马路与行道树动态符合物理规律[26] - **AI训练场**:为具身智能提供虚拟环境训练,解决机器人/自动驾驶数据采集难题[57][58] 行业影响 - 成为首个开源通用实时世界模型方案,推动技术民主化发展[10][11] - 模型效果接近商业级3A游戏引擎,帧率与谷歌Genie 3相当(25FPS vs 30FPS)[12][4] - 开源策略加速行业创新,HuggingFace模型获超1k星标热度[52]
诺奖得主谈「AGI试金石」:AI自创游戏并相互教学
36氪· 2025-08-19 00:00
Genie 3 世界模型 - Genie 3 是 DeepMind 多个研究分支融合的成果,核心目标是构建“世界模型”,让 AI 理解物理世界的规律,包括物理结构、材料特性、液体流动、生物行为等 [3] - 通过 3D 游戏引擎等模拟环境生成大量数据,让 AI 在虚拟场景中学习现实规律,能生成具有一致性的世界,用户返回虚拟场景时状态与离开时保持一致 [4] - 已用于内部训练,游戏 agent SIMA 可直接操控电脑游戏,Genie 3 实时生成对应的环境变化,形成“AI 生成世界、另一个 AI 探索”的闭环,为机器人技术和 AGI 系统创建无限训练数据 [4] - 在互动娱乐领域有潜在价值,可能催生介于电影与游戏之间的新型娱乐形式,与视频模型共同为探索现实本质提供新维度 [5] Game Arena 评估平台 - Google DeepMind 与 Kaggle 合作推出 Game Arena,作为评估 AGI 进展的新测试平台,让模型玩各种游戏并测试能力 [6] - 游戏是非常纯粹的测试场所,通过 Elos 等级分客观衡量性能,没有主观性,不需要人类进行 A/B 测试 [9] - 随着 AI 系统能力提升,游戏难度可自动调整,系统在比赛中相互较量,能力增强则测试自动升级 [9] - 未来支持 AI 自创游戏并相互教学,避免训练数据过度拟合,更真实检验通用学习能力 [10] - 将与其他新型评估工具共同作用,确保 AI 系统在认知能力的各个维度得到全面检验 [11] AI 系统现状与挑战 - 当前 AI 系统存在能力不均衡现象,能在 IMO 中获得金牌,却可能在高中数学、简单逻辑问题或特定游戏中犯低级错误 [7] - 现有评估基准存在局限性,很多 benchmark 开始变得饱和,例如数学领域 AIME 的正确率已达 99.2%,进入回报非常有限的阶段 [7] - 需要更难、更广泛的 benchmark,涵盖物理世界理解、直觉物理、物理智能及安全特性等维度 [8] Thinking 模型与工具使用 - Thinking 模型演进是重要方向,以 Deep Think 为代表的系统延续 AlphaGo 等早期游戏 AI 的 agent 系统思路,强调思考、规划与推理能力 [12] - 可进行深度思考和并行规划,在数学、编程、科学问题等领域通过反复推演优化结果,而非直接输出初始结论 [12] - 工具使用成为 AI 能力扩展的新维度,在推理过程中可调用搜索功能、数学程序、编码工具等,更新规划方案 [12] AI 系统架构转变 - AI 正从权重模型向完整系统转变,早期模型输入输出模式较简单,如今系统能结合工具使用、规划与思考能力,实现更复杂功能 [13] - 产品设计需具备前瞻性,预判一年后技术水平,允许底层引擎定期更新,周期可能短至三到六个月,以适应技术快速迭代 [13]
一张图,开启四维时空:4DNeX让动态世界 「活」起来
机器之心· 2025-08-18 03:22
研究背景 - 世界模型成为AI研究高频热词 Google DeepMind的Genie 3能在高质量游戏数据上生成长达数分钟的交互式视频但缺乏真实场景验证 [5] - 构建动态3D世界模型的关键在于刻画物理定律支持虚拟中的反事实推演这是下一代AR/VR与具身智能的研究基石也是迈向可信AGI的必经之路 [5] - 4D世界模型构建的三大挑战在于数据稀缺性、多模态表征设计以及生成架构优化 [6][9] 4DNeX-10M数据集 - 发布近千万帧带伪标签的超大规模4D视频数据集覆盖室内外环境、自然景观与人体运动等多元主题尤其以海量"以人为中心"数据为特色 [10] - 数据集构建采用全自动管线:单目实拍视频经光流一致性、亮度统计等多轮清洗后由LLaVA-Next Video打标静态场景用Dust3R重建动态场景用Monst3R/MegaSam输出半稠密点云图 [14] - 数据源整合Pexels、Vimeo等公开视频库以及RealEstate-10K、DL3DV等静态数据集通过联合置信度与运动平滑度阈值确保质量 [14] 4DNeX方法架构 - 提出6D统一表征:用RGB序列刻画外观(3维)XYZ序列编码几何(3维)无需显式相机控制即可同步生成多模态内容 [16] - 关键技术突破为"宽度融合"策略将RGB与XYZ在token宽度维度直接拼接跨模态距离最低相比通道融合减少预训练分布干扰 [18] - 网络骨架基于Wan2 1视频扩散模型通过LoRA微调适配采用斜坡深度初始化、归一化坐标校正等策略确保物理自洽 [20][24] 实验结果 - VBench测试显示动态幅度达100%(超越Free4D的40 1%)时空一致性96 8%用户研究中85%偏好其生成效果 [23] - 对比实验中运动幅度与真实感优势显著:对4Real的时空一致性对比为85%/15%审美评分93%/7%对GenXD达100%/0% [25][26] - 消融实验证实宽度融合策略最优能消除通道融合的噪声问题其他方案如批处理融合存在对齐失败缺陷 [26][28] 技术应用 - 实现单图输入输出连贯动态点云序列新视角合成在真实场景中保持几何一致性树叶摇曳幅度等细节表现优于基线模型 [23] - 生成效果可支持AR/VR内容创作、数字孪生构建等场景为具身智能提供高保真环境模拟能力 [5][16]
智元机器人推出世界模型:机器人的“大脑” 还是市值翻十倍的“样板间”?
观察者网· 2025-08-18 02:35
公司技术突破 - 智元机器人于8月14日正式开源世界模型GenieEnvisioner(GE) 并宣称是行业首个面向双臂真机的世界模型[1] - GE模型构建基于视觉中心的建模范式 直接在视觉空间中建模机器人与环境的交互动态 完整保留空间结构和时序演化信息[3] - 模型基于3000小时真机数据训练 在跨平台泛化和长时序任务执行上显著超越现有SOTA水平[3] - GE平台整合预测-控制-评估环节 使机器人能够像人类一样在实际操作前模拟并验证动作[3] - 借助GE模型 公司已实现半身移动任务连续完成包括做三明治、倒茶、擦桌、用微波炉和装箱等五项长链条任务[4] 行业技术背景 - 当前大语言模型存在推理时间长和实时性差问题 控制在线决策延迟达1至5秒 无法满足工业场景3至10毫秒需求[6] - 世界模型通过智能体与环境实时感知交互 构建理解、预测和适应环境动态变化的能力 允许智能体通过"想象"行动策略提前规划步骤[6] - 行业对具身智能数据需求存在争论 部分观点认为世界模型能力提升与数据多寡无强关联 而模型架构问题更为关键[9] 公司战略与市场影响 - 公司通过协议转让+要约收购方式取得材料供应商上纬新材63.62%股权[1] - 自7月8日公告以来 上纬新材股价走出11个涨停 市值从30亿元最高冲至400多亿元[1] - 公司宣称"机器人公司不做大模型将没有未来" 并已发布首个通用具身基座大模型智元启元大模型[6] 技术数据争议 - 世界模型训练数据需求远超当前具身机器人提供能力 Meta的V-JEPA 2模型使用超100万小时互联网视频数据训练[8] - 公司使用的3000小时真机数据对世界模型能力提升作用微乎其微 行业类比"往长江里倒一桶纯净水"[8] - 具身智能领域存在模型架构不够统一问题 部分情况下数据采集后难以有效利用[9]
Video Rebirth刘威:视频生成模型是构建世界模型的最佳路径
IPO早知道· 2025-08-18 02:31
世界模型技术发展 - 视频生成模型被视为构建世界模型的最佳路径,有望成为AI从感知向认知跃迁的关键突破口 [2] - AI技术发展经历四个阶段:符号主义、连接主义、现实主义、生成主义,2025年处于关键拐点,软件向智能体过渡,硬件向物理AI演进 [2] - OpenAI的O1模型(2024年9月发布)首次实现AI真正推理能力,标志连接主义40年探索的突破 [2] 世界模型核心能力 - 世界模型需具备三大能力:模拟能力(仿真功能)、预测能力(因果推理)、探索能力(规划决策),分别对应快思考感知、慢思考认知和主动思考 [3] - 当前多模态模型(如GPT-4o)仍处于被动响应模式,缺乏环境整体建模和预测能力,世界模型需转向主动思考 [3] - SORA为世界模型提供技术启发,通过视频生成实现时空变化模拟,证明世界模型可行性 [3] Video Rebirth的技术路径 - 公司将视频原生世界模型定义为世界模拟器与预测器的组合,当前DiT架构存在因果推理缺失、无法交互干预等问题 [4] - 未来技术升级方向包括构建独有模型范式,目标实现视频生成领域的"ChatGPT moment",推出首个视频原生世界模型 [4] - 通过视频生成切入世界模型,有望在AI认知能力突破期提供技术创新,支撑通用人工智能发展 [4]