世界模型

搜索文档
开源版Genie 3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品
机器之心· 2025-08-19 02:43
核心观点 - 昆仑万维发布开源交互世界模型Matrix-Game 2 0,参数量仅1 8B,能在单块GPU上实现25FPS的分钟级实时互动生成,效果媲美Google DeepMind的Genie 3 [1][12][11] - 该模型突破传统世界模型在实时交互、长序列生成和计算效率上的瓶颈,支持键盘WASD控制自由移动,生成画面具有物理一致性和高保真细节(如GTA地图、神庙逃亡无限延伸场景)[4][8][9][19] - 技术架构采用视觉驱动交互方案,通过3D Causal VAE+DiT模型实现少步骤自回归扩散生成,训练数据来自虚幻引擎和GTA5采集的120万视频片段(准确率99%)[35][36][37][39] - 定量对比显示其图像质量(0 61)、时间一致性(0 94)、键盘控制准确率(0 91)等指标显著优于Oasis模型,解决"转圈画风突变"问题[48][49] - 公司2023年持续发力开源生态,已发布SkyReels视频生成、Skywork-R1V多模态推理等10余个模型,技术覆盖图像/音频/视频/智能体全领域[51][53] 技术突破 - **架构创新**:移除文本分支专注视觉理解,动作模块支持帧级键鼠输入,通过MLP+交叉注意力实现精准交互控制[39][40] - **训练机制**:采用Self-Forcing将双向模型转为自回归变体,减少误差累积,生成视频时长可达分钟级[42][45] - **数据管线**:构建虚幻引擎+GTA5双数据源,开发Script Hook V工具同步记录动作与画面,积累1200小时交互视频[36][37][38] 应用场景 - **游戏开发**:实测可复刻《荒野大镖客》自然景观、《CS:GO》地图细节补充、《我的世界》像素场景动态生成[20][21][24] - **现实模拟**:成功生成自行车骑行第一视角,柏油马路与行道树动态符合物理规律[26] - **AI训练场**:为具身智能提供虚拟环境训练,解决机器人/自动驾驶数据采集难题[57][58] 行业影响 - 成为首个开源通用实时世界模型方案,推动技术民主化发展[10][11] - 模型效果接近商业级3A游戏引擎,帧率与谷歌Genie 3相当(25FPS vs 30FPS)[12][4] - 开源策略加速行业创新,HuggingFace模型获超1k星标热度[52]
诺奖得主谈「AGI试金石」:AI自创游戏并相互教学
36氪· 2025-08-19 00:00
Genie 3 世界模型 - Genie 3 是 DeepMind 多个研究分支融合的成果,核心目标是构建“世界模型”,让 AI 理解物理世界的规律,包括物理结构、材料特性、液体流动、生物行为等 [3] - 通过 3D 游戏引擎等模拟环境生成大量数据,让 AI 在虚拟场景中学习现实规律,能生成具有一致性的世界,用户返回虚拟场景时状态与离开时保持一致 [4] - 已用于内部训练,游戏 agent SIMA 可直接操控电脑游戏,Genie 3 实时生成对应的环境变化,形成“AI 生成世界、另一个 AI 探索”的闭环,为机器人技术和 AGI 系统创建无限训练数据 [4] - 在互动娱乐领域有潜在价值,可能催生介于电影与游戏之间的新型娱乐形式,与视频模型共同为探索现实本质提供新维度 [5] Game Arena 评估平台 - Google DeepMind 与 Kaggle 合作推出 Game Arena,作为评估 AGI 进展的新测试平台,让模型玩各种游戏并测试能力 [6] - 游戏是非常纯粹的测试场所,通过 Elos 等级分客观衡量性能,没有主观性,不需要人类进行 A/B 测试 [9] - 随着 AI 系统能力提升,游戏难度可自动调整,系统在比赛中相互较量,能力增强则测试自动升级 [9] - 未来支持 AI 自创游戏并相互教学,避免训练数据过度拟合,更真实检验通用学习能力 [10] - 将与其他新型评估工具共同作用,确保 AI 系统在认知能力的各个维度得到全面检验 [11] AI 系统现状与挑战 - 当前 AI 系统存在能力不均衡现象,能在 IMO 中获得金牌,却可能在高中数学、简单逻辑问题或特定游戏中犯低级错误 [7] - 现有评估基准存在局限性,很多 benchmark 开始变得饱和,例如数学领域 AIME 的正确率已达 99.2%,进入回报非常有限的阶段 [7] - 需要更难、更广泛的 benchmark,涵盖物理世界理解、直觉物理、物理智能及安全特性等维度 [8] Thinking 模型与工具使用 - Thinking 模型演进是重要方向,以 Deep Think 为代表的系统延续 AlphaGo 等早期游戏 AI 的 agent 系统思路,强调思考、规划与推理能力 [12] - 可进行深度思考和并行规划,在数学、编程、科学问题等领域通过反复推演优化结果,而非直接输出初始结论 [12] - 工具使用成为 AI 能力扩展的新维度,在推理过程中可调用搜索功能、数学程序、编码工具等,更新规划方案 [12] AI 系统架构转变 - AI 正从权重模型向完整系统转变,早期模型输入输出模式较简单,如今系统能结合工具使用、规划与思考能力,实现更复杂功能 [13] - 产品设计需具备前瞻性,预判一年后技术水平,允许底层引擎定期更新,周期可能短至三到六个月,以适应技术快速迭代 [13]
一张图,开启四维时空:4DNeX让动态世界 「活」起来
机器之心· 2025-08-18 03:22
研究背景 - 世界模型成为AI研究高频热词 Google DeepMind的Genie 3能在高质量游戏数据上生成长达数分钟的交互式视频但缺乏真实场景验证 [5] - 构建动态3D世界模型的关键在于刻画物理定律支持虚拟中的反事实推演这是下一代AR/VR与具身智能的研究基石也是迈向可信AGI的必经之路 [5] - 4D世界模型构建的三大挑战在于数据稀缺性、多模态表征设计以及生成架构优化 [6][9] 4DNeX-10M数据集 - 发布近千万帧带伪标签的超大规模4D视频数据集覆盖室内外环境、自然景观与人体运动等多元主题尤其以海量"以人为中心"数据为特色 [10] - 数据集构建采用全自动管线:单目实拍视频经光流一致性、亮度统计等多轮清洗后由LLaVA-Next Video打标静态场景用Dust3R重建动态场景用Monst3R/MegaSam输出半稠密点云图 [14] - 数据源整合Pexels、Vimeo等公开视频库以及RealEstate-10K、DL3DV等静态数据集通过联合置信度与运动平滑度阈值确保质量 [14] 4DNeX方法架构 - 提出6D统一表征:用RGB序列刻画外观(3维)XYZ序列编码几何(3维)无需显式相机控制即可同步生成多模态内容 [16] - 关键技术突破为"宽度融合"策略将RGB与XYZ在token宽度维度直接拼接跨模态距离最低相比通道融合减少预训练分布干扰 [18] - 网络骨架基于Wan2 1视频扩散模型通过LoRA微调适配采用斜坡深度初始化、归一化坐标校正等策略确保物理自洽 [20][24] 实验结果 - VBench测试显示动态幅度达100%(超越Free4D的40 1%)时空一致性96 8%用户研究中85%偏好其生成效果 [23] - 对比实验中运动幅度与真实感优势显著:对4Real的时空一致性对比为85%/15%审美评分93%/7%对GenXD达100%/0% [25][26] - 消融实验证实宽度融合策略最优能消除通道融合的噪声问题其他方案如批处理融合存在对齐失败缺陷 [26][28] 技术应用 - 实现单图输入输出连贯动态点云序列新视角合成在真实场景中保持几何一致性树叶摇曳幅度等细节表现优于基线模型 [23] - 生成效果可支持AR/VR内容创作、数字孪生构建等场景为具身智能提供高保真环境模拟能力 [5][16]
智元机器人推出世界模型:机器人的“大脑” 还是市值翻十倍的“样板间”?
观察者网· 2025-08-18 02:35
公司技术突破 - 智元机器人于8月14日正式开源世界模型GenieEnvisioner(GE) 并宣称是行业首个面向双臂真机的世界模型[1] - GE模型构建基于视觉中心的建模范式 直接在视觉空间中建模机器人与环境的交互动态 完整保留空间结构和时序演化信息[3] - 模型基于3000小时真机数据训练 在跨平台泛化和长时序任务执行上显著超越现有SOTA水平[3] - GE平台整合预测-控制-评估环节 使机器人能够像人类一样在实际操作前模拟并验证动作[3] - 借助GE模型 公司已实现半身移动任务连续完成包括做三明治、倒茶、擦桌、用微波炉和装箱等五项长链条任务[4] 行业技术背景 - 当前大语言模型存在推理时间长和实时性差问题 控制在线决策延迟达1至5秒 无法满足工业场景3至10毫秒需求[6] - 世界模型通过智能体与环境实时感知交互 构建理解、预测和适应环境动态变化的能力 允许智能体通过"想象"行动策略提前规划步骤[6] - 行业对具身智能数据需求存在争论 部分观点认为世界模型能力提升与数据多寡无强关联 而模型架构问题更为关键[9] 公司战略与市场影响 - 公司通过协议转让+要约收购方式取得材料供应商上纬新材63.62%股权[1] - 自7月8日公告以来 上纬新材股价走出11个涨停 市值从30亿元最高冲至400多亿元[1] - 公司宣称"机器人公司不做大模型将没有未来" 并已发布首个通用具身基座大模型智元启元大模型[6] 技术数据争议 - 世界模型训练数据需求远超当前具身机器人提供能力 Meta的V-JEPA 2模型使用超100万小时互联网视频数据训练[8] - 公司使用的3000小时真机数据对世界模型能力提升作用微乎其微 行业类比"往长江里倒一桶纯净水"[8] - 具身智能领域存在模型架构不够统一问题 部分情况下数据采集后难以有效利用[9]
Video Rebirth刘威:视频生成模型是构建世界模型的最佳路径
IPO早知道· 2025-08-18 02:31
世界模型技术发展 - 视频生成模型被视为构建世界模型的最佳路径,有望成为AI从感知向认知跃迁的关键突破口 [2] - AI技术发展经历四个阶段:符号主义、连接主义、现实主义、生成主义,2025年处于关键拐点,软件向智能体过渡,硬件向物理AI演进 [2] - OpenAI的O1模型(2024年9月发布)首次实现AI真正推理能力,标志连接主义40年探索的突破 [2] 世界模型核心能力 - 世界模型需具备三大能力:模拟能力(仿真功能)、预测能力(因果推理)、探索能力(规划决策),分别对应快思考感知、慢思考认知和主动思考 [3] - 当前多模态模型(如GPT-4o)仍处于被动响应模式,缺乏环境整体建模和预测能力,世界模型需转向主动思考 [3] - SORA为世界模型提供技术启发,通过视频生成实现时空变化模拟,证明世界模型可行性 [3] Video Rebirth的技术路径 - 公司将视频原生世界模型定义为世界模拟器与预测器的组合,当前DiT架构存在因果推理缺失、无法交互干预等问题 [4] - 未来技术升级方向包括构建独有模型范式,目标实现视频生成领域的"ChatGPT moment",推出首个视频原生世界模型 [4] - 通过视频生成切入世界模型,有望在AI认知能力突破期提供技术创新,支撑通用人工智能发展 [4]
扩散世界模型LaDi-WM大幅提升机器人操作的成功率和跨场景泛化能力
具身智能之心· 2025-08-18 00:07
核心观点 - 国防科大、北京大学、深圳大学团队提出LaDi-WM(Latent Diffusion-based World Models),一种基于隐空间扩散的世界模型,用于预测隐空间的未来状态,提升机器人操作性能 [1] - LaDi-WM利用预训练的视觉基础模型构建隐空间表示,包含几何特征和语义特征,具有广泛通用性,有利于机器人操作的策略学习和跨任务泛化 [1] - 团队设计了一种扩散策略,通过整合世界模型生成的预测状态迭代优化输出动作,在LIBERO-LONG数据集上成功率提升27.9% [2] - 该方法在虚拟和真实数据集上均表现出色,在真实场景中将原始模仿学习策略的成功率显著提升20% [26] 技术方法 - 世界模型学习阶段:通过预训练的视觉基础模型提取几何表征(DINOv2)和语义表征(Siglip),并在扩散过程中让二者交互,学习依赖关系 [10] - 策略模型训练与迭代优化:将世界模型的未来预测作为额外输入引导策略学习,基于扩散策略模型架构,迭代优化动作输出 [12] - 框架分为世界模型学习和策略学习两大阶段,通过任务无关的片段学习隐扩散世界模型,再利用未来状态预测优化策略模型 [9] 实验结果 虚拟实验 - 在LIBERO-LONG数据集上,仅用10条轨迹训练,达到68.7%的成功率,显著优于其他方法(DreamerV3 33.5%,ATM 44.0%,Seer 53.6%) [15][16] - 在CALVIN D-D数据集上,平均完成任务数量为3.63,优于Seer(3.60)和ATM(2.98) [17] - 跨场景实验中,在LIBERO-LONG训练的世界模型应用于CALVIN D-D策略学习,性能比CALVIN环境训练的原始策略高0.61 [21] 真机实验 - 在真实场景操作任务(叠碗、开抽屉、关抽屉、抓取物体放入篮子等)中,将原始模仿学习策略的成功率从40.0%提升至60.0% [26] - 提出的策略在不同光照条件和初始位置下表现出鲁棒的泛化性 [25][27] 创新点 - 基于隐空间扩散的世界模型:使用视觉基础模型构建隐空间的通用表示,学习可泛化的动态建模能力 [5] - 基于世界模型预测迭代优化的扩散策略:利用未来预测状态反馈给策略模型,迭代优化动作输出 [6] - 通过交互扩散过程学习几何与语义表征之间的依赖关系,促进准确动态预测 [10]
智元世界模型:机器人的“大脑”,还是市值翻十倍的“样板间”?
观察者网· 2025-08-17 11:41
智元机器人世界模型GE开源 - 公司正式开源世界模型GenieEnvisioner(GE),定位为行业首个面向双臂真机的世界模型 [1] - GE采用视觉中心建模范式,直接在视觉空间建模机器人与环境交互,保留空间结构和时序信息 [3] - 基于3000小时真机数据,GE-Act在跨平台泛化和长时序任务执行上超越现有SOTA水平 [3] - 模型整合"预测-控制-评估"环节,使机器人具备"想象-验证-行动"的主动能力 [3] - 已实现制作三明治、倒茶、擦桌、使用微波炉、装箱等五项连续任务 [4] 技术突破与行业定位 - 公司认为机器人必须搭载大模型,当前大语言模型存在1-5秒延迟,无法满足工业场景3-10毫秒需求 [6] - GE作为世界模型,通过"想象"行动策略的未来状态序列实现提前规划 [6] - 行业存在数据飞轮派与模型瓶颈派之争:前者强调数据积累(智元),后者主张重构模型架构(宇树) [15][16] - 世界模型被视为"认知地基",需百万小时级互联网数据;具身智能则是依赖真机数据的"上层建筑" [11][12] 资本市场反应 - 公司通过"协议转让+要约收购"控股材料供应商上纬新材63.62%股权 [1] - 上纬新材市值从30亿元最高冲至400多亿元,走出11个涨停板 [1][13] - 控股实现供应链锁定(PEEK材料可减重30%)与市值杠杆放大双重效应 [13] - 二级市场提前定价,行业进入"市梦率"博弈阶段,技术路线尚未收敛 [14][17] 行业发展现状 - 具身智能技术成熟度类比2016年自动驾驶:硬件可用,算法需打磨 [11] - 训练数据量级对比:Meta V-JEPA 2使用100万小时数据,智元3000小时数据被认为作用有限 [9] - 行业争议焦点:世界模型能力提升是否依赖具身智能领域数据量 [9][10] - 当前瓶颈在于模型架构不够统一,部分场景数据采集后难以有效利用 [10]
智元机器人推出世界模型:机器人的“大脑”,还是市值翻十倍的“样板间”?
观察者网· 2025-08-17 11:37
智元机器人世界模型GE开源 - 公司正式开源世界模型GenieEnvisioner(GE),定位为行业首个面向双臂真机的世界模型,整合"预测-控制-评估"环节,实现机器人主动模拟验证行动的能力[1][5] - GE采用视觉中心建模范式,直接在视觉空间建模机器人与环境交互动态,保留空间结构和时序信息,相比主流VLA方法实现更精确的直接建模[3] - 基于3000小时真机数据,GE-Act在跨平台泛化和长时序任务执行上超越现有SOTA技术,演示中完成制作三明治、倒茶等五项连续任务[3][5] 技术架构与行业争议 - 世界模型与具身智能分属不同发展阶段:世界模型需百万小时级互联网视觉数据构建"认知地基",具身智能依赖少量高成本真机数据优化任务执行,二者互补但不同步[13][14] - 行业存在数据飞轮派(智元主张开源千万条真机轨迹)与模型瓶颈派(宇树科技认为当前模型架构不足)的技术路线分歧[17][18] - 对比Meta V-JEPA 2(100万小时视频数据)和DeepMind Genie3(游戏引擎数据集),智元3000小时真机数据对模型基础能力提升有限,但针对性优化具身任务效果显著[10] 资本市场反应与战略布局 - 公司通过"协议转让+要约收购"控股材料供应商上纬新材63.62%股权,锁定PEEK等轻量化复合材料供应,实现供应链垂直整合[1][15] - 公告后上纬新材股价从30亿元市值飙升至400多亿元,连续11个涨停,反映市场对具身智能概念的高度预期[1][15] - 资本运作使智元在技术未完全落地前已实现市值杠杆放大,形成"地基打桩"与"样板间展示"并行的特殊发展阶段[16][20] 行业技术发展阶段判断 - 世界模型当前类似ChatGPT初期的大语言模型阶段,架构快速迭代未收敛,需海量通用数据训练[13] - 具身智能技术成熟度相当于2016年自动驾驶水平:硬件基本可用,算法需工程打磨,实际工业场景要求3-10毫秒延迟,现有大语言模型(50毫秒-5秒延迟)无法满足[7][13] - 公司开源行为推动行业技术透明化,但二级市场估值已超前反映技术预期,存在技术进展与资本定价的时间差[19][20]
一周六连发!昆仑万维将多模态AI卷到了新高度
量子位· 2025-08-17 09:00
技术发布概览 - 一周内连续发布六款多模态AI模型,覆盖视频生成、世界模型、统一多模态、智能体及AI音乐创作等核心场景 [2][3] - 绝大部分模型已开源,包括音频驱动视频生成模型SkyReels-A3、交互世界模型Matrix-Game 2.0、3D场景生成模型Matrix-3D等 [3][19][25] - 技术周前公司入选"中国AI开源16强",与腾讯、阿里等并列 [5] 核心模型与技术突破 视频生成领域 - **SkyReels-A3**:支持音频驱动人像视频生成,预设8种运镜参数,可生成60秒单分镜视频,唇形同步指标Sync-C达8.66,超越OmniHuman(8.15)和Hydra(7.70) [8][10][12][14] - 技术原理:基于DiT视频扩散模型+插帧延展+强化学习动作优化,支持文本提示词输入画面变化及商品交互 [14][15] 世界模型领域 - **Matrix-Game 2.0**:国内首个对标谷歌Genie 3的开源模型,支持25 FPS实时生成分钟级交互视频,数据管线基于Unreal Engine和GTA 5构建1350小时高质量交互视频 [19][20][22][24] - **Matrix-3D**:单图像生成全景视频并还原三维空间,对标李飞飞World Labs,适用于游戏引擎、元宇宙等领域 [25][27] 统一多模态领域 - **Skywork UniPic 2.0**:2B参数模型在图像生成/编辑任务中超越7B的BAGEL和12B的Flux-Kontext,联合训练后模型UniPic2-Metaquery刷新多项SOTA [29][31][33] - 训练策略:采用渐进式双任务强化策略优化SD3.5-Medium架构,降低硬件门槛 [30][31] 智能体领域 - **Skywork Deep Research Agent v2**:多模态深度调研智能体整合图片检索与生成,自动插入图文混合文档;浏览器智能体支持社媒多模态分析(如小红书、Instagram) [37][38][44] - 技术手段:端到端强化学习(GRPO算法)、并行推理机制、多智能体协同框架 [48][49][50][51] AI音乐与语音 - **Mureka V7.5**:中文音乐生成模型在音色、情感表现上超越Suno v4.5,优化ASR技术提升人声真实度 [53][54][57] - **MoE-TTS**:基于MoE的语音合成框架,通过自然语言描述精准控制声音特征,域外描述贴合度领先闭源产品 [60][61] 战略与行业布局 - **战略定力**:2023年确立"All in AGI与AIGC"战略,2024年研发费用15.4亿元(同比+59.5%),研发团队占比73.41% [66][67][73] - **垂直领域聚焦**:CEO方汉强调垂直Agent与高频应用场景的价值,如数字人直播(国内市场规模近十万亿)、游戏引擎、具身智能等 [70][76] - **开源生态**:通过开源建立技术话语权,推动"技术-社区-应用"正向循环,强化行业地位 [78]
谷歌内部揭秘Genie 3:Sora后最强AI爆款,开启世界模型新时代
36氪· 2025-08-17 08:44
Genie 3技术突破 - Genie 3是谷歌DeepMind开发的最先进世界模型,能够通过文本实时生成互动且高度一致的世界,分辨率为720p,帧率高达每秒24帧[1][6] - 该模型由Veo 2和Genie 2两个项目合作完成,具备长达一分钟的空间记忆能力,物理规律会随训练数据规模和深度提升[4][10][11] - 在生成视频时长、世界一致性、内容多样性和特殊记忆等方面实现突破,支持实时交互并提升真实感[6][8][12] 技术特性与比较 - 相比前代产品,Genie 3在分辨率(720p)、交互延迟(实时)、交互时长(多分钟)等关键指标上显著提升[7] - 特殊记忆功能表现突出,能保持场景元素的一致性,如角色刷墙后痕迹保留等超出预期的效果[10][11] - 采用逐帧生成方式而非显式表示法,增强了模型泛化能力和对多样世界的适应性[12][13] 应用前景 - 可用于创建游戏世界、训练强化学习智能体、机器人研究等领域[9] - 为机器人领域提供近乎无限的训练场景,突破现实数据采集限制[33] - 是世界模型通向通用人工智能(AGI)的关键一步,能让AI在丰富模拟环境中训练[6][25] 未来发展 - 未来将重点关注真实感和交互性的提升,计划开放Genie 3模型[26][31] - 当前与完全准确模拟现实世界仍有差距,特别是在场景自由度和真实感方面[27][28][29] - 量子计算机可能成为未来运行高级世界模拟的硬件平台[36]