Workflow
生成式世界模型
icon
搜索文档
全球首款AI原生游戏引擎再进化:GTA6再不来,我们就AI一个
36氪· 2025-08-22 09:17
行业技术发展 - 开放世界游戏如GTA系列被广泛用作AI训练数据 目标是通过AI生成完整虚拟世界 [1] - AI驱动的视频生成、三维生成和世界模型领域将生成类GTA世界作为长期目标 [1] - 全球首个实时世界模型驱动的AI原生UGC游戏引擎Mirage推出迭代版本Mirage 2 [2] - Mirage 2被定位为生成式世界引擎 不仅适用于游戏 还能创建任何可想象的互动世界 [2] 产品技术特性 - Mirage 2支持图片上传并转换为可交互游戏世界 支持实时对话和文本指令修改 [5] - 新架构实现更灵敏的提示控制 更低的游戏延迟和通用领域建模能力 [5] - 支持多种风格场景生成 包括吉卜力风格村庄、儿童画彩色城市和繁星之夜等 [7][9][11] - 交互时间超过10分钟 延迟水平为200毫秒 可在单个消费级GPU上运行 [11] - 相比Mirage 1的700毫秒推理时间 Mirage 2显著改善至200毫秒 [14] 产品性能表现 - 物体比例问题显著改善 场景理解和精度明显提升 人和车模型更合理 [14] - 在线体验延迟较高 但导出视频流畅 动作控制精度仍需提升 [13][16] - 存在视觉一致性问题 快速切换场景时可能出现细节变化 [16] - 通过提示工程可在较长时间内保持画面一致性 [16] 市场竞争对比 - Mirage 2具备与DeepMind Genie 3竞争的能力 支持跑、跳、攻击等动作 [11] - 相比Genie 3的未知延迟和计算需求 Mirage 2已上线可立即体验 [11][13] - Genie 3在视觉一致性方面表现优于Mirage 2 [17]
SceneDiffuser++:基于生成世界模型的城市规模交通仿真(CVPR'25)
自动驾驶之心· 2025-07-21 11:18
技术突破 - 提出首个端到端生成式世界模型SceneDiffuser++,通过单一损失函数训练实现60秒城市级交通仿真,整合场景生成、代理行为建模、遮挡推理和环境仿真等多项技术 [1][2] - 采用多张量扩散方法,将代理和交通灯等异质元素投影到统一潜在空间,通过Transformer骨干网络进行联合去噪处理,支持异质元素的联合仿真 [4][7] - 引入软剪辑策略稳定稀疏张量生成,避免硬剪辑导致的不自然跳跃,确保代理生成和移除的平滑性,综合性能优于硬剪辑和无剪辑方案 [5][17] 性能表现 - 在WOMD-XLMap数据集上评估,SceneDiffuser++在所有指标上优于IDM和SceneDiffuser,例如当IDM作为规划器时,生成代理数量的JS散度为0.1947,远低于IDM的0.6357和SceneDiffuser的0.7027 [12] - 交通灯状态转换概率与真实数据高度一致,而IDM和SceneDiffuser不支持交通灯仿真,在60秒长时仿真中能保持代理动态性和交通灯合理性 [12][15] - 随仿真时长从30秒增加到300秒,误差累积导致部分指标下降,但代理生成和移除的位置合理性仍保持稳定 [18] 行业应用 - 实现行程级仿真(trip-level),处理更长时间的动态变化,包括初始代理离开视野、新代理无缝进入和交通灯状态随路线动态更新,避免仿真漂移问题 [2][3] - 将不同仿真任务统一为修复任务,包括行为预测和场景生成,通过随机掩码增强模型的可控性,支持公里级路线的长时仿真 [10][11] - 提出CitySim概念,明确生成式仿真城市的需求与挑战,设计统一生成式框架整合代理动态生成、遮挡推理和交通灯仿真 [1][19]