腾讯混元世界模型1.5产品发布 - 腾讯混元团队上线了国内首个开放体验的实时世界模型TencentHY WorldPlay 1.5 [1] - 该模型能够根据用户输入的文字或单张图片,生成一个可供实时操控和探索的3D虚拟世界 [1] 核心功能与技术亮点 - 支持文字生成世界,用户通过文字描述可生成如过山车、千禧年跨年夜等多样化的3D场景 [2][4][11] - 支持单图生成场景功能,可将如《千里江山图》等图片转化为可游览的3D空间,并保留原艺术风格 [14][16] - 具备实时交互生成能力,通过原创的Context Forcing蒸馏方案及流式推理优化,模型能以24 FPS的速度生成720P高清视频 [7] - 通过重构记忆机制实现长范围的3D一致性,支持分钟级内容的几何一致性生成,用于构建高质量3D空间模拟器 [7] - 采用流式DiT架构,能够边接收用户实时控制信号边生成画面,保证了极低的操控延迟 [21] - 模型支持实时文本触发事件,用户可通过一句话指令在5秒内平滑改变世界状态,如让天色从亮变暗 [17][19] 产品体验与效果 - 文字生成场景的等待时间约为5-8秒 [4] - 生成的场景具有高写实度,例如过山车场景中皮肤纹理、金属划痕等细节清晰可见 [4] - 在千禧年场景等测试中,模型对三维空间有较好理解,物体能保持相对位置关系,无明显漂移 [11] - 在处理大跨度视角切换时,如海景房场景,窗框、立柱等直线条未发生扭曲,展现了良好的三维空间一致性 [13] - 目前模型在处理第一视角高速运动场景时存在挑战,可能生成静态的“定格瞬间”以供细节观察 [9] - 在复杂场景中,近处物体的细节可能缺乏锐利边缘,呈现“AI粘滞感”或类似油画的柔软效果 [11] - 实时物理模拟尚存瑕疵,例如爆炸后近处水面未能呈现波动效果 [21] 行业意义与未来展望 - 世界模型代表了从语言智能向空间智能的关键发展,旨在让AI理解并操作三维物理世界,是通往通用人工智能的关键一步 [23] - 该领域获得全球科技公司如Google、Meta、OpenAI及腾讯的重点关注与投入 [23] - 该技术使艺术从“被欣赏”变为可“自由游览”,为内容创造与交互提供了全新范式 [16] - 尽管当前在流畅度和交互深度上仍有提升空间,但世界模型赋予了用户创造世界的自由,具有广阔的未来想象空间 [25]
李飞飞3D世界模型爆火后,国内首个免费版来了:我当了回「为所欲为」的造物主