李飞飞3D世界模型爆火后，国内首个免费版来了：我当了回「为所欲为」的造物主

腾讯混元世界模型1.5产品发布 - 腾讯混元团队上线了国内首个开放体验的实时世界模型TencentHY WorldPlay 1.5 [1] - 该模型能够根据用户输入的文字或单张图片，生成一个可供实时操控和探索的3D虚拟世界 [1] 核心功能与技术亮点 - 支持文字生成世界，用户通过文字描述可生成如过山车、千禧年跨年夜等多样化的3D场景 [2][4][11] - 支持单图生成场景功能，可将如《千里江山图》等图片转化为可游览的3D空间，并保留原艺术风格 [14][16] - 具备实时交互生成能力，通过原创的Context Forcing蒸馏方案及流式推理优化，模型能以24 FPS的速度生成720P高清视频 [7] - 通过重构记忆机制实现长范围的3D一致性，支持分钟级内容的几何一致性生成，用于构建高质量3D空间模拟器 [7] - 采用流式DiT架构，能够边接收用户实时控制信号边生成画面，保证了极低的操控延迟 [21] - 模型支持实时文本触发事件，用户可通过一句话指令在5秒内平滑改变世界状态，如让天色从亮变暗 [17][19] 产品体验与效果 - 文字生成场景的等待时间约为5-8秒 [4] - 生成的场景具有高写实度，例如过山车场景中皮肤纹理、金属划痕等细节清晰可见 [4] - 在千禧年场景等测试中，模型对三维空间有较好理解，物体能保持相对位置关系，无明显漂移 [11] - 在处理大跨度视角切换时，如海景房场景，窗框、立柱等直线条未发生扭曲，展现了良好的三维空间一致性 [13] - 目前模型在处理第一视角高速运动场景时存在挑战，可能生成静态的“定格瞬间”以供细节观察 [9] - 在复杂场景中，近处物体的细节可能缺乏锐利边缘，呈现“AI粘滞感”或类似油画的柔软效果 [11] - 实时物理模拟尚存瑕疵，例如爆炸后近处水面未能呈现波动效果 [21] 行业意义与未来展望 - 世界模型代表了从语言智能向空间智能的关键发展，旨在让AI理解并操作三维物理世界，是通往通用人工智能的关键一步 [23] - 该领域获得全球科技公司如Google、Meta、OpenAI及腾讯的重点关注与投入 [23] - 该技术使艺术从“被欣赏”变为可“自由游览”，为内容创造与交互提供了全新范式 [16] - 尽管当前在流畅度和交互深度上仍有提升空间，但世界模型赋予了用户创造世界的自由，具有广阔的未来想象空间 [25]