开源版Genie 3世界模型来了：实时+长时间交互，单卡可跑，国内公司出品

核心观点 - 昆仑万维发布开源交互世界模型Matrix-Game 2 0，参数量仅1 8B，能在单块GPU上实现25FPS的分钟级实时互动生成，效果媲美Google DeepMind的Genie 3 [1][12][11] - 该模型突破传统世界模型在实时交互、长序列生成和计算效率上的瓶颈，支持键盘WASD控制自由移动，生成画面具有物理一致性和高保真细节（如GTA地图、神庙逃亡无限延伸场景）[4][8][9][19] - 技术架构采用视觉驱动交互方案，通过3D Causal VAE+DiT模型实现少步骤自回归扩散生成，训练数据来自虚幻引擎和GTA5采集的120万视频片段（准确率99%）[35][36][37][39] - 定量对比显示其图像质量（0 61）、时间一致性（0 94）、键盘控制准确率（0 91）等指标显著优于Oasis模型，解决"转圈画风突变"问题[48][49] - 公司2023年持续发力开源生态，已发布SkyReels视频生成、Skywork-R1V多模态推理等10余个模型，技术覆盖图像/音频/视频/智能体全领域[51][53] 技术突破 - 架构创新：移除文本分支专注视觉理解，动作模块支持帧级键鼠输入，通过MLP+交叉注意力实现精准交互控制[39][40] - 训练机制：采用Self-Forcing将双向模型转为自回归变体，减少误差累积，生成视频时长可达分钟级[42][45] - 数据管线：构建虚幻引擎+GTA5双数据源，开发Script Hook V工具同步记录动作与画面，积累1200小时交互视频[36][37][38] 应用场景 - 游戏开发：实测可复刻《荒野大镖客》自然景观、《CS:GO》地图细节补充、《我的世界》像素场景动态生成[20][21][24] - 现实模拟：成功生成自行车骑行第一视角，柏油马路与行道树动态符合物理规律[26] - AI训练场：为具身智能提供虚拟环境训练，解决机器人/自动驾驶数据采集难题[57][58] 行业影响 - 成为首个开源通用实时世界模型方案，推动技术民主化发展[10][11] - 模型效果接近商业级3A游戏引擎，帧率与谷歌Genie 3相当（25FPS vs 30FPS）[12][4] - 开源策略加速行业创新，HuggingFace模型获超1k星标热度[52]