Workflow
交互式世界模型
icon
搜索文档
开源版Genie 3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品
机器之心· 2025-08-19 02:43
核心观点 - 昆仑万维发布开源交互世界模型Matrix-Game 2 0,参数量仅1 8B,能在单块GPU上实现25FPS的分钟级实时互动生成,效果媲美Google DeepMind的Genie 3 [1][12][11] - 该模型突破传统世界模型在实时交互、长序列生成和计算效率上的瓶颈,支持键盘WASD控制自由移动,生成画面具有物理一致性和高保真细节(如GTA地图、神庙逃亡无限延伸场景)[4][8][9][19] - 技术架构采用视觉驱动交互方案,通过3D Causal VAE+DiT模型实现少步骤自回归扩散生成,训练数据来自虚幻引擎和GTA5采集的120万视频片段(准确率99%)[35][36][37][39] - 定量对比显示其图像质量(0 61)、时间一致性(0 94)、键盘控制准确率(0 91)等指标显著优于Oasis模型,解决"转圈画风突变"问题[48][49] - 公司2023年持续发力开源生态,已发布SkyReels视频生成、Skywork-R1V多模态推理等10余个模型,技术覆盖图像/音频/视频/智能体全领域[51][53] 技术突破 - **架构创新**:移除文本分支专注视觉理解,动作模块支持帧级键鼠输入,通过MLP+交叉注意力实现精准交互控制[39][40] - **训练机制**:采用Self-Forcing将双向模型转为自回归变体,减少误差累积,生成视频时长可达分钟级[42][45] - **数据管线**:构建虚幻引擎+GTA5双数据源,开发Script Hook V工具同步记录动作与画面,积累1200小时交互视频[36][37][38] 应用场景 - **游戏开发**:实测可复刻《荒野大镖客》自然景观、《CS:GO》地图细节补充、《我的世界》像素场景动态生成[20][21][24] - **现实模拟**:成功生成自行车骑行第一视角,柏油马路与行道树动态符合物理规律[26] - **AI训练场**:为具身智能提供虚拟环境训练,解决机器人/自动驾驶数据采集难题[57][58] 行业影响 - 成为首个开源通用实时世界模型方案,推动技术民主化发展[10][11] - 模型效果接近商业级3A游戏引擎,帧率与谷歌Genie 3相当(25FPS vs 30FPS)[12][4] - 开源策略加速行业创新,HuggingFace模型获超1k星标热度[52]
昆仑万维发布Matrix-Game 2.0,启动为期五天AI技术发布周
新浪财经· 2025-08-12 08:04
公司技术发布活动 - 昆仑万维于8月11日至8月15日启动SkyWork AI技术发布周 每天发布一款新模型 连续五天 [1] - 发布活动覆盖多模态AI核心场景的前沿模型 [1] 世界模型产品升级 - 公司于8月12日发布自研Matrix系列中Matrix-Game交互世界模型的升级版本Matrix-Game 2.0 [1] - Matrix-Game 2.0实现通用场景下的交互式实时长序列生成功能 [1] 技术开源与行业地位 - Matrix-Game 2.0全面开源 成为业内首个在通用场景上实现实时长序列交互式生成的世界模型开源方案 [1] - 开源举措旨在促进交互式世界模型领域的发展 [1]