《我的世界》(Minecraft)

搜索文档
梦里啥都有?谷歌新世界模型纯靠「想象」训练,学会了在《我的世界》里挖钻石
机器之心· 2025-10-02 01:30
为了在具身环境中解决复杂任务,智能体需要深入理解世界并选择成功的行动。世界模型通过学习从智能体(如机器人或电子游戏玩家)的视角预测潜在行动的 未来结果,为实现这一目标提供了一种有前景的方法。 通过这种方式,世界模型使智能体能够深入理解世界,并具备通过在想象中进行规划或强化学习来选择行动的能力。此外,原则上世界模型可以从固定数据集中 学习,这使得智能体能够纯粹在想象中进行训练,而无需在线交互。对于许多实际应用而言,离线优化行为很有价值,例如物理世界中的机器人,在这种情况 下,与未充分训练的智能体进行在线交互往往不安全。 世界模型智能体 —— 如 Dreamer 3—— 是迄今为止在游戏和机器人领域表现最佳且最为稳健的强化学习算法之一。虽然这些模型在其特定的狭窄环境中速度快且 准确,但其架构缺乏拟合复杂现实世界分布的能力。可控视频模型,如 Genie 3,已在多样的真实视频和游戏上进行训练,并实现了多样的场景生成和简单交互。 这些模型基于可扩展架构,如 diffusion transformer。然而,它们在学习物体交互和游戏机制的精确物理规律方面仍存在困难,这限制了它们在训练成功智能体方面 的实用性。此外,它们 ...
港科广×腾讯联手打造《我的世界》神操作,400张截图就能让AI挖矿通关,成本降至5%|EMNLP 2025
量子位· 2025-09-04 04:41
研究框架与创新突破 - 提出VistaWise框架 首次将跨模态知识图谱与轻量化视觉微调系统性引入开放世界智能体 [3] - 以低成本与跨模态为突破口 设计图-检-控三位一体的极简框架 核心创新概括为一图谱、两增强、三协同 [9] - 训练数据量仅需471帧 较传统方法缩减5个数量级 GPU显存需求下降87.5%至24GB [18] 技术架构与性能表现 - 仅用471张游戏画面微调视觉模型 单张24GB消费级显卡即可完成训练 完整框架可部署于笔记本电脑 [7][17] - 在"获取钻石"任务链上达成33%成功率 刷新非API类方法纪录 较前SOTA提升8个百分点 [4] - 9个连续子任务全部达到73%以上成功率 通过检索式图池化机制减少30%推理tokens [4][13] 核心组件与运行机制 - 构建轻量化跨模态知识图谱 融合文本攻略与实时视觉感知 单张1080p画面可在20ms内完成动态更新 [11] - 采用Path-Searching+Entity-Matching双阶段池化 先锁定全局路径再局部裁剪冗余信息 [13] - 基于PyAutoGUI封装原子动作函数 支持键鼠混合输入 实现零仿真真机操作 [14] - 决策闭环包含感知-检索-推理-执行四步骤 依赖GPT-4o生成自然语言指令驱动操作 [15][20] 行业应用与成本优势 - 突破传统需千万级标注样本与数百张高端显卡的训练模式 成本从百万级大幅降低 [6] - 较多模态大模型视觉感知方案降低30.7%的tokens使用 性能无显著下降 [18] - 研究成果获自然语言处理顶级会议EMNLP 2025主会录用 具学术与商业应用潜力 [5]
《我的世界》成为AI新「考场」?高三生用游戏评测AI:DeepSeek-R1位列第三
36氪· 2025-03-25 12:45
核心观点 - 一名高中生开发了基于《我的世界》游戏的AI评测基准MC-Bench 通过视觉化建造任务评估大模型综合能力 并采用众包投票机制形成排名 目前Claude 3.7 Sonnet以85.2%胜率位列第一 DeepSeek-R1以67.6%胜率排名第三 [1][2][14][15] 评测方法 - 核心机制为AI模型根据文本提示(例如"晶莹剔透的酒杯装满了深红色的葡萄酒")在游戏中生成建筑 用户对匿名作品进行A/B投票或平局选择 投票结束后揭晓模型归属 [2][5] - 本质上属于编程基准测试 模型需通过代码生成实现建造任务 但通过游戏视觉化降低参与门槛 [9] 选择游戏的原因 - 《我的世界》作为全球销量最高的电子游戏之一 具有广泛认知度 上亿玩家基础可形成众包数据 [8] - 游戏环境能模拟真实世界复杂度 考验AI问题解决 策略思维和适应能力 同时提供安全可控的测试空间 [7] - 视觉化输出使普通用户无需编程知识即可参与评判 相比文本或代码更直观 [8][9] 技术优势 - 评估维度涵盖逻辑推理 规划能力和空间认知等传统测试难以覆盖的领域 [8] - 可重复测试环境确保不同模型在相同条件下对比 [7] - 避免"基准测试陷阱"——模型在标准化考试(如LSAT超越88%人类)与实际应用(如数字母错误)表现脱节的问题 [2] 项目现状 - 由8名志愿者团队维护开发 获Anthropic Google OpenAI和阿里巴巴等公司提供模型访问权限和计算资源支持 但无官方合作关系 [10][13] - 当前聚焦基础建造能力评估 未来计划拓展至长期规划和目标导向型复杂任务 [15] 行业意义 - 游戏化评测可能成为AI评估新趋势 使研究过程更有趣且公众更易理解技术进展 [8] - 排行榜结果与用户实际体验高度一致 可为AI公司提供发展方向参考 [16]