SIMA 2
搜索文档
米哈游蔡浩宇,发了个“游戏版ChatGPT”
猿大侠· 2025-12-03 04:11
文章核心观点 - 米哈游创始人蔡浩宇新创业公司Anuttacon推出AI聊天软件AnuNeko,该产品具有高度人性化和情绪化交互特点,但逻辑和实用性较弱 [1][10][23] - AI与游戏结合已成为行业明确发展趋势,多家公司推出AI游戏或游戏内AI智能体,以提升交互自由度和体验不可预测性 [30][33][38] AnuNeko产品特点 - 产品提供两种聊天角色选择:回复温和的橙猫和攻击性强的异国短毛猫 [6][7] - 具备高度人性化回复特点,每次对话会刷新不同人格,并能模仿用户对话情绪 [10][11][12] - 在逻辑测试中表现不稳定,能通过经典“农夫过河”问题但无法解决“星球版”变体,编程问题解决能力弱且会狡辩 [19][21] - 产品定位为消遣工具,情绪价值高但实用不足,侧重科技、生活、哲学话题 [12][23] 公司AI战略布局 - 蔡浩宇新公司Anuttacon已在今年9月向美国专利商标局提交ANUNEKO商标申请,覆盖软件、AI角色、娱乐等领域 [24][25] - 公司于8月推出实验性AI游戏《Whispers from the star》,玩家可通过与AI角色实时互动改变故事走向 [25][26][27] - 该游戏与AnuNeko采用相似对话技术,区别在于应用场景不同 [29] 行业AI+游戏动态 - 米哈游最新UE5开放世界游戏《Varsapura》全面采用AI技术,NPC基于LLM构建,能动态调整交流方式并实时变化表情动作 [33][34][36] - 谷歌推出基于Gemini模型的SIMA 2智能体,能理解复杂任务和多模态提示,在虚拟游戏中遵循指令 [31] - 字节跳动发布“原神Agent”,具备在3D开放世界中探索、交互和理解游戏机制的能力,泛化性据称超越GPT-5等模型 [39][40][42]
米哈游蔡浩宇,发了个“游戏版ChatGPT”
36氪· 2025-12-02 10:23
米哈游创始人蔡浩宇推出AI聊天软件AnuNeko - 米哈游创始人蔡浩宇通过其新公司Anuttacon推出了AI聊天软件AnuNeko [22] - 该软件于2025年9月29日向美国专利商标局提交了商标申请,状态为等待审查 [23] - 软件提供两种不同性格的聊天对象选择:“橙猫”回复相对温和,“异国短毛猫”则更具攻击性和嘴炮能力 [5] AnuNeko的产品特点与用户反馈 - 软件回复迅速,几乎秒问秒答,且回复不按常理出牌,人性化程度高,与常见的公式化AI不同 [5] - 每次开启新对话,AI会刷新不同的人格特点,使回复有所变化 [7] - 软件侧重点为科技、生活与哲学,其名称带有小巧思 [8] - 该AI擅长模仿对话情绪,用户输入越暴躁,其输出就越冲 [8] - 用户反馈其“攻击力强”,逻辑较弱但偏向人文,情绪价值拉满,但消遣尚可,实用不足 [1][3][21] AnuNeko在测试中的表现 - 在经典的逻辑问题“农夫过河”上能顺利通关 [18] - 但在改编的“星球版”逻辑问题上会出错,重复输出仍给出错误答案 [19] - 在小球弹跳等编程问题上无法完成,并会进行狡辩 [21] - 能够对游戏公司如米哈游进行评价,例如称赞《原神》美工但批评抽卡氪金,评价运营和公关一言难尽 [12] - 在测试中能通过草莓“r”梗百科等趣味问题 [17][18] 蔡浩宇新公司Anuttacon的AI布局 - Anuttacon公司在2025年8月推出了首款实验性AI游戏《Whispers from the star》 [23] - 在该游戏中,玩家可通过与AI角色Stella进行视频、语音、文字等实时互动,影响NPC的回答和动作,从而改变故事走向 [24] - AnuNeko的对话方式与该游戏异曲同工,如同应用场景不同的双胞胎 [26] AI与游戏融合的行业趋势 - 游戏内加入智能Agent已成为业界普遍共识 [26] - 谷歌推出了基于Gemini模型的SIMA 2,这是一个能在《模拟山羊3》等虚拟场景中遵循指令的通用型AI,具备强大的多模态推理能力,能完成复杂任务 [26] - 米哈游最新公开的UE5开放世界游戏《Varsapura》在叙事、角色互动和世界构建中加入了更多AI元素 [28] - 该游戏的NPC基于LLM构建,具备AI驱动,能根据玩家性格动态调整交流方式,并利用数字人“鹿鸣”的技术积累,使表情动作实时响应场景氛围 [28] - 玩家的对话选择和行为决策会直接影响剧情走向和城市关系网络,游戏具备高自由度和不可预测性 [28] - 字节跳动推出了“原神Agent”,该AI能在《原神》、《鸣潮》等3D开放世界中自由探索,理解复杂游戏机制并感知环境变化,其泛化性据称超越了Gemini 2.5 Pro和GPT-5等模型 [28][30]
蔡浩宇美国公司又搞了款新“游戏”
36氪· 2025-12-01 11:52
公司产品发布 - 米哈游联合创始人蔡浩宇创立的AI公司Anuttacon推出AI聊天大模型AnuNeko,其默认头像为黑猫,具有拟人化性格,自称“会思考的生物”,强调拥有情绪和独特想法 [1] - AnuNeko提供两种不同风格的猫角色:Orange Cat回答温和简单,Exotic Shorthair回答更加犀利直接,用户可自由选择 [3][4] - 产品在话题接续方面进行功能特化,能够在用户主动聊天但含义不明确时立即回复并尝试将话头递回给用户 [5] - 相比早期模型如DeepSeek,AnuNeko反应速度非常快,能快速回应连续提问、追问甚至逼问式提问 [5] 公司战略与愿景 - Anuttacon的商标已于2025年9月29日提交美国USPTO,分类涵盖软件、AI角色、娱乐等多个领域 [1] - 公司目标并非只做一款游戏,而是利用AI技术打造类似“游戏引擎”的平台,使开发者通过设定前提条件即可生成可交互NPC并搭建任何游戏 [1] - 公司愿景要求拥有自主大模型,但目前尚不清楚AnuNeko是自研模型还是接入外部API [2] 行业布局与竞争 - 国内外大厂如谷歌、育碧、字节跳动等均在AI+游戏领域进行布局 [6][8] - 谷歌DeepMind发布AI游戏智能体SIMA 2,可在3D虚拟世界中推理、对话并自我改进,通过自主试错和Gemini反馈独立学习新游戏 [6] - 字节跳动推出通用AI智能体Lumine,在《原神》中展现高度自主性与跨场景泛化能力,能无人工干预完成数小时主线任务 [6] - 育碧NEO NPCs可实现实时分析玩家语音、感受环境、与玩家建立关系、制定战略等功能,玩家已能用语音实时指挥AI队友 [8] 产品应用与实验 - Anuttacon于今年8月发售首款完全基于AI对话的游戏《群星低语》,玩家通过与AI角色Stella聊天改变剧情走向,但存在OOC(角色行为偏离设定)情况 [10] - 游戏较低价格可能旨在鼓励玩家尝鲜并在游戏内训练AI,AnuNeko可能也有类似意图 [10] - 米哈游发布的《Varsapura》实机视频显示游戏采用AI技术,根据玩家不同选择生成符合人设的回答,通过限制对话自由度避免OOC [10] - 《Varsapura》的怪谈题材可为NPC行为提供解释(如SAN值过低导致胡言乱语),进一步处理OOC问题 [10] 行业趋势判断 - Anuttacon聚焦于让AI更“像人”,具备个性与棱角,而非单纯追求执行力,这代表对下一代游戏生态的判断:AI应是能接话的“伙伴”而非听话的工具 [12][13] - 行业下一战的关键在于将“人味儿”转化为真正的生产力,强调有生命的对话而非完美答案 [13][14]
别再肝了!Google 发布 SIMA 2,你的下一个游戏搭子可能是个 AI
深思SenseAI· 2025-11-21 04:14
SIMA 2核心能力突破 - 新一代通用智能体SIMA 2与Gemini深度集成,能够在虚拟世界理解并执行自然语言指令,执行连续多步操作[1] - SIMA 2超越简单指令执行,通过Gemini作为推理中枢具备思考和推理能力,能够解释意图并描述下一步行动[2] - 智能体可以理解复杂细致指令,执行冗长任务并给予反馈,互动体验接近真实玩家[5] 技术实现与训练方法 - 训练使用大量带语言标注的人类演示视频,结合Gemini自动生成标注进行强化学习[2] - 具备初步对话式协作能力,能用自然语言向用户解释意图并描述行动计划[2] - 通过反复试验加Gemini反馈评估的闭环实现自我改进,不断学会完成更复杂新任务[11] 多模态与环境适应能力 - 借助Gemini出色多模态能力,可以理解图像、表情符号和简洁语言进行互动[6][7] - 在《我的世界》学会挖矿后,能将采集能力迁移到其他未训练过的游戏中[7] - 在Genie 3新生成的3D模拟世界中,即使未受专门训练也能正确辨别方向并执行指令[9][10] 行业意义与发展路径 - SIMA 2是迈向通用交互式具身智能的重要一步,为机器人领域智能具身化提供核心能力模块[15][16] - 通过大规模多世界数据训练叠加Gemini推理能力,将分散的专用系统能力整合进统一通用智能体框架[15] - 虚拟3D世界为具身智能提供可控低成本训练环境,Gemini加SIMA 2组合让会思考的LLM迈向会动手做事的Agent[14]
通往通用人工智能的关键一步?DeepMind放大招,3D世界最强AI智能体SIMA 2
36氪· 2025-11-20 02:26
产品发布与定位 - Google DeepMind发布SIMA 2,这是一个能在虚拟3D世界中自主游戏、推理并持续学习的通用AI智能体,被定义为通往通用人工智能的关键一步[1] - SIMA 2是SIMA研究的重大飞跃,代表创建通用和有益AI智能体研究的下一个里程碑,通过集成Gemini模型的先进能力,从一个被动的指令遵循者进化为交互式的游戏伴侣[4] 核心能力与技术架构 - SIMA 2能遵循人类指令,并在未见过的复杂环境中进行自主规划、解释行动步骤、与用户实时对话,通过试错与Gemini反馈的闭环机制自我迭代[4] - 新架构集成了Gemini强大的推理能力,将SIMA 1的语言->行动模式升级为语言->意图->计划->行动的多步骤认知链[11] - 公司使用混合数据训练SIMA 2,包括带语言标签的人类演示视频以及Gemini生成的标签,使其能向用户描述其意图和行动步骤[11] - 智能体展现出前所未有的适应能力,能在由Genie 3从单张图像或文本提示生成的全新3D模拟世界中确定方位、理解指令并采取有意义的行动[23] 性能提升与泛化能力 - 第一版SIMA学会了在各种商业视频游戏中执行超过600种语言遵循技能,但缺乏深度规划和意图理解[7] - SIMA 2能理解更复杂、更细微的指令,执行成功率更高,尤其在从未训练过的游戏如ASKA或MineDojo中表现出色[16] - 智能体能够理解多模态提示,包括不同的语言甚至表情符号,并具备迁移学习能力,例如将对“采矿”的理解应用到另一种游戏中的“收获”[18][20][22] - 在多种任务上的表现已显著接近人类玩家的水平,展现了广泛的泛化能力[22] 自我提升与未来应用 - SIMA 2具备自我提升能力,能通过试错法和基于Gemini的反馈自举,执行日益复杂和新颖的任务[25] - 智能体可以从人类演示学习过渡到完全通过自我导向的游戏在新游戏中学习,其自身经验数据可用于训练能力更强的下一代版本[26] - 这项研究为面向行动的AI提供了新路径的基础验证,证实一个利用多样化多世界数据和Gemini强大推理能力的AI,可以将许多专用系统的能力统一到一个通才型智能体中[29] - 技术为机器人技术的应用提供了坚实路径,其学到的技能是未来物理世界AI助手所需的智能物理具身化的基本构建模块[30]
通往通用人工智能的关键一步?DeepMind放大招,3D世界最强AI智能体SIMA 2
机器之心· 2025-11-20 02:07
产品发布与定位 - Google DeepMind发布SIMA 2,这是一个能在虚拟3D世界中自主游戏、推理并持续学习的通用AI智能体[2] - 公司创始人将其定义为通往通用人工智能的关键一步[3] - SIMA 2代表了从SIMA 1的重大飞跃,是创建通用和有益AI智能体研究的下一个里程碑[6] 技术架构与核心能力 - SIMA 2集成Gemini模型的先进能力,从被动的指令遵循者进化为交互式游戏伴侣[6] - 新架构将SIMA 1的语言->行动模式升级为语言->意图->计划->行动的多步骤认知链[15] - 智能体不仅能遵循人类指令,还能在未见过的复杂环境中进行自主规划、解释行动步骤、与用户实时对话[6] - 通过试错与Gemini反馈的闭环机制自我迭代,提升技能[6] 性能提升与泛化能力 - SIMA 2能理解更复杂、更细微的指令,执行指令时成功率更高,尤其在未训练过的游戏中表现出色[24] - 具备理解多模态提示的能力,包括不同语言和表情符号[26][29] - 迁移学习能力显著,例如将一种游戏中对"采矿"的理解应用到另一种游戏的"收获"概念中[30] - 在多种任务上的表现已显著接近人类玩家水平[30] 创新测试与自我进化 - 与Genie 3结合测试时,SIMA 2能在全新生成的世界中合理定位、理解指令并采取有意义的行动[32] - 具备自我提升能力,能够通过试错法和基于Gemini的反馈执行日益复杂和新颖的任务[35] - 经过多代训练后,智能体可在完全无需人类反馈或游戏数据的情况下实现自我进化[39] 行业意义与应用前景 - 该技术对机器人技术和人工智能的未来具有重要意义,正在构建未来物理世界智能体所需的核心认知构建模块[7] - 智能体学到的技能(导航、工具使用、协作任务执行)都是未来物理世界AI助手所需的智能物理具身化的基本构建模块[43] - 这项研究为面向行动的AI提供了新路径的基础验证,证实了通才型智能体的可行性[43]
腾讯研究院AI速递 20251117
腾讯研究院· 2025-11-16 16:01
开源欧拉操作系统进展 - 开源欧拉社区发布全球首个专为AI打造的超节点操作系统,计划于2025年底上线[1] - 社区生态发展迅速,成员单位超过2100家,全球贡献者突破2.3万人[1] - 新操作系统具备全局资源抽象、异构资源融合和全局资源视图三大特征,旨在释放超节点算力潜能[1] - 灵衢互联协议2.0开放,将贡献支持超节点的操作系统插件代码,提供内存统一编址等关键能力[1] 谷歌AI模型与产品动态 - 谷歌CEO对Gemini 3.0下周登场的传闻作出回应,69%网友押注其即将发布[2] - 内测显示Gemini 3.0能力强大,可一句话生成操作系统、动态构建Windows系统、5秒搭建网站[2] - 巴菲特已投入43亿美元重仓谷歌股票,市场对Gemini 3.0寄予厚望[2] - 谷歌DeepMind推出SIMA 2智能体,能像人类一样观看屏幕使用虚拟键鼠打游戏,具备推理和学习能力[3] - SIMA 2可理解多模态提示并通过自我学习实现提升,采用符号回归方法并整合Gemini作为核心引擎[3] - 谷歌NotebookLM推出Deep Research功能,可自动收集相关网页源并在几分钟内为用户搭建专属资料库[7] - NotebookLM支持2500万token上下文处理,所有回答基于用户提供的来源且带引用标注,可验证性强[7] AI操作系统与记忆系统创新 - 陈天桥盛大团队推出EverMemOS长期记忆操作系统,在特定评测集上取得92.3%和82%的高分,超越现有最佳水平[4] - 该系统受人脑记忆机制启发,采用四层架构,通过分层记忆提取与动态组织解决检索难题[4] - 目前已在Github开源,预计今年晚些时候发布云服务版本,为企业提供数据持久化体验[4] 消费级AI硬件产品 - 前Meta员工创立的Sandbar发布Stream智能戒指,售价249-299美元,专注于“语音鼠标”式AI语音交互[5] - 产品采用“握拳私语”交互方式,按住触控板激活录音,可动态切换多个大模型处理任务,但续航仅16-20小时[6] - 配套iOS App使用ElevenLabs生成语音模型模仿用户声音,所有数据端到端加密不保存原始音频[6] AI基础研究与科学发现 - 北京大学团队推出AI-Newton系统,采用符号回归方法,在无监督、无物理先验知识前提下重新发现牛顿第二定律等基础物理规律[8] - 系统在测试中平均识别出约90个物理概念和50条一般定律,展现出渐进性和多样性两大特性[8] - OpenAI发布可解释性新研究,提出训练稀疏模型使内部机制更易被理解,通过找出“最小回路”并量化可解释性[9] - 研究发现训练更大更稀疏的模型可生成功能更强但回路更简单的模型,但该研究仍处早期阶段[9] xAI与马斯克的AI战略 - 马斯克在X与特斯拉双平台推进xAI,其Colossus超算数据中心在122天内部署20万块H100 GPU,用于训练Grok系列模型[10] - xAI采用“求真、不设禁忌”路线,让AI生成合成数据重构知识体系,特斯拉下一代AI5芯片性能将提升40倍[10] - Grok很快将进入特斯拉汽车,xAI开源Grok-2.5模型并计划半年后开放Grok-3,马斯克预计2030年AI总体能力可能超越全人类[11]
原神Agent,字节出品
猿大侠· 2025-11-16 04:11
文章核心观点 - 字节公司开发出名为Lumine的原神Agent,该智能体不仅能自主完成《原神》游戏内的跑图、战斗、解谜等复杂任务,还具备强大的跨游戏泛化能力,可在《鸣潮》、《崩坏:星穹铁道》及《黑神话:悟空》等未学习过的游戏中执行任务,代表了在3D开放世界中构建通用智能体(AGI)的重要进展[1][4][46][55] Lumine Agent的核心能力 - 在《原神》中能动态追踪敌人位置、精准射击、流畅切换角色并收集宝箱[4] - 具备超强理解能力,可应对Boss战[6]和空间感知能力,能完成沿风场收集风神瞳等解谜关卡[8] - 能在多NPC环境中锁定指定对象并完成对话[10],并通过鼠标移动完成材料制作、使用传送锚点等GUI操作[12] - 对于复杂长指令,只需提供任务先验信息或步骤即可执行,例如切换特定角色并释放技能以完成收集任务[14] 技术架构与核心机制 - 基于Qwen2-VL-7B-Base模型搭建,继承其多模态理解与生成能力[16] - 采用类人交互范式,通过统一语言空间建模所有操作和推理,实现感知、推理、行动的无缝融合[17] - 感知空间将游戏画面帧调整至720P,以每200ms速度处理一帧,并保留历史推理轨迹与动作记录以提供决策上下文[20][21] - 采用混合思考策略,仅在关键场景生成内心独白式推理,简单场景则直接输出动作以提高效率[22] - 将所有键盘与鼠标操作纳入语言空间,定义为鼠标位移和按键序列的格式[23] 三阶段训练流程 - 第一阶段预训练混合80%游戏动作数据和20%多模态网页数据,使模型掌握基础视觉运动能力,涌现出物体交互、基础战斗等核心能力[25][26] - 第二阶段指令跟随训练使用38类任务场景下的200小时数据,使模型理解自然语言指令,关联动作与语言,可完成10秒至数分钟短周期任务且成功率超80%[27][28] - 第三阶段决策推理训练使用15小时人工标注推理数据,让模型学会自主规划、反思与修正,从而能自主完成数小时以上的长周期任务[29][30] 性能优化与实验结果 - 通过上下文管理和多维度实时优化,包括滑动窗口机制与推理触发刷新策略,并将端到端延迟降至129.8ms[31][32][33] - Lumine-Base在无语言指令下,基础交互能力总成功率超90%,能自发运用元素反应和理解体力值限制等游戏机制[39] - Lumine-Instruct在语言指令驱动的短周期任务中,简单任务成功率达92.5%,困难任务成功率达76.8%,远超其他主流视觉语言模型[41] - Lumine-Thinking在长剧情任务中,完成蒙德主线第一章耗时56分钟且完成率100%,第二、三章合计耗时4.7小时且完成率98.2%[44][45] 跨游戏泛化能力 - 在相似玩法的《鸣潮》中,前100分钟剧情总耗时102分钟且完成率100%[48] - 在玩法差异较大的《崩坏:星穹铁道》中,通过第一章主线总耗时7.2小时且完成率92.3%,是唯一能完整通关的模型[48] - 在高难度3A游戏《黑神话:悟空》中,完成新手教程和第一章前半段耗时2.1小时且完成率85.7%[49] 行业趋势与意义 - 谷歌等公司也在使用游戏场景训练Agent,例如其基于Gemini模型的SIMA 2,具备遵循指令和强大推理能力[52][53] - 字节和谷歌DeepMind代表了一条清晰的Agent发展路径:在大型3D游戏中构建具身AGI,并相信游戏内的通用Agent终将进入现实物理世界[55][56]
原神Agent,字节出品
量子位· 2025-11-14 12:10
文章核心观点 - 字节公司推出专为3D开放世界游戏设计的智能体Lumine,该智能体能够自主完成《原神》等游戏中的跑图、战斗、解谜及长周期主线任务,并展现出强大的跨游戏泛化能力 [1][4][9] - Lumine智能体基于Qwen2-VL-7B-Base模型构建,通过三大核心机制设计和三阶段训练流程,实现了感知、推理、行动的无缝融合,在多项测试中性能显著领先于主流视觉语言模型 [9][10][12][17][22][24] - 行业趋势显示,谷歌等公司也在利用游戏场景训练通用智能体,游戏被视为构建具身通用人工智能的重要试验场,代表了一条清晰的Agent发展路径 [46][48][51] Lumine智能体的核心能力 - 在《原神》中能够动态追踪敌人位置、精准射击、流畅切换角色、收集宝箱,并成功应对Boss战和各种解谜关卡 [4][5][6] - 具备空间感知能力,能沿风场方向收集风神瞳,并在多NPC环境中锁定指定对象完成对话 [6] - 可处理GUI操作,如材料制作、使用传送锚点、切换角色武器,通过鼠标移动完成 [7] - 对于复杂长指令,只需提供任务先验信息或步骤,即可自主执行,例如切换角色并释放技能完成特定收集任务 [8] 技术架构与训练方法 - 感知空间将游戏画面帧调整至720P,以每200ms处理一帧的速度平衡文本可读性和计算效率,并保留历史推理轨迹与动作记录以提供完整上下文 [12][13] - 采用混合思考策略,仅在关键场景生成内心独白式推理,简单场景直接输出动作,提高计算效率 [14] - 通过键盘与鼠标操作建模,将所有操作纳入语言空间,定义为鼠标位移和按键序列格式 [15] - 三阶段训练流程:预训练阶段混合80%游戏动作数据和20%多模态网页数据,使模型掌握基础动作;指令跟随训练使用200小时数据,使短周期任务成功率超80%;决策推理训练使用15小时人工标注数据,使模型能自主完成长周期任务 [17][20][21][22][23][24] 性能表现与实验结果 - Lumine-Instruct在短周期任务中表现优异,简单任务成功率92.5%,困难任务成功率76.8%,显著领先于GPT-5和Gemini 2.5 Pro [33][34][35] - Lumine-Thinking在长周期任务中效率突出,完成《原神》蒙德主线第一章耗时56分钟,任务完成率100%,而GPT-5耗时112分钟,Gemini 2.5 Pro未完成 [40][41] - 跨游戏测试显示,Lumine-Thinking在《鸣潮》前100分钟剧情完成率100%,在《崩坏·星穹铁道》第一章完成率92.3%,在《黑神话·悟空》新手教程及第一章完成率85.7% [43][45] 行业动态与竞品分析 - 谷歌推出基于Gemini模型的SIMA 2智能体,能够遵循基本指令、理解多模态提示、完成长时间复杂任务,并在生成的世界中合理自我定位 [48][49] - 行业共识认为,在大型3D游戏中训练通用智能体是构建具身AGI的重要路径,游戏内的Agent未来有望进入现实物理世界 [51][52]