PlaNet - 财报，业绩电话会，研报，新闻

PlaNet

搜索文档

36氪· 2025-11-05 02:20

核心人事变动 - 资深研究科学家Danijar Hafner宣布离开其工作近十年的谷歌，离职前担任Google DeepMind旧金山分部的资深研究科学家 [1][3] - 此次离职标志其职业生涯一个重要篇章的结束 [4] 职业经历与研究贡献 - 自2016年起，该研究员便以实习生身份开始参与谷歌Brain团队的工作，并与James Davidson、Vincent Vanhoucke等共事 [6][7] - 其研究目标是构建能够理解世界并与世界互动的通用智能体，并主导/联合主导了Dreamer系列（Dreamer、DreamerV3、Dreamer4等）的开发 [1][7] - 在谷歌/DeepMind近十年间，其工作地点与研究内容随学业变动，先后在伦敦DeepMind、多伦多Brain Team以及Google DeepMind旧金山分部工作 [6][7][17] 关键技术背景与合作网络 - 其研究深度涉足深度强化学习和生成式模型，早期曾参与PlaNet算法的开发，并与Timothy Lillicrap、Ian Fischer等合作 [14] - 在多伦多大学攻读博士期间，主要导师为Jimmy Ba，并获得了杰弗里·辛顿的指导 [17] - 在谷歌Brain多伦多分部，与资深研究科学家Mohammad Norouzi长期合作开发多个版本的Dreamer [7][19] - 近期在伯克利和旧金山与Wilson Yan合作深入研究世界模型，并得到Count Zero和Koray Kavukcuoglu的算力与资源支持 [21] 行业技术发展关联 - 该研究员曾提及早期接触Transformer架构的轶事，Ashish Vaswani曾向其介绍该架构在计算效率上的优势，但当时未予尝试 [11][13] - 其经历与深度学习领域多位关键人物（如Łukasz Kaiser、Ashish Vaswani等）及重要技术节点（如Transformer的提出）有所关联 [8][10][11][13]

从“内部世界”到虚拟造物：世界模型的前世今生

经济观察报· 2025-08-21 12:29

核心观点 - Genie 3模型通过实时生成可交互的3D虚拟环境展现了世界模型在实现通用人工智能路径上的潜力其核心能力包括动态响应指令保持记忆连贯性以及模拟物理规律 [4][5] - 世界模型模仿人脑构建内部世界的机制通过表征学习动态建模控制规划及结果输出等环节使AI具备预测和模拟未来场景的能力从而在多个领域产生变革性应用 [8][9][15][16][17][18] - 尽管世界模型被视为通向AGI的可能路径但学术界对其必要性存在分歧主要围绕显式建模与隐式建模的效能对比以及AGI定义差异展开争论 [28][29][30][31] 世界模型简史 - 世界模型的灵感源于对人脑内部世界构建机制的模仿早期理论可追溯至18世纪康德的先验框架理论和20世纪皮亚杰的心理模型理论 [8][9] - 人工智能领域自创立初期便开始探索环境内部表示 20世纪80年代统计学习方法引入概率模型但受限于高维数据计算瓶颈 1989年Dyna架构首次结合强化学习与内部世界模拟 [10][11] - 世界模型概念由施密德胡伯于1990年正式提出但受限于当时技术条件未受关注直至2018年其论文因深度学习革命和性能提升引发广泛关注 [11][12] - 谷歌DeepMind自2019年起持续推动世界模型发展 PlaNet模型仅用5帧预测50步后续发展 Dreamer模型引入RSSM技术提升预测性能 Genie系列在此基础上专注于交互式视频生成 [13] 世界模型的技术实现 - 表征学习环节通过VAE或自监督视觉模型将多模态输入数据压缩为机器可处理的内部语言为模拟提供基础 [15] - 动态建模环节需准确刻画物理规律通过嵌入物理约束或多样化数据训练避免错误关联例如抛掷物体需涵盖羽毛与铅球不同场景 [16] - 控制与规划环节基于模型强化学习在潜变量空间进行多步规划早期使用蒙特卡洛树搜索 PlaNet等模型实现策略与内部世界双向优化 [17] - 结果输出环节通过潜在空间渲染技术将内部表征解码为像素效率远高于直接像素生成支持多模态输出如音频与触觉 [18] 世界模型的应用领域 - 为具身智能提供安全训练场 AI可通过虚拟试错积累经验显著降低现实操作成本与风险例如机器人避障训练 [20][21] - 提升数字孪生应用效能从被动模型升级为主动预测系统可预警设备故障优化流程并实现感知预测决策一体化 [21] - 推动教育与科研变革虚拟实验室支持精确预测物理化学反应交互式课堂增强学生探索体验优化知识产业链 [22] - 重塑游戏娱乐行业实时生成可玩世界与高智能NPC 提升沉浸感未来或成为虚拟社会的基础设施 [22] 世界模型的争议与挑战 - 技术路径分歧：杨立坤等学者认为世界模型是AGI必经之路因大语言模型缺乏物理一致性推理能力而哈萨比斯等指出无模型方法如AlphaGo已在复杂任务中超越人类 [28][29] - 隐式建模可能性：部分学者主张通过海量数据训练隐含世界知识例如GPT模型可推演事件逻辑显式物理建模非唯一途径 [30] - AGI定义差异：若目标为机器模拟人类思维则需世界模型若仅追求任务表现则可不依赖需根据任务性质选择技术路径 [31] 伦理与社会风险 - 可能模糊真实与虚拟边界生成内容交互性强于当前AI 易被用于诈骗或政治操纵颠覆有图有真相时代 [24] - 成为行为操控工具通过环境设计潜移默化影响用户选择挑战商业诱导与意识形态渗透的防御机制 [24] - 加剧虚拟沉迷与现实疏离智能乌托邦提供完美体验可能削弱现实生存技能 [25] - 复制并放大现实偏见训练数据中的歧视性内容被强化并通过互动传播 [25] - 责任归属不明确虚拟伤害或不良策略重现时开发者平台与用户责任划分存治理缺口 [26]

Artificial Intelligence

Artificial Intelligence

Genie 3

从“内部世界”到虚拟造物：世界模型的前世今生

经济观察报· 2025-08-21 08:25

谷歌DeepMind Genie 3模型 - 谷歌DeepMind发布Genie 3模型能够根据文本或图像提示实时生成可交互的3D虚拟环境例如输入"月球上的火山边"可生成相应场景并允许用户探索 [2] - Genie 3在实时交互能力上显著提升支持记忆连贯性如用户涂鸦后离开再返回涂鸦仍保留并引入"可提示的世界事件"功能允许通过新指令动态改变环境 [2] - 该模型被视为通向通用人工智能(AGI)的"世界模型"路径刷新AI生成内容边界引发行业对"世界模型"技术路线的广泛讨论 [2][21] 世界模型技术发展史 - 世界模型灵感源自人脑构建"内部世界"的能力早期AI研究如维纳的反馈控制理论和符号主义知识图谱已尝试模仿该机制 [6] - 1989年理查德·萨顿提出Dyna架构结合强化学习与内部世界模拟 1990年施密德胡伯首次用RNN实现"世界模型"概念但受限于当时技术条件未受重视 [6][7] - 2018年施密德胡伯团队发表《世界模型》论文借助深度学习革命浪潮该概念重新引发关注谷歌DeepMind随后推出PlaNet(2019)和Dreamer(2020)等迭代产品 [7][8][9] 世界模型技术实现路径 - 核心技术包括表征学习(如VAE压缩多模态数据)、动态建模(嵌入物理规律避免模拟偏差)、控制规划(蒙特卡洛树搜索或强化学习)及结果输出(潜在空间渲染) [11][12][13][14] - 动态建模需解决因果关系学习难题通过嵌入物理定律或多样化数据训练确保模拟准确性例如抛掷物体需涵盖羽毛与铅球不同场景 [12] - 输出环节采用潜在空间生成再解码为像素效率高于直接像素生成多模态输出需结合声音、触觉等渲染技术 [14] 世界模型行业应用前景 - 具身智能领域：为机器人提供安全虚拟训练场通过"做梦"式模拟降低试错成本避免现实环境中的事故风险 [15][16] - 数字孪生领域：从被动模型升级为主动预测系统实现设备故障预警、流程优化等"感知-预测-决策"闭环 [16] - 游戏娱乐领域：实时生成动态虚拟世界提升NPC交互智能未来或成为"虚拟社会"基础设施支持大规模数字生活 [17] 行业技术路线争议 - Meta杨立坤认为世界模型是AGI必经之路因其模拟人类"离线思考"能力而大语言模型缺乏物理一致性推理 [21] - DeepMind哈萨比斯等学者持反对意见指出AlphaGoZero等无模型方法已超越人类显式物理建模可能受误差累积限制 [22] - 中间路线派主张隐式建模如大语言模型通过参数隐含世界知识虽可解释性差但能完成逻辑推演技术路径应依任务需求选择 [23][24]