Workflow
PlaNet
icon
搜索文档
谷歌Dreamer大神离职,自曝错过Transformer
36氪· 2025-11-05 02:20
核心人事变动 - 资深研究科学家Danijar Hafner宣布离开其工作近十年的谷歌,离职前担任Google DeepMind旧金山分部的资深研究科学家 [1][3] - 此次离职标志其职业生涯一个重要篇章的结束 [4] 职业经历与研究贡献 - 自2016年起,该研究员便以实习生身份开始参与谷歌Brain团队的工作,并与James Davidson、Vincent Vanhoucke等共事 [6][7] - 其研究目标是构建能够理解世界并与世界互动的通用智能体,并主导/联合主导了Dreamer系列(Dreamer、DreamerV3、Dreamer4等)的开发 [1][7] - 在谷歌/DeepMind近十年间,其工作地点与研究内容随学业变动,先后在伦敦DeepMind、多伦多Brain Team以及Google DeepMind旧金山分部工作 [6][7][17] 关键技术背景与合作网络 - 其研究深度涉足深度强化学习和生成式模型,早期曾参与PlaNet算法的开发,并与Timothy Lillicrap、Ian Fischer等合作 [14] - 在多伦多大学攻读博士期间,主要导师为Jimmy Ba,并获得了杰弗里·辛顿的指导 [17] - 在谷歌Brain多伦多分部,与资深研究科学家Mohammad Norouzi长期合作开发多个版本的Dreamer [7][19] - 近期在伯克利和旧金山与Wilson Yan合作深入研究世界模型,并得到Count Zero和Koray Kavukcuoglu的算力与资源支持 [21] 行业技术发展关联 - 该研究员曾提及早期接触Transformer架构的轶事,Ashish Vaswani曾向其介绍该架构在计算效率上的优势,但当时未予尝试 [11][13] - 其经历与深度学习领域多位关键人物(如Łukasz Kaiser、Ashish Vaswani等)及重要技术节点(如Transformer的提出)有所关联 [8][10][11][13]
从“内部世界”到虚拟造物:世界模型的前世今生
经济观察报· 2025-08-21 12:29
核心观点 - Genie 3模型通过实时生成可交互的3D虚拟环境 展现了世界模型在实现通用人工智能路径上的潜力 其核心能力包括动态响应指令 保持记忆连贯性以及模拟物理规律 [4][5] - 世界模型模仿人脑构建内部世界的机制 通过表征学习 动态建模 控制规划及结果输出等环节 使AI具备预测和模拟未来场景的能力 从而在多个领域产生变革性应用 [8][9][15][16][17][18] - 尽管世界模型被视为通向AGI的可能路径 但学术界对其必要性存在分歧 主要围绕显式建模与隐式建模的效能对比 以及AGI定义差异展开争论 [28][29][30][31] 世界模型简史 - 世界模型的灵感源于对人脑内部世界构建机制的模仿 早期理论可追溯至18世纪康德的先验框架理论和20世纪皮亚杰的心理模型理论 [8][9] - 人工智能领域自创立初期便开始探索环境内部表示 20世纪80年代统计学习方法引入概率模型 但受限于高维数据计算瓶颈 1989年Dyna架构首次结合强化学习与内部世界模拟 [10][11] - 世界模型概念由施密德胡伯于1990年正式提出 但受限于当时技术条件未受关注 直至2018年其论文因深度学习革命和性能提升引发广泛关注 [11][12] - 谷歌DeepMind自2019年起持续推动世界模型发展 PlaNet模型仅用5帧预测50步后续发展 Dreamer模型引入RSSM技术提升预测性能 Genie系列在此基础上专注于交互式视频生成 [13] 世界模型的技术实现 - 表征学习环节通过VAE或自监督视觉模型将多模态输入数据压缩为机器可处理的内部语言 为模拟提供基础 [15] - 动态建模环节需准确刻画物理规律 通过嵌入物理约束或多样化数据训练避免错误关联 例如抛掷物体需涵盖羽毛与铅球不同场景 [16] - 控制与规划环节基于模型强化学习在潜变量空间进行多步规划 早期使用蒙特卡洛树搜索 PlaNet等模型实现策略与内部世界双向优化 [17] - 结果输出环节通过潜在空间渲染技术将内部表征解码为像素 效率远高于直接像素生成 支持多模态输出如音频与触觉 [18] 世界模型的应用领域 - 为具身智能提供安全训练场 AI可通过虚拟试错积累经验 显著降低现实操作成本与风险 例如机器人避障训练 [20][21] - 提升数字孪生应用效能 从被动模型升级为主动预测系统 可预警设备故障 优化流程并实现感知预测决策一体化 [21] - 推动教育与科研变革 虚拟实验室支持精确预测物理化学反应 交互式课堂增强学生探索体验 优化知识产业链 [22] - 重塑游戏娱乐行业 实时生成可玩世界与高智能NPC 提升沉浸感 未来或成为虚拟社会的基础设施 [22] 世界模型的争议与挑战 - 技术路径分歧:杨立坤等学者认为世界模型是AGI必经之路 因大语言模型缺乏物理一致性推理能力 而哈萨比斯等指出无模型方法如AlphaGo已在复杂任务中超越人类 [28][29] - 隐式建模可能性:部分学者主张通过海量数据训练隐含世界知识 例如GPT模型可推演事件逻辑 显式物理建模非唯一途径 [30] - AGI定义差异:若目标为机器模拟人类思维则需世界模型 若仅追求任务表现则可不依赖 需根据任务性质选择技术路径 [31] 伦理与社会风险 - 可能模糊真实与虚拟边界 生成内容交互性强于当前AI 易被用于诈骗或政治操纵 颠覆有图有真相时代 [24] - 成为行为操控工具 通过环境设计潜移默化影响用户选择 挑战商业诱导与意识形态渗透的防御机制 [24] - 加剧虚拟沉迷与现实疏离 智能乌托邦提供完美体验 可能削弱现实生存技能 [25] - 复制并放大现实偏见 训练数据中的歧视性内容被强化并通过互动传播 [25] - 责任归属不明确 虚拟伤害或不良策略重现时 开发者 平台与用户责任划分存治理缺口 [26]
从“内部世界”到虚拟造物:世界模型的前世今生
经济观察报· 2025-08-21 08:25
谷歌DeepMind Genie 3模型 - 谷歌DeepMind发布Genie 3模型 能够根据文本或图像提示实时生成可交互的3D虚拟环境 例如输入"月球上的火山边"可生成相应场景并允许用户探索 [2] - Genie 3在实时交互能力上显著提升 支持记忆连贯性 如用户涂鸦后离开再返回 涂鸦仍保留 并引入"可提示的世界事件"功能 允许通过新指令动态改变环境 [2] - 该模型被视为通向通用人工智能(AGI)的"世界模型"路径 刷新AI生成内容边界 引发行业对"世界模型"技术路线的广泛讨论 [2][21] 世界模型技术发展史 - 世界模型灵感源自人脑构建"内部世界"的能力 早期AI研究如维纳的反馈控制理论和符号主义知识图谱已尝试模仿该机制 [6] - 1989年理查德·萨顿提出Dyna架构 结合强化学习与内部世界模拟 1990年施密德胡伯首次用RNN实现"世界模型"概念 但受限于当时技术条件未受重视 [6][7] - 2018年施密德胡伯团队发表《世界模型》论文 借助深度学习革命浪潮 该概念重新引发关注 谷歌DeepMind随后推出PlaNet(2019)和Dreamer(2020)等迭代产品 [7][8][9] 世界模型技术实现路径 - 核心技术包括表征学习(如VAE压缩多模态数据)、动态建模(嵌入物理规律避免模拟偏差)、控制规划(蒙特卡洛树搜索或强化学习)及结果输出(潜在空间渲染) [11][12][13][14] - 动态建模需解决因果关系学习难题 通过嵌入物理定律或多样化数据训练确保模拟准确性 例如抛掷物体需涵盖羽毛与铅球不同场景 [12] - 输出环节采用潜在空间生成再解码为像素 效率高于直接像素生成 多模态输出需结合声音、触觉等渲染技术 [14] 世界模型行业应用前景 - 具身智能领域:为机器人提供安全虚拟训练场 通过"做梦"式模拟降低试错成本 避免现实环境中的事故风险 [15][16] - 数字孪生领域:从被动模型升级为主动预测系统 实现设备故障预警、流程优化等"感知-预测-决策"闭环 [16] - 游戏娱乐领域:实时生成动态虚拟世界 提升NPC交互智能 未来或成为"虚拟社会"基础设施 支持大规模数字生活 [17] 行业技术路线争议 - Meta杨立坤认为世界模型是AGI必经之路 因其模拟人类"离线思考"能力 而大语言模型缺乏物理一致性推理 [21] - DeepMind哈萨比斯等学者持反对意见 指出AlphaGoZero等无模型方法已超越人类 显式物理建模可能受误差累积限制 [22] - 中间路线派主张隐式建模 如大语言模型通过参数隐含世界知识 虽可解释性差但能完成逻辑推演 技术路径应依任务需求选择 [23][24]