世界模型
搜索文档
阿里新研究:统一了VLA和世界模型
自动驾驶之心· 2025-11-06 08:43
WorldVLA模型框架概述 - 提出WorldVLA统一框架,融合视觉语言动作模型与世界模型,旨在让AI理解世界 [1] - 该框架由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出 [1] - 实验结果表明,WorldVLA表现显著优于独立的动作模型与世界模型,体现二者相互增强效应 [2] 技术架构与实现细节 - 基于Chameleon模型初始化,使用三套独立分词器对图像、文本和动作进行编码 [8] - 图像分词器采用VQ-GAN模型,压缩比为16,码本大小为8192 [8] - 对于256×256图像生成256个token,对于512×512图像生成1024个token [8] - 动作分词器将连续机器人动作每个维度离散化为256个区间,动作由7个token表示 [8] - 提出针对动作生成的替代注意力掩码,使自回归框架能并行生成多个动作 [11][12] 模型性能评估 - 在无预训练情况下,WorldVLA(256×256)平均成功率为79.1%,优于OpenVLA的76.5% [19][21] - WorldVLA(512×512)平均成功率提升至81.8%,显示模型性能与图像分辨率呈正相关 [21][22][23] - 引入世界模型后,动作模型平均成功率从62.8%提升至78.1% [25][26] - 在视频生成质量上,WorldVLA在50帧序列的FVD指标为674.1,优于纯世界模型的718.6 [32] 技术优势与应用前景 - 世界模型通过预测未来图像学习环境物理规律,提升动作生成准确性 [5][25] - 动作模型基于图像观测生成后续动作,反向促进世界模型视觉生成能力 [5][17] - 框架结合VLA抽象思考与世界模型物理感知,被视为通往具身智能的路径 [36][37]
自动驾驶迎来“港股时刻”:小马智行二次上市背后释放了哪些信号?
36氪· 2025-11-06 07:21
行业拐点与资本认可 - 全球自动驾驶行业从技术验证期迈向规模商业化的临界点,产业变革信号明确 [2] - 小马智行于2025年11月6日成功回港上市,创下2025年全球自动驾驶最大规模IPO及港股AI领域最大规模IPO,标志着“自动驾驶港股第一股”诞生和“美股+港股”全球双主场战略迈出关键一步 [2] - 国际资本重新押注自动驾驶,ARKQ基金在2025年二季报披露后首次建仓小马智行斥资1290万美元,并在9月17日和18日分别加仓88335股和31764股 [4] - 英国柏基资本二季度斥资超1亿美元重仓入股,富达投资、威灵顿管理等14家国际顶级机构集体增持,小马智行成为全球资本押注自动驾驶的核心标的 [5] - 低利率环境为长周期高投入科技企业提供友好融资条件,AI技术突破为自动驾驶注入新动能,国际资金重新评估板块长期成长性 [6] - ARK报告预测到2030年全球Robotaxi市场规模将达到10万亿美元,行业总估值高达34万亿美元 [7] 公司财务与业务表现 - 2025年上半年公司实现营收3543万美元(约合人民币2.54亿元),同比增长43.3% [4] - 核心业务Robotaxi板块上半年收入达325.6万美元(约合人民币2332万元),同比大幅增长178.8% [4] - Robotaxi乘客车费收入在2025年第一季度和第二季度分别实现约800%和超300%的同比飙升,全无人Robotaxi日均订单量超15单 [12] - 公司预计2025年实现单车运营盈亏平衡,开始迈向Robotaxi大规模商业化之路 [12] - 公司拥有超过720辆Robotaxi及170多辆Robotruck,预计年底Robotaxi车辆数量达千辆规模 [8] - 公司是目前唯一在北京、上海、广州、深圳四大一线城市均取得无人驾驶出行服务许可并开展全无人收费运营的企业,在广州、深圳等地提供7x24小时全天候运营 [8] - 截至2025年,公司累计测试与运营里程超7000万公里,其中全无人驾驶路测里程超1000万公里 [9] - 自动驾驶卡车货运量超10.7亿吨公里,自动驾驶里程约为680万公里 [11] 技术突破与成本优化 - 第七代L4级Robotaxi与北汽、丰田、广汽合作开启量产,完成产能爬坡进入稳态生产,并在北京、上海、广州获得L4级自动驾驶示范许可 [10] - 第七代Robotaxi使用自研车规级域控制器(四颗英伟达OrinX芯片),100%采用车规级零部件,生产物料成本较上一代大幅下降70%,设计寿命达10年60万公里 [10] - 公司是全球首家也是目前唯一使用车规级SoC计算芯片实现L4级全无人Robotaxi的企业,花旗银行报告指出其自动驾驶系统方案BOM成本全球最低 [10][11] - 自研域控制器算力达1016 TOPS,体积、重量、功耗降低超50%,成本降低80%,成为全球首个可大规模商业化的L4全场景量产域控解决方案 [15] - 世界模型(PonyWorld)通过强化学习生成仿真训练环境,每周生成百亿公里测试数据,支持虚拟司机自我演进,大幅压缩研发周期(第七代Robotaxi从首发到运营仅用7个月) [13][15] - 自动驾驶系统实现50万小时全场景全天候全无人驾驶运营零事故,接管率低至1次/百万公里(行业平均为1次/10万公里),L4安全性比人类驾驶高10倍 [14] 商业化路径与盈利前景 - Robotaxi投放量达1000台时运营将达盈亏平衡点,超过后每增加一台车辆成本更低毛利率更高,进入自我造血阶段 [11] - Robotruck业务复用Robotaxi 80%技术,通过B端场景率先实现单线盈利,反哺Robotaxi长期技术迭代与市场拓展 [11] - 公司已成功跨越技术验证阶段,进入规模化运营加速周期,盈利时间表明确 [12]
刚刚,2025年全球自动驾驶领域最大IPO诞生
投中网· 2025-11-06 04:14
公司里程碑与行业地位 - 公司于2025年11月6日完成港股IPO,定价每股139港元,募资77亿港元,成为2025年以来全球自动驾驶领域最大规模IPO [3] - 公司以"美股+港股"双重上市身份,成为2024年美股自动驾驶领域最大IPO,并于2025年6月成为首个纳入纳斯达克中国金龙指数的L4自动驾驶公司 [17] - 公司成立九年,从硅谷实验室起步,现已在中国四大一线城市实现日常运营,车队规模超720辆Robotaxi [3][9] 创始团队与技术背景 - 创始人彭军为斯坦福大学博士,曾任谷歌工程师、百度T11级员工及百度自动驾驶首席架构师 [5] - 联合创始人楼天城为清华大学博士,连续11年TopCoder中国区冠军,曾任Waymo无人车技术开发工程师、百度最年轻T10级工程师 [5] - 公司于2016年12月在美国硅谷成立,专注L4自动驾驶技术,后将业务重心转移至中国市场 [6] 技术突破与核心优势 - 公司开发的世界模型采用强化学习范式,每周生成100亿公里仿真测试数据,实现L4自动驾驶安全性表现比人类驾驶高出10倍 [8][9] - 世界模型突破模仿学习依赖数据的瓶颈,通过AI驾校式训练使虚拟司机实现超50万小时全场景全无人驾驶运营 [8][9] - 第七代L4自动驾驶系统实现100%车规级零部件,自动驾驶套件总成本较前代下降70%,基于车规级芯片Orin-X实现全场景无人驾驶能力 [11] 商业化进展与运营数据 - 2025年第二季度总营收达1.54亿元人民币,同比增长75.9%,环比增长53.5% [13] - Robotaxi乘客车费收入在2025年第二季度同比激增300%,推动营收快速增长 [13] - 年营收从2022年4.72亿元连续三年增长至2024年5.48亿元,展现持续发展动能 [14] - 累计真实路测超5500万公里,其中全无人里程超1000万公里,在深圳、广州提供7×24小时服务 [9] 战略合作与资本支持 - 公司获得丰田汽车领投4.62亿美元融资,打破当时中国自动驾驶领域融资纪录 [7] - 投资方包括红杉中国(连续4轮投资)、丰田汽车(最大外部投资者)、北汽集团、广汽资本等战略及财务投资人 [17] - 港股IPO获得Eastspring(管理资产2750亿美元)等国际顶级投资机构基石认购1.2亿美元 [20][21] 市场前景与行业预测 - 全球移动出行市场规模预计2025年达4.5万亿美元,2030年增至4.7万亿美元 [15] - Robotaxi服务预计2026年左右实现商业化,2030年进入成熟阶段,中国将成为最大市场,规模达390亿美元,占全球份额一半以上 [15] - 公司目标在2025-2026年实现千辆级Robotaxi车队规模,以达成单车运营盈亏平衡 [11]
马斯克宣布:无方向盘时代正式倒计时
老徐抓AI趋势· 2025-11-06 01:12
特斯拉自动驾驶技术突破 - 特斯拉宣布即将实现无人监督自动驾驶的安全性全面超越人类 [2] - 公司计划在明年第二季度正式生产无方向盘和脚踏板的Cybercab车型 [2] - 方向盘消失象征汽车工业百年来的范式转变 [5] 端到端自动驾驶技术优势 - 特斯拉采用端到端AI学习模式而非传统规则编写方法 [8] - 系统通过神经网络处理视频、速度、导航数据直接输出驾驶指令 [10] - 已积累60亿英里真实行驶数据 每日新增数据相当于人类驾驶500年 [10] - FSD V12版本删除33万行代码 全部由神经网络取代 [11] - 系统具备危险预判能力 能在事故发生前0.3秒开始减速 [10] 世界模型与虚拟训练 - 特斯拉构建超逼真虚拟地球模型用于测试验证 [13] - 虚拟环境可重现各种道路、天气、光线及驾驶行为 [13] - 虚拟训练效率提升达百万倍级别 同时训练自动驾驶和机器人Optimus [13][15] - 同一套AI大脑可迁移至人形机器人及其他可移动物体 [20] 行业影响与市场前景 - 无方向盘设计将重估汽车行业生态 非自动驾驶车辆残值可能大幅下降 [17] - 2026年被视为产业重生标志 车辆将具备自主行驶和盈利能力 [31] - 特斯拉可能重现2019-2020年股价大幅上涨行情 [19] - AI大脑将扩展至卡车、仓储机器人、安保机器人等多领域应用 [20]
小鹏刚刚发布了VLA 2.0,但去掉了语言转译......
自动驾驶之心· 2025-11-06 00:04
小鹏VLA技术进展 - 小鹏发布VLA 2.0,采用两套方案并行研发:传统V→L→A路径和新型V/L→A路径,后者与特斯拉ICCV分享的技术思路类似,语言输入与视觉输入并行而非作为中间件[2][3][6] - V/L→A方案去除了语言转译环节,但仍以视觉为核心,是世界首个量产物理世界大模型,最高有效算力达2250 TOPS[6] - 技术框架参考开源算法如ORION,可同步输出感知结果、自车轨迹及思维链,世界模型参与未来场景预测[5] - 公司计划入局Robotaxi领域,配置四颗图灵AI芯片,算力提升至3000 TOPS[8] 自动驾驶技术趋势与行业动态 - 行业正加速解析特斯拉公开的新技术信息,VLA与V/LA被视为L3技术突破的关键路径,世界模型与VLA的路线竞争尚未定论[10] - 业内技术思路趋同,重点在于工程优化效果,例如ORION框架通过潜在标记与世界仿真器交互实现强化学习[5] 自动驾驶社区资源与生态 - 自动驾驶之心知识星球社区规模超4000人,覆盖近40项技术方向,包括VLA、BEV感知、世界模型等,目标两年内扩至近万人[14][20][31] - 社区整合超60个数据集、40个开源项目及仿真平台,提供技术路线图、求职内推与行业大佬直播,如小米汽车云端大模型算法工程师岗位内推[17][23][26][31] - 学习资源涵盖全栈课程、7大福利视频教程及超100场专业直播,内容涉及端到端自动驾驶、3DGS闭环仿真等热门领域[23][31][95][98]
流形空间CEO武伟:当AI开始“理解世界”,世界模型崛起并重塑智能边界|「锦秋会」分享
锦秋集· 2025-11-05 14:01
世界模型的核心概念与定义 - 世界模型是AI智能的下一个基础范式,其目标不是生成内容,而是在智能体内部模拟世界的运行规律[9] - 世界模型是一种可以模拟所有场景的生成式模型,被理解为"the online simulator in our brain",即能够在线进行模拟的智能体模型[15] - 技术上,世界模型通过隐式建模学习并近似环境的状态转移概率分布,从而在仿真空间中进行预测与推演[16] - 与传统AIGC不同,世界模型的目标不是"还原现实",而是通过预测环境变化来做出更优决策[9] 世界模型的技术价值与应用方向 - 世界模型让AI第一次具备"心智推演"能力,能在脑中模拟因果、预判后果、优化行动[9] - 主要应用方向包括构建Agent Model和环境模型两大范式[18][22] - 作为Agent Model时,通过在线模拟和推演获得更好决策,替代依赖经验回放的模仿学习方式[18] - 作为环境模型时,通过离线强化学习获得更好泛化能力,成为通用的Omni Simulator[22] - 为自动驾驶、无人机、具身智能等领域奠定通用智能底座,实现从"经验学习"到"因果理解"的跨越[9] 行业技术路线与发展历程 - 世界模型方向最早可追溯到2018年论文《World Models》,提出Mental Model概念并通过RNN对世界状态进行建模[24] - 2024年OpenAI的Sora出现后形成首个具备文生视频能力的结构化模型,AIGC技术与视觉世界模型开始深度融合[24] - Google的Genie系列基于海量视频数据进行scaling up,训练具有三维空间一致性的视频生成模型,以自回归技术路线为主干[27][28] - Google的Dreamer系列核心思想与AlphaGo一脉相承,在模型构造的虚拟环境中让智能体进行强化学习,经过三代迭代实现跨游戏环境泛化[43][44][52] - Meta的V-JEPA技术路线引入新思路,通过sampling与能量函数评估方式搜索最优执行状态,提供更可解释、更物理一致的智能体建模方式[55][56][57] 流形空间的技术布局与成果 - 公司提出"全域世界模型"体系,已在自动驾驶、机器人、无人机等方向实现突破[9] - 2025年CVPR上发表DriveScape自动驾驶世界模型,比特斯拉Autopilot自动驾驶世界模型发布更早[75] - 2025年NeurIPS上发布RoboScape,是首个针对具身智能的物理可控世界模型,能通过单帧图像+语言指令执行物理动作,支持刚体与柔性物体交互[78] - 2025年ACM MM上推出全球首个无人机世界模型AirScape,通过显式世界建模实现空间与视角统一控制[81] - 所有模型基于自研LongScape基础架构,结合Auto-regressive + DiT混合建模方式,整体研发进度超前于特斯拉世界模型团队[83] - 已将模型量化蒸馏部署到边缘端推理系统,驱动机器人实现自主移动以及无人机实现自主导航[84] 当前挑战与未来发展方向 - 现有模型如Cosmos、Genie、WorldLabs在多模态感知、指令遵循、物理世界建模等方面仍有不足,任务适应性不够强[66] - 具身智能体面临跨尺度空间挑战,自动驾驶汽车、室内操作机器人、低空无人机等不同尺度下的泛化能力仍然较弱[67] - 未来提升主要集中在五个方面:需要更丰富的多模态数据、更强的表征学习能力、新的原生世界模型基模架构、转向任务执行能力的训练目标、以及任务泛化与跨环境自适应能力[69][70][71][72][73]
对话郎咸朋:VLA 技术论战、团队换血与不被看好时的自我证明
理想TOP2· 2025-11-05 10:29
公司战略与技术路线 - 公司认为无法在竞争对手已建立的战场上取胜,必须通过开辟新战场实现超越,例如在技术路线上选择研发下一代“端到端”和VLA模型 [5][13][16][17] - 公司自动驾驶业务发展有明确时间节点:2021年确认核心技术方案,2023年拿到入场券,2025年成为顶级公司,2027年实现L4常态化运营 [43] - 公司战略核心是高效运营数据闭环,其能力发展公式为 I' = A · D(t) · δ(t),其中算法能力A是常量,有效数据量D(t)趋于稳定,数据闭环效率δ(t)是关键变量 [60][61] 技术演进与核心决策 - 2023年底至2024年初,公司决定必须实现智能化超越,选择以“端到端”技术作为对传统规则方案的代际提升,并于去年下半年取得成果 [16] - 2024年春节前后,公司认识到“端到端”模仿学习存在天花板,如跟慢车不绕行、复杂路口理解不足等问题,因此加速转向VLA模型研发 [18] - VLA模型旨在让系统具备类似人类的思考推理能力,其内部代号为“斯芬克斯”,公司目标是使其成为实现L4级自动驾驶的路径 [20][21][30] 组织架构与运营模式 - 公司于9月19日将智驾团队重组为11个二级部门,使组织架构更为扁平,旨在打造面向AI的团队,提升决策效率并取消大规模封闭研发模式 [6][7] - 公司调整研发节奏,取消集中封闭开发,因时代背景从追赶变为领先,需要各部门发挥业务专长,并体现对员工的关怀 [9] - 公司智驾团队骨干已演进至第三代,核心管理者和二级部门负责人均从内部培养,强调对全面业务的了解 [52][53][54] 数据与算力基础设施 - 公司目前拥有10 EFLOPS训练算力加3 EFLOPS推理算力,去年云端算力投入约10亿元人民币量级,达到8 EFLOPS,并表示在算力方面投入不设限 [35][37][38] - 公司数据量从2021年前不足1亿公里,增长至去年有意控制下仍有十几亿公里高质量数据,未来将依靠世界模型生成更多数据用于训练 [40][41] - VLA车端模型参数量为4B,计划将云端模型做到32B,公司通过工程优化能力将模型部署在非大模型定制的芯片上 [39][40] 技术对比与行业竞争 - 公司回应了博世和华为对VLA技术的质疑,认为多模态对齐、数据训练和模型幻觉问题可通过自身技术积累解决,并称反对声音恰恰说明VLA正确 [23][24][25] - 公司认为其世界模型是为VLA模型服务的强化训练环境,与蔚来、华为对世界模型的理解不同,并与Yann LeCun提出的可预测未来状态的理念一致 [31][32][33] - 公司与特斯拉FSD的差距尚未拉开,但预计在VLA加强化闭环实现自我迭代后,将形成代际差别,并可能在中国市场超过特斯拉 [44] 商业化落地与未来挑战 - 公司认为实现L4级自动驾驶的最大挑战并非技术,而是大规模商业化落地,包括用户教育、法律法规和公众接受程度,初期将聚焦国内市场 [45][46][47] - 公司计划到2026年底实现1000公里的平均接管里程,之后该指标可能不再适用,业务模式将因强化训练闭环而发生根本性变革 [42] - 公司已建立面向海外市场的创新业务部,进行产品交付和L4落地预研,但承认海外市场的法规和产品设计与国内存在区别 [47]
清华团队提出AirScape:动作意图可控的低空世界模型,全面开源!
具身智能之心· 2025-11-05 09:00
文章核心观点 - 清华大学团队提出名为AirScape的生成式世界模型,专为六自由度(6DoF)空中具身智能体设计 [5] - 该模型能基于当前的低空视觉观测和动作意图,推演未来的序列观测,以解决具身智能领域的推演和想象基础问题 [3][6] - 项目包含一个11k视频片段的数据集,并采用两阶段训练方案,在关键指标上相比基线模型有显著提升 [7][11][18][21] 技术挑战与解决方案 - 现有世界模型研究主要聚焦于二维平面操作的人形机器人和自动驾驶,动作空间有限 [4] - 关键挑战包括缺乏第一人称视角的低空飞行数据集、视频基础模型与世界模型的分布差异、以及无人机6DoF运行带来的生成多样性与复杂性 [8] - AirScape通过构建包含11,000个视频-意图对的数据集,并采用两阶段训练方案来解决这些挑战 [7][11] 数据集特点 - 数据集涵盖工业区、住宅区、海边等多种空间场景 [9] - 包含平移、旋转和复合动作等多种动作类型,以及晴天、多云、夜晚等多种光照条件 [9] - 通过多模态大模型生成意图并经过超过1,000小时的人工校正,确保意图描述的准确性和逻辑性 [9] 模型训练方法 - 阶段一:利用11k视频-意图对数据集对视频生成基础模型进行监督微调,学习意图可控性 [11] - 阶段二:引入self-play training机制,通过时空判别器进行拒绝采样,学习时空约束 [14] - 时空判别器评估四个关键特征:意图对齐、时间连续性、动态程度和空间合理性 [14] 性能表现 - 在衡量动作对齐能力的关键指标IAR上,相对表现最佳的基线模型提升超过50% [21] - 在衡量生成视频质量的FID和FVD指标上,分别取得了15.47%和32.73%的提升 [21] - 在平移、旋转和复合动作等任务上,平均IAR达到84.51%,显著优于其他对比模型 [13] 未来发展方向 - 未来目标包括提升实时性能、轻量化设计以及在协助现实世界空中智能体操作决策方面的适用性 [19]
极佳视界获新一轮亿元级 A1 轮融资,CEO:“物理世界 ChatGPT 时刻”将在 2 至 3 年内到来
AI前线· 2025-11-05 05:09
融资进展 - 极佳视界在两个月内完成第三轮融资,最新一轮为亿元级A1轮融资,由华为哈勃和华控基金联合投资[2] - 此前于今年8月底,公司已完成Pre-A和Pre-A+连续两轮数亿元人民币融资[2] 公司背景与团队 - 公司成立于2023年,聚焦物理AI,专注于世界模型驱动的物理世界通用智能[2] - 核心团队紧密依托清华大学自动化系智能视觉实验室,成员来自清华、中科院等知名院校及百度、微软、地平线等企业,累计发表顶级AI论文200余篇,获数十项全球AI竞赛冠军[4] - 创始人兼CEO黄冠博士为清华大学自动化系博士,拥有微软、三星、地平线等企业研究经历,曾带领百人研发团队,并主导或参与融资累计超10亿元[4] 技术定位与行业趋势 - 世界模型技术价值已在当前阶段展现,能改善高维高质量数据稀缺和传统仿真器Sim2Real Gap两大问题,并提升强化学习训练效果[6] - 世界模型在数字世界建模物理世界和运行规律,使AI在陌生环境中少试错、更稳健[6] - 硅谷科技巨头如英伟达、Google DeepMind、特斯拉均已布局世界模型方向[6] - 华为将世界模型列为未来智能世界2035年十大技术趋势之首,并与极佳视界推进战略合作[7] 技术突破与预测 - 预测"物理世界ChatGPT时刻"将在2至3年内到来[8] - 世界模型、VLA和强化学习三者协同,有望在100种常见任务中实现90%场景下95%的成功率[8] - 公司具身世界模型能从少量真实数据中学习,构建统一模型并生成高保真合成数据,低成本填补数据缺口[9] - 模型能融合多模态反馈优化Sim2Real Gap,并作为强化学习的高保真训练环境,提升真实世界表现[9] 产品性能与优势 - GigaBrain-0在对比中展现出更优异的性能提升潜力[10] - 相比其他方法,训练数据来源更丰富,在纹理、光照、视角变化下表现更鲁棒、泛化性更好[12] - 架构更深,关键子模块引入更深层建模,操作表现更精细[12] - 提供大小双版本模型,小模型可达大模型约90%效果,且可在端侧Orin实现实时推理[12] 商业化与合作 - 公司已与多地人形机器人创新中心、实训场、科研院校、云计算公司等达成深度合作,打造虚实结合数据工厂和具身智能平台[13] - 在世界模型和VLA大模型场景落地方面,与全球汽车行业巨头、头部具身本体公司、多个应用场景巨头达成深度合作,探索驾驶、工业、服务、家庭等场景的物理AI应用[13] - 未来公司将推进物理AI智能模型研发迭代,加速通用具身人形本体研发,并通过"智能-本体-场景"三位一体加速商业化落地[14]
谷歌Dreamer大神离职,自曝错过Transformer
36氪· 2025-11-05 02:20
核心人事变动 - 资深研究科学家Danijar Hafner宣布离开其工作近十年的谷歌,离职前担任Google DeepMind旧金山分部的资深研究科学家 [1][3] - 此次离职标志其职业生涯一个重要篇章的结束 [4] 职业经历与研究贡献 - 自2016年起,该研究员便以实习生身份开始参与谷歌Brain团队的工作,并与James Davidson、Vincent Vanhoucke等共事 [6][7] - 其研究目标是构建能够理解世界并与世界互动的通用智能体,并主导/联合主导了Dreamer系列(Dreamer、DreamerV3、Dreamer4等)的开发 [1][7] - 在谷歌/DeepMind近十年间,其工作地点与研究内容随学业变动,先后在伦敦DeepMind、多伦多Brain Team以及Google DeepMind旧金山分部工作 [6][7][17] 关键技术背景与合作网络 - 其研究深度涉足深度强化学习和生成式模型,早期曾参与PlaNet算法的开发,并与Timothy Lillicrap、Ian Fischer等合作 [14] - 在多伦多大学攻读博士期间,主要导师为Jimmy Ba,并获得了杰弗里·辛顿的指导 [17] - 在谷歌Brain多伦多分部,与资深研究科学家Mohammad Norouzi长期合作开发多个版本的Dreamer [7][19] - 近期在伯克利和旧金山与Wilson Yan合作深入研究世界模型,并得到Count Zero和Koray Kavukcuoglu的算力与资源支持 [21] 行业技术发展关联 - 该研究员曾提及早期接触Transformer架构的轶事,Ashish Vaswani曾向其介绍该架构在计算效率上的优势,但当时未予尝试 [11][13] - 其经历与深度学习领域多位关键人物(如Łukasz Kaiser、Ashish Vaswani等)及重要技术节点(如Transformer的提出)有所关联 [8][10][11][13]