世界模型
搜索文档
GAIR 2025 「数据&一脑多形」分论坛,激辩 AI 演进路径
雷峰网· 2025-12-14 06:27
" 过去十年,AI的核心突破是从 「 专用 」 走向 「 通用 」 的语 言理解;未来十年的关键战役,或许就是将这种通用性,从语言世 界拓展到物理世界。 " 作者丨 吴彤 刘欣 齐铖湧 梁丙鉴 编辑丨 林觉民 马晓宁 在 12月13日举行的第八届GAIR全球人工智能与机器人大会"数据&一脑多形"分论坛上,两个看似独立却 紧密交织的技术前沿——数据的价值重构与一脑多形(One Brain, Many Forms)的架构革命,成为探索 下一代智能系统的核心焦点。 一方面,数据正从传统的"资源"角色,向更本质的"认知基础"与"价值载体"演进。 随着多模态大模型的爆发,高质量、结构化、富有逻辑链的数据已不再是模型的"养料"那么简单,它正演 化为定义模型认知边界与价值对齐的核心框架。 本次论坛深入探讨了如何在数据洪流中构建更具解释性、可信度与进化能力的知识体系,以及如何通过数 据流动重塑产业智能化的闭环。数据不再仅仅是起点,更是驱动智能持续进化、与人和社会和谐共生的核 心纽带。 另一方面,"一脑多形"的范式正在重新定义智能的构建方式。 它超越了单一模型解决特定任务的局限,指向一个更具适应性与扩展性的未来:一个统一的底层 ...
“世界模型”竞赛升级:Runway推出GWM-1,实时交互可持续数分钟之久
硬AI· 2025-12-13 12:45
文章核心观点 - AI视频生成独角兽Runway发布其首款通用世界模型GWM-1 标志着公司战略从影视特效供应商向物理世界AI架构师进化 战场从比拼画质升级到比拼对物理世界的理解 [2] - GWM-1的核心突破在于连贯性与交互性 它是一个能够理解物理规律、几何结构及环境动态的模拟系统 能通过逐帧预测模拟世界演变 支持长达数分钟的连贯实时交互 [2] - Runway的最终愿景是将不同领域和动作空间统一到一个单一的基础世界模型中 [6] - 面对谷歌、英伟达等巨头的竞争 Runway需证明其有能力成为物理世界的AI架构师 这是评估其估值能否迈向下一阶段的关键 [20] 拆解GWM-1:从“像素预测”到“通用模拟” - 世界模型旨在让AI内部构建对现实世界运行机制的模拟 使其具备无需遍历所有现实场景的推理、规划和行动能力 [5] - Runway认为 教模型直接预测像素是实现通用模拟的最佳路径 [5] - 目前的GWM-1是由三个针对不同领域进行后训练的自回归模型组成的系列 均建立在Runway最新的Gen-4.5基座模型之上 [5] GWM-Worlds:可交互的数字环境探索界面 - GWM-Worlds采用逐帧预测方式 用户可在任何时刻根据应用场景进行干预 模型会模拟接下来发生的事情 [8] - 模型提供探索数字环境的界面 用户可通过提示词或参考图像设定场景 模型将以24fps帧率和720p分辨率生成环境 [8] - 与传统视频生成不同 用户可实时改变镜头视角、环境条件或物体状态 模型能理解几何与光影 确保长序列运动中画面连贯性 [8] - 除了用于游戏设计预览和VR环境生成 其更深远意义在于为AI Agent提供训练场 教导它们如何在物理世界中导航和行动 [8] GWM-Robotics:解决具身智能的“数据饥渴” - GWM-Robotics展示了Runway进军工业与具身智能领域的野心 [10] - 该模型旨在通过生成高质量的合成数据 模拟极端天气、突发障碍等长尾场景 帮助机器人在虚拟空间进行策略评估 从而大幅降低训练成本并在投入真实世界前预判违规风险 [11] - Runway正通过SDK向部分企业开放GWM-Robotics 并与多家机器人公司接触 试图在SaaS订阅收入外开辟面向B端工业客户的新业务 [11] GWM-Avatars:统一视频与语音的交互终端 - GWM-Avatars是一个将视频生成与语音结合的统一模型 宣称其生成的数字人能进行长时间连续对话且无画质损耗 [14] - 若该技术效果属实且能规模化落地 或将对客户服务及在线教育行业产生颠覆性影响 [15] 基座进化与算力军备 - Runway同期发布了Gen-4.5模型更新 补齐了原生音频和多镜头编辑短板 新版本支持生成长达一分钟的视频 并能保持角色一致性、生成原生对话和背景音效 [18] - 为支撑从创意生成迈向世界模拟的庞大算力需求 Runway宣布与云服务商CoreWeave达成协议 未来将利用其云基础设施上的Nvidia GB300 NVL72机架进行模型训练与推理 [18]
专家指具身智能大规模落地仍处于早期阶段
中国新闻网· 2025-12-13 12:33
中新社北京12月13日电 (记者刘育英)13日在北京举行的2026中国信通院深度观察报告会上,中国信息通 信研究院副总工程师许志远认为,当前具身智能已经取得认知智能与物理智能的双线突破,但大规模落 地仍处于早期阶段。 展望未来,许志远认为,在VLA(视觉-语言-动作模型)的基础上引入世界模型(World Model),借助其对 物理世界的理解、预测与推演能力,有望成为进一步提升机器人大模型能力的重要发展路径。(完) 他表示,当前具身智能模型路线、数据范式以及最佳机器人形态仍未定型,大规模落地仍处于早期阶 段,其未来方向仍在持续竞争与快速演化中。 "当前行业仍面临三个核心焦点问题。"许志远表示,一是模型路线之争,即大模型范式是否适用于机器 人。虽然大模型在语言、图像、视频领域取得巨大成功,但"同样的范式能否直接迁移到机器人控制"仍 未被证明,业界正在探索多种途径。 二是数据训练范式之争。数据仍然是限制机器人能力跃升的核心瓶颈,混合数据、多模态数据、世界模 型生成数据等方向均在探索中。 三是形态路线之争,即人形机器人是否是"真需求"。当前,特斯拉、Figure AI等企业坚持全人形路线; 而中国国内今年涌现出多款 ...
“世界模型”竞赛升级:Runway推出GWM-1,实时交互可持续数分钟之久
华尔街见闻· 2025-12-13 10:36
AI视频生成行业技术演进 - AI视频生成领域的竞争焦点正从单纯比拼画质,进化到比拼对物理世界的理解[1] - AI视频生成独角兽Runway于12月11日正式发布其首款通用世界模型GWM-1,进入由谷歌、英伟达等巨头领先的“世界模拟”战场[1] Runway通用世界模型GWM-1核心突破 - GWM-1被设计为能够理解物理规律、几何结构及环境动态的模拟系统,其核心突破在于“连贯性”与“交互性”[1] - 该模型基于对物理规律和环境动态的理解,能通过逐帧预测来模拟世界随时间演变的过程,并支持长达数分钟的连贯实时交互[1] - “世界模型”旨在让AI在内部构建对现实世界运行机制的模拟,使其能够在无需遍历现实所有场景的情况下,具备推理、规划和行动的能力[3] - 构建世界模型首先需要构建卓越的视频模型,教模型直接预测像素是实现通用模拟的最佳路径[3] - 目前的GWM-1是由三个针对不同领域进行后训练的自回归模型组成的系列,均建立在Runway最新的Gen-4.5基座模型之上[3] - 公司的最终愿景是将不同的领域和动作空间统一到一个单一的基础世界模型中[3] GWM-Worlds:可交互的数字环境 - GWM-Worlds是建立在Gen-4.5基座模型之上,采用逐帧预测方式的自回归模型[4] - 用户可在任何时刻根据应用场景进行干预,模型会模拟接下来发生的事情[4] - 该模型提供了一个用于探索数字环境的界面,用户可通过提示词或参考图像设定场景,模型将以24fps的帧率和720p的分辨率生成环境[4] - 用户可以实时改变镜头视角、环境条件或物体状态,模型能够理解几何与光影,确保生成的画面在长序列运动中保持连贯性[4] - 除了游戏设计预览和VR环境生成外,GWM-Worlds更深远的意义在于为AI Agent提供训练场,教导它们如何在物理世界中导航和行动[4] GWM-Robotics:进军工业与具身智能 - GWM-Robotics的推出展示了Runway进军工业与具身智能领域的野心[6] - 该模型旨在通过生成高质量的“合成数据”,模拟各种环境变数,以解决机器人研发中获取“长尾场景”真实数据成本极高的痛点[6] - 这能帮助机器人在虚拟空间中进行策略评估,大幅降低训练成本,并在投入真实世界前预判其违规风险[6] - 公司正通过SDK向部分企业开放GWM-Robotics,并与多家机器人公司保持积极接触,试图在SaaS订阅收入之外开辟面向B端工业客户的新业务[6] GWM-Avatars:人机交互终端 - GWM-Avatars瞄准人机交互,是一个将视频生成与语音结合的统一模型[8] - Runway宣称其生成的数字人能进行长时间连续对话且无画质损耗[8] - 若该技术效果属实且能规模化落地,或将对客户服务及在线教育行业产生颠覆性影响[8] 基座模型升级与算力支撑 - Runway同期发布了Gen-4.5模型更新,补齐了原生音频和多镜头编辑的短板[10] - 新版本支持生成长达一分钟的视频,并能保持角色一致性、生成原生对话和背景音效,继续从“C端玩具”迈向“B端生产力工具”[10] - 为支撑从创意生成迈向世界模拟的庞大算力需求,Runway宣布与云服务商CoreWeave达成协议[10] - 未来将利用CoreWeave云基础设施上的Nvidia GB300 NVL72机架进行模型训练与推理[10] 公司战略与行业竞争格局 - Runway的战略版图正从影视创意工具向机器人模拟器等领域极速扩张[11] - 在世界模型这一新赛道上,公司已不再拥有视频生成初期的先发优势[11] - 面对谷歌、英伟达等拥有深厚底层资源和科研积累的巨头,公司需要证明自己不仅是一家影视行业的“特效供应商”,而是有能力成为物理世界的“AI架构师”[11] - 这将是评估其估值能否迈向下一阶段的关键[11]
GAIR 2025 世界模型分论坛:从通用感知到视频、物理世界模型的百家争鸣
雷峰网· 2025-12-13 09:13
" 具身智能爆发第三年,世界模型凝聚了哪些共识? " 作者丨 张进 吴彤 梁丙鉴 刘欣 齐铖湧 编辑丨 林觉民 马晓宁 13 日,第八届 GAIR 全球人工智能与机器人大会世界模型分论坛圆满成功。 这场的演讲嘉宾是在世界模型领域,研究不同方向的五位青年学者,他们带来了五场围绕世界模型的精彩 演讲,话题聚焦通用感知、三维技术、物理模型、世界模型、数字人重建。通过他们的演讲、我们得以窥 见当下围绕着世界模型的研究是多么广泛与丰富。 目前,世界模型的研究尚处于起步阶段,共识尚未形成,有关该领域的研究形成了无数支流,而这股潮流 中,今天到场的几位嘉宾,用他们的智慧和力量给世界模型领域研究带来了不同的启发。 浙江大学研究员彭思达:面向具身智能的通用空间感知技术 在"世界模型"分论坛上,首位演讲者是浙江大学研究员彭思达。他是浙江大学软件学院"百人计划"研究 员、博士生导师,研究方向为三维计算机视觉和计算机图形学。此次他带来的主题演讲是《面向具身智能 的通用空间感知技术》,介绍了其团队近期在赋予机器人通用感知能力方面的多项工作。 团队主要聚焦于赋予机器人三项基础能力:一是相机定位(Camera Pose Estimatio ...
港中深韩晓光:3DGen,人类安全感之战丨GAIR 2025
雷峰网· 2025-12-13 09:13
文章核心观点 文章通过港中深助理教授韩晓光的视角,探讨了在视频生成模型(如Sora)兴起的背景下,三维生成与世界模型构建的必要性及其不可替代的价值 核心观点认为,尽管端到端的“炼丹”式AI在性能上取得突破,但为了满足人类对可解释性、安全感和精细可控的需求,尤其是在构建可交互的虚拟世界、发展具身智能以及实现数字到实体制造等领域,三维生成与显式的、结构化的建模方法是不可或缺的 [2][3][4][58][61][63] 三维生成发展历程与现状 - 三维生成在深度学习兴起前就已存在,早期主要聚焦于“类别限定”的生成,即为椅子、车辆等特定类别分别训练模型 [9] - “开放世界”的三维生成大约从2023年的Dreamfusion工作开始兴起,实现了从文本直接生成3D模型,但基于优化方法,生成速度较慢,通常需要半小时到一小时 [11][12][14] - 当前进入大模型时代,例如Adobe的Large Reconstruction Model和上海科大的Clay工作提出了“原生模型”概念,商业应用如腾讯混元3D的3.0版本已能实现从单张图像生成高质量三维模型 [16] 三维生成的发展趋势 - 趋势一:更精细,追求几何层面的极致细节表现,例如数美万物的Spark 3D [19] - 趋势二:更结构化,生成的三维模型需要能被拆解成独立部件以便编辑,例如混元3D的“X-Part”工作 [19] - 趋势三:更对齐,解决生成模型与输入图像在细节上不对应的问题,例如输入图像栅栏有5条横杠而生成模型变成6条的问题 [20] 视频生成兴起对三维生成的冲击与反思 - 视频生成技术(如Sora)的出现对三维内容创作领域造成冲击,因为它能用文本指令直接输出视频,跳过了传统三维建模、绑定、渲染等复杂流程 [24][28] - 视频生成当前存在核心局限:物理模拟不够真实、3D空间不一致、内容可控性不足(如难以精细修改视频中物体的特定属性) [29][30] - 尽管Sora2和谷歌Veo3已展示出初步的可控能力(如控制视角变化),但真正的危机感促使行业思考视频生成模型是否真的不需要3D [34][37] 视频模型与三维结合的潜在路径 - 路径一:完全不用3D,采用纯2D的端到端范式,依赖海量视频数据训练 [38] - 路径二:利用3D仿真作为“世界模拟器”,先根据条件生成可控但不真实的CG视频,再用神经网络将其转化为真实视频 [39] - 路径三:将3D信息作为控制信号输入,例如基于三维重建的场景模型来生成空间一致的长视频,以解决“长程记忆”问题 [38][39] - 路径四:用3D合成数据辅助训练,利用3D仿真批量生成可控的、带标注的视频数据,以增强端到端视频模型的训练 [39] 世界模型的分类与三维的必要性 - 世界模型的核心是对真实世界进行数字化,以计算方式理解和表达规律,并用于预测 [41] - 第一类:服务于“人类共同体”的宏观世界模型,如气候模拟、社会系统推演 [43] - 第二类:服务于“个人”的体验与探索模型,核心是可交互性,需要数字化物理与交互规律以构建沉浸式虚拟世界 [43] - 第三类:给机器用的世界模型,如用于自动驾驶或具身智能机器人,需要能根据动作预测环境变化 [44] - 为实现可交互的世界模型(如VR体验需要触觉反馈),3D是必要的 [45] 具身智能与三维生成的关系 - 发展具身智能的主流方法是“向人类学习”,这需要首先对人类与物体的交互过程进行精确的、动态的数字化捕捉与还原,3D乃至4D的还原是必要基础 [48] - 为了让机器人安全高效地探索和学习,需要创造可交互的三维仿真环境,因此具身智能同样离不开3D [48] 从数字到实体的制造需求 - 在三维打印、智能制造、CAD模型生成等领域,实现从虚拟设计到实体制造的个性化定制,3D是绝对的基础,例如牙齿生成项目就是为了制造精确的牙齿模型 [50][52] 技术路线之争:显式与隐式 - 隐式(数据驱动)路径:构建端到端神经网络,依赖“潜变量”编码所有信息,是典型的“黑箱”逻辑 [56] - 显式(模型驱动)路径:显式地重建三维模型,并基于明确的几何与物理公式进行计算和判断,依赖对世界的明确建模 [57] - 可解释性与安全感:显式的、可视化的3D/4D信息是人类能够直观理解和信任的维度,能带来安全感,而高维的“潜变量”则让人难以理解其运作原理 [57][58][59] - 当前AI时代过分追求性能而可解释性不足,实现可解释性需要3D作为人类能够直观理解的基石 [61][63]
何小鹏立“赌约”:明年8月底前达到特斯拉FSD效果
每日经济新闻· 2025-12-13 06:46
行业技术路线分歧 - 2025年辅助驾驶行业在发展方向上出现VLA与世界模型的技术路线分歧,理想汽车与小鹏汽车是选择VLA方案的代表 [4] - VLA被视为端到端方案的智能增强版,其架构包含视觉感知、大语言模型和动作执行,大语言模型作为中台负责将感知信息转译为规划与决策 [5] - 世界模型指AI系统通过感知数据构建对物理世界的内部模拟,从而具备预测、推理和生成合理行为链的能力,在辅助驾驶中能实现理解世界与预测未来 [9] - 华为、蔚来、商汤等企业布局世界模型路线,华为乾崑自研的WEWA架构包含云端世界引擎与车端世界行为模型,省去语言环节直接通过视觉信息控车 [8][10] VLA方案的核心观点与优势 - VLA模型的核心突破在于引入思维链,通过语言模型实现对环境理解与决策推理的可解释性,摆脱传统端到端模型的黑盒难题 [5] - VLA模型天然集成海量知识库,泛化能力更强,能够更好地适应复杂多变的真实道路环境 [5] - 理想汽车自动驾驶负责人认为,模型关键是与整个具身智能系统适配,数据起决定意义,其拥有数百万辆车构建的数据闭环,能在当前算力下将驾驶水平做到接近人类 [6][8] - 小鹏汽车计划在下个季度发布VLA 2.0,公司董事长与自动驾驶团队立下赌约,目标是2026年8月30日前其VLA系统在国内达到特斯拉FSD V14.2版本在硅谷的整体效果 [1] 对VLA方案的质疑与不同看法 - 宇树科技创始人王兴兴对VLA模型持怀疑态度,认为它是一个相对傻瓜式的架构,在与真实世界交互时,其数据质量和能采集的数据不太够用 [5] - 华为智能汽车解决方案BU CEO靳玉志表示华为不会走向VLA路径,认为该路径看似取巧,并非走向真正自动驾驶的路径 [8] 技术融合趋势与未来展望 - 行业分析认为VLA与世界模型在技术上并非对立关系,而是产业玩家在实现端到端能力后,在能力优化侧重点上出现的分化,双方技术融合趋势明显 [11] - 小鹏汽车发布的第二代VLA架构被描述为既是VLA模型也是世界模型,世界模型作为记录器存在,公司正用其VLA数据训练世界模型 [12][14] - 小马智行CTO表示大部分公司两种技术都用,世界模型和VLA模型不是同一维度的东西,两者不矛盾,选择不同路线是因为目标不同 [12] - 行业观点认为,VLA与世界模型的深度融合,有望成为高阶智驾系统实现类人驾驶决策能力的关键拐点 [14] - 业内预计在未来2至3年内,辅助驾驶的技术架构还将迎来1至2轮迭代,到2028年有望收敛至相对稳定的状态 [15]
何小鹏立“赌约”:明年8月底前达到特斯拉FSD效果!理想高管回应宇树王兴兴质疑,多家车企押注的VLA,靠谱吗?
每日经济新闻· 2025-12-13 06:31
文章核心观点 - 智能驾驶行业在技术路线上出现分化,以理想汽车和小鹏汽车为代表的企业选择VLA(视觉-语言-动作)模型方案,而以华为、蔚来等为代表的企业则更看重世界模型(World Model)方案,双方各执一词但技术未来有望深度融合 [6][7][9][12] 行业技术路线分歧 - 辅助驾驶行业技术底座经历了从“激光雷达+高精地图”到“BEV+Transformer”,再到“端到端”的范式迁移,2025年行业在发展方向上出现了VLA与世界模型的“分歧” [6] - VLA被视为端到端方案的“智能增强版”,其架构中V(视觉)负责感知,A(动作)负责控制指令,L(大语言模型)作为“中台”进行信息转译与决策推理 [7] - 世界模型指AI系统通过感知数据构建对物理世界的内部模拟,从而具备预测、推理和生成合理行为链的能力,在辅助驾驶中能实现理解世界并提前决策 [10] - 理想汽车与小鹏汽车是选择VLA方案的代表企业,而华为、蔚来、商汤等企业则在世界模型技术路线上进行布局 [6][9][11] VLA方案支持方观点 - 小鹏汽车董事长何小鹏宣布,小鹏VLA 2.0将在下个季度发布,并因是第一个版本而“压力很大” [1] - 何小鹏与公司自动驾驶团队立下“赌约”:若2026年8月30日前小鹏VLA系统在国内达到特斯拉FSD V14.2版本在硅谷的整体效果,他将在硅谷筹建特色中国风味食堂,反之自动驾驶负责人需在金门大桥裸跑 [3] - 理想汽车自动驾驶研发高级副总裁郎咸朋认为,VLA是自动驾驶最好的模型方案,模型关键要与整个具身智能系统适配,而数据起决定意义 [4] - 郎咸朋强调,空谈架构不如看疗效,理想汽车拥有数百万辆车构建的数据闭环,能在当前算力下将驾驶水平做到接近人类 [8] - 清华大学车辆与运载学院助理研究员颜宏伟表示,VLA是多模态大模型驱动的智能体架构,其核心突破在于引入思维链,实现了环境理解与决策推理的可解释性 [7] - 元戎启行CEO周光认为,VLA模型融合了语言模型,具备强大的思维链能力,能摆脱传统端到端模型的黑盒难题,且天然集成海量知识库,泛化能力更强 [7] 世界模型方案支持方观点 - 华为智能汽车解决方案BU CEO靳玉志明确表示不会走向VLA路径,认为该路径看似取巧,并非走向真正自动驾驶的路径 [9] - 华为更看重WA(世界行为模型),即World Action,中间省掉Language环节,直接通过Vision信息输入控车,其自研的WEWA架构包含云端的世界引擎(WE)与车端的世界行为模型(WA) [9] - 宇树科技创始人王兴兴对VLA模型持怀疑态度,认为它是一个相对比较傻瓜式的架构,在和真实世界交互时,其数据质量和能采集的数据不太够用 [7] 技术融合趋势 - 尽管企业各执一词,但VLA与世界模型两者并不矛盾,未来有望深度融合 [12] - 国海证券研报指出,VLA与世界模型在技术上并非同级或对立关系,产业玩家在实现端到端能力后,在能力优化侧重点上出现分化,双方技术融合趋势明显,均在向对方领域渗透 [12] - 理想汽车董事长李想提到,VLA可以拆解为预训练、后训练和强化学习三个层面,强化学习中最重要的一步就是在世界模型里闭环学习 [12] - 郎咸朋表示,世界模型的高算力需求决定了它更适合在云端做数据生成和极度逼真的仿真测试和强化训练 [12] - 小马智行CTO楼天城认为,大部分公司两种技术都用,世界模型和VLA模型不是一个维度的东西,而是交错的,不矛盾不冲突 [13] - 小鹏汽车有将两种技术融合的趋势,其发布的第二代VLA架构中,世界模型是作为二代VLA的一个记录器存在,在用VLA数据训练世界模型 [13][16] - 小鹏汽车自动驾驶产品高级总监袁婷婷表示,小鹏的二代VLA既是VLA模型,也是世界模型 [16] - 小米汽车主任科学家陈龙认为,VLA管“抽象思考”,世界模型管“物理感知”,两者结合才是通往更强通用具身智能 [16] - 国元证券认为,未来VLA与世界模型的深度融合,有望成为高阶智驾系统实现类人驾驶决策能力的关键拐点 [16] 技术演进与公司动态 - 小鹏汽车第一代VLA方案是V到L再到A,第二代VLA是V+L到A,把L转移到了输入端,何小鹏解释称第一代涉及两次语言转换会带来大量信息损耗,第二代以视觉为核心,把模型看到的世界直接转换成运动轨迹 [13][16] - 长安汽车智能驾驶高级总工程师预测,未来2至3年内辅助驾驶的技术架构还将迎来1至2轮迭代,到2028年有望收敛至相对稳定的状态 [17]
2026 将近,世界模型到底更「世界」了吗?
机器之心· 2025-12-13 02:30
文章核心观点 - 近期Runway发布新产品,将视频生成推向可交互的“世界模拟”,引发了关于“世界模型”本质的讨论:它究竟是面向创作的界面、用于训练的模拟器,还是面向推理的认知框架[1] - 世界模型的概念在2024至2025年间经历了快速演变,从强化学习语境中的内部环境模型,扩展到更通用的世界演化建模,并与LLM一同被视为通向AGI的关键路线[4][8] - 当前业界对世界模型的定义存在模糊与分裂,主要围绕“如何建模”展开技术路线之争,例如OpenAI的Sora强调像素级模拟,而Meta的V-JEPA强调抽象表征预测[6][7] - 国内外厂商积极布局世界模型,但其动机各异,有的为补充数据引擎,有的为搭建时空认知新框架,融资热潮进一步加剧了概念歧义[3][8] 从 RL 分支到演化建模,世界模型这两年经历了怎样的转变? - **2024年初的强化学习语境**:世界模型最初定义相对收敛,被视为智能体的“内部环境模型”,是一个从当前状态和动作预测下一状态的函数,旨在将试错成本转移到内部推演,提高样本效率和规划能力[4][5] - **工程化能力拆解**:同一时期,世界模型被定义为三类能力的组合:将高维感知压缩为可用表征、在时间上预测未来、以及利用预测进行规划和决策,Transformer和自监督学习开始被纳入讨论,但整体仍是强化学习的延展[6] - **概念外推与通用化**:进入2024年,业内理解开始延伸,将其从“针对具体子任务的动态模型”外推到更通用的世界演化建模,并认为存在“语言生成→图像生成→3D生成→世界生成(同时具备时序与空间序建模)”的趋势链条[6] - **概念边界模糊化**:同时,世界模型的概念边界变得更模糊,表征形式(视频序列还是3D表征)、物理规律的融入方式、输入关系组织等均被视为未收敛的开放问题[6] - **技术路线分化(2024年2月)**: - **OpenAI的Sora路线**:被称为“world simulators”,强调在像素空间中学习现实世界的三维结构与物理规律,并能够模拟世界演化[6] - **Meta(LeCun)的V-JEPA路线**:强调世界模型不是在像素层面补全,而是在抽象表示空间预测被遮蔽的视频片段,允许丢弃不可预测信息以换取更高训练效率,其训练更强调自监督与未标注数据预训练[6] - **核心争议转移**:主题从“要不要做世界模型”转变为“世界模型如何建模”,争议焦点在于应从像素层逐步抽象,还是直接在抽象空间跳过像素细节[7] - **对现有路线的批评**:有研究者认为当前路线(如Sora和V-JEPA)只学到了部分物理规律,距离“完整世界模型”还有差距,提出构成“连贯世界模型”还需要孤立对象的表征、跨时空的先验变化规律以及康德范畴,并指出Sora的缺陷无法通过扩大训练规模弥补,V-JEPA则仍未理解康德范畴[7] 界面、模拟器还是认知框架,世界模型的定义依旧模糊? - **地位提升至与LLM同级**:进入2025年,世界模型被推至与LLM同级的位置,分析认为Google DeepMind、Meta和Nvidia等公司正从纯LLM转向世界模型,目标是实现“Physical AI + 超级智能”,部分原因是LLM路线提升放缓[8] - **与LLM及VLA的差异**: - 世界模型的目标是在内部构建包含物理、时间、空间维度的环境表征,用于规划和决策,可应用于无人机、自动驾驶、机器人等领域[8] - 有观点指出,当前LLM更像启发式方法拼盘,离真正的世界模型还很远[8] - 与视觉语言动作模型相比,世界模型代表了更底层的认知方式,强调物理规律和空间理解,更适合长期演进[8] - **概念同名但内核分裂**:发展至今,世界模型出现了“概念同名但内核分裂”的现象,它可以指代系统内部的潜在状态、给智能体训练用的类游戏模拟器,或任何能生成可走动3D场景的内容管线[8] - **融资热潮放大歧义**:世界模型的融资热潮进一步放大了这种歧义,只要产品贴上世界模型标签,往往很少有人继续追问其是否真正支持预测、规划和泛化[8] - **技术路线三分法**:有分析将世界模型的技术路线重新划分为界面、模拟器和认知框架三条路径[9] 重押还是凑数,国内外各厂商如何布局世界模型? - **布局动机各异**:大厂布局世界模型,动机可能是在补充“数据引擎”,也可能是在搭建“时空认知”的新框架[3]
GAIR 2025 正式开幕:当AI变革行至产业深海,我们又将如何破暗寻光?
雷峰网· 2025-12-12 02:49
GAIR 2025大会概况 - 第八届GAIR全球人工智能与机器人大会于12月12日在深圳博林天瑞喜来登酒店举办[2] - 大会共开设四个主题论坛与两个闭门会议,聚焦大模型、AI算力、世界模型、数据&一脑多形、AI硬件等领域的创新脉搏[2] - 大会旨在汇聚前瞻学者与行业先锋,搭建创造未来的思想与商业策源地,让AI思想火花碰撞出产业实践的全新范式[4][10] 大会历史与定位 - GAIR大会始于2016年,至今已举办八届,每届都在时代最前沿镌刻下新的记录[5] - 2018年,GAIR成为国内首个突破5000名AI专家参会的AI大会[5] - 2023年,GAIR代表中国AI顶会首次出海,正式在新加坡落地[5] - 当前AI大模型浪潮已从“技术破壁”迈入了“价值深耕”阶段[4] 本届大会亮点 - 汇聚全球院士、顶会主席、企业技术领袖,共话AI大模型的世纪变革[6] - 探讨领域包括具身智能、AI算力、世界模型、AI硬件等[6] - 呈现青年学者与前辈的跨代际共鸣,以及AI商业化浪潮下的机遇与挑战[6] 与会重要机构与人物 - 指导委员会主席为中国工程院院士、鹏城实验室主任高文[13] - 大会主席包括加拿大皇家科学院院士杨强、GAIR研究院创始人朱晓蕊[13] - 组委会主席包括清华大学教授杨士强、雷峰网创始人林军[13] - 大会程序主席为KDD China主席、京东集团副总裁郑宇[13] - 参与院士及专家包括中国工程院外籍院士郭毅可、欧洲科学院院士刘向阳、日本工程院院士Kazuhiro Kosuge等[17][21] - 参与企业及投资机构代表来自京东、腾讯、摩尔线程、诺亦腾、并行科技、燧原科技、英诺天使基金、IO资本等[13][17][26][27]