世界模型
搜索文档
李飞飞最新长文火爆硅谷
量子位· 2025-11-11 00:58
文章核心观点 - 空间智能是人工智能的下一个前沿领域,其核心在于构建能够理解、推理、生成并与物理世界交互的“世界模型”,这将推动AI实现从处理抽象知识到理解物理现实的质的飞跃 [1][6][28] - 当前以大语言模型为代表的AI在空间智能方面存在根本性局限,无法像人类一样进行空间推理、物理规律预测和连贯的世界生成 [22][23][24] - 具备空间智能的世界模型必须拥有三项核心能力:生成性(创造物理一致的世界)、多模态(处理图像、视频、动作等输入)、交互性(预测世界随互动演变的状态) [5][31] - 空间智能的应用潜力巨大,将彻底革新创造力(如叙事、游戏设计)、机器人技术、科学发现、医疗和教育等多个领域 [4][27][51] 空间智能的定义与重要性 - 空间智能是支撑人类认知的脚手架,驱动着人类的推理、规划及与世界互动的方式,体现在日常动作(如停车、接钥匙)和极端情况(如消防员救援)中 [14][15][20][21] - 人类通过空间智能推动文明进步,历史案例包括埃拉托色尼计算地球周长、珍妮纺纱机的发明、DNA双螺旋结构的发现 [18][19] - 空间智能是人类想象力与创造力的基石,从原始洞穴壁画到现代电影、电子游戏,都依赖于以空间为根基的想象 [17] 当前AI在空间智能方面的局限 - 多模态大语言模型虽具备初步空间感知能力,但在估计距离、方向、大小等任务上表现不佳,无法进行“心智旋转”或预测基本物理规律 [23] - 顶级AI擅长阅读、写作和模式识别,但在对物理世界的表征或交互上存在根本性局限,生成的视频常在几秒后失去连贯性 [23][24] - AI缺乏人类整体性理解世界的方式,即同时理解物体在空间上的关系、语义意义及现实重要性 [25] 世界模型的核心能力与构建挑战 - **生成性**:模型需能生成具有几何、物理与动态一致性的虚拟世界,其输出应允许生成显式、可观测的世界状态,并保持时间上的连贯 [31][32][33] - **多模态**:模型需能处理图像、视频、深度图、文本指令、手势、动作等多种形式的输入,并以多样的方式输出 [34][35][36][37] - **交互性**:当动作或目标作为输入时,模型需能生成与世界先前状态、物理规律相一致的下一个状态,未来甚至能预测下一步行动 [38] - 构建世界模型面临巨大技术壁垒,因其需要协调语义、几何、动力学与物理等远比语言复杂的多维规则 [39][40][41][42] World Labs的研究进展与方向 - 公司致力于世界模型的基础性突破,研究方向包括定义新的通用训练任务函数、利用大规模图像视频数据、开发新的模型架构与表征学习 [43][44] - 开发了基于帧的实时生成模型RTFM,以空间为基础的帧作为记忆形式,实现高效实时生成并保持一致性 [45] - 推出了Marble的早期版本,这是全球首个可通过多模态输入生成并保持一致性3D环境的世界模型,旨在让用户探索和构建创意世界 [46] 空间智能的应用潜力 - **创造力**:工具如Marble平台将空间表达能力赋予电影人、游戏设计师等,使其能快速创造、迭代三维世界,实现多维叙事体验 [51][52][53] - **机器人**:空间智能是实现具身智能的关键,将使机器人能理解、导航并与世界交互,中期目标是完善感知与行动的闭环 [54][55][60] - **科学**:具备空间智能的系统可模拟实验、验证假设,探索从深海到外星的环境,变革气候科学、材料研究等领域的计算建模 [56] - **医疗**:AI可通过多维建模加速药物研发,辅助影像诊断,支持环境感知式监护系统,并发挥机器人在辅助医护方面的潜力 [56] - **教育**:能实现沉浸式学习,让抽象概念可感知,学生可多维探索细胞或“亲历”历史,专业人士可在仿真环境中练习技能 [57] 行业影响与未来愿景 - 空间智能模型将推动造世界的权力从专业团队扩展到个体创作者、教育者,结合VR/XR设备带来全新的沉浸与互动体验 [59] - 世界模型生成的仿真数据将极大促进机器人学习,缩小模拟与现实的差距,使其能在海量状态和环境中学习 [60] - 未来的创新将来自多样化的机器人设计(如纳米机器人、软体机器人),世界模型需对环境与机器人感知进行一体化建模 [60] - 该技术旨在增强而非取代人类,目标是让AI成为拓展人类能力、加速发现、放大关怀的力量,提升生命价值 [47][50][57][62][63]
端到端VLA剩下的论文窗口期没多久了......
自动驾驶之心· 2025-11-11 00:00
自动驾驶技术发展路线 - 技术路线从基于规则时期转变为以理想、小鹏等新势力为代表的端到端到VLA范式时期,现阶段进入以蔚来为代表的世界模型时期[1] - 深度学习始终是技术路线的核心组成部分[1] 课程核心内容与目标 - 课程涵盖从模块化量产算法到端到端、VLA的演进,核心算法包括BEV感知、视觉语言模型VLM、扩散模型、强化学习、世界模型等[5] - 学习目标为掌握端到端技术框架,深入理解BEV感知、多模态大模型等关键技术,可复现扩散模型、VLA等主流算法框架[5] - 学完全部课程后大部分学员能达到1年左右端到端自动驾驶算法工程师水平,受益于实习、校招、社招[5] 主讲导师背景 - 导师Jason拥有C9本科和QS前50 PhD学历,已发表CCF-A论文2篇及CCF-B论文若干[6] - 现任国内TOP主机厂算法专家,从事端到端、大模型、世界模型等前沿算法预研和量产,主持完成多项自动驾驶感知和端到端算法产品量产交付[6] 论文辅导服务成果 - 近3年辅导学员超过400名,中稿率高达96%[8] - 学员成功案例覆盖SCI 2区、3区期刊及CVPR、emnlp等顶会,辅导周期通常为2-4个月[9] - 服务方向包括三维重建、SLAM、点云处理、VLA、机器人导航、计算机视觉等,学员需自带简历并具备一定pytorch基础[12] 论文辅导流程 - 全流程服务涵盖选题、文献调研、idea验证、代码实现、实验设计、写作润色、投稿及中稿[11][15] - 具体步骤包括确定选题、精读文献、复现baseline、方法论讲解、代码debug、实验设计、论文写作及审稿回复等27个环节[11] - 提供精准导师匹配系统,根据学员研究方向、目标期刊、基础水平从300+导师中筛选3-5位最契合人选[18] 附加价值与服务保障 - 优秀学员可获得清北、MIT等名校推荐信,或内推至阿里达摩院、华为诺亚方舟等企业研发岗[19] - 提供基础课程供零基础学员自主学习,承诺6个月可完成一篇小论文[18] - 支持预收定金后与名师meeting,不满意可免费更换老师或退款[19]
李飞飞最新长文:AI的下一个十年——构建真正具备空间智能的机器
机器之心· 2025-11-10 23:47
文章核心观点 - 空间智能是人工智能的下一个前沿,它将彻底改变人类创造和交互现实与虚拟世界的方式,重塑叙事、创意、机器人学、科学发现等领域 [5][17] - 当前以大语言模型为代表的AI在空间智能方面与人类存在巨大差距,缺乏对物理世界的整体性理解和交互能力 [14][15] - 实现空间智能需要构建全新的“世界模型”,该模型需具备生成性、多模态性和交互性三大核心能力 [17][18][19][20] - 空间智能的应用潜力巨大,将赋能创造力、机器人技术、科学、医疗和教育等多个领域,其目标是增强而非取代人类能力 [30][38][40] 空间智能的定义与重要性 - 空间智能是人类认知的脚手架,定义了人类如何与物理世界互动,是想象力与创造力的基础 [10][13] - 人类依赖空间智能完成日常行为,如停车、接钥匙、在人群中穿行等,这种流畅性是机器尚未具备的 [10] - 在人类文明发展的关键时刻,空间智能屡次扮演核心角色,例如埃拉托色尼计算地球周长、发明珍妮纺纱机、发现DNA双螺旋结构等 [11][12] - 当前最先进的多模态AI模型在估算距离、方向、大小等任务上表现仅略高于随机水平,无法预测基本物理规律,生成的视频缺乏连贯性 [14] 构建空间智能世界模型的框架 - 世界模型是一种新型生成式模型,需在语义、物理、几何与动态等多重复杂世界中进行理解、推理、生成与交互 [17] - 核心能力一:生成性——能生成在感知、几何与物理层面保持一致的世界,对世界的理解必须与过去状态保持连贯 [18] - 核心能力二:多模态性——能处理多种形式的输入(如图像、视频、文本指令、手势等),并预测或生成完整的世界状态 [19] - 核心能力三:交互性——能根据输入的动作生成下一个世界状态,输出需与物理规律及动态行为相一致 [20] - 构建世界模型面临三大挑战:定义通用训练任务函数、获取和处理大规模多模态训练数据、开发新型模型架构与表征学习算法 [23][24][25] 空间智能的应用前景 - 在创造力领域,空间智能将改变故事创造与体验方式,例如World Labs的Marble平台使创作者能快速创建并迭代可自由探索的三维世界 [32][33] - 在机器人领域,世界模型将扩展机器人的学习能力,通过仿真训练帮助机器人理解、导航并与物理世界互动,成为人类的伙伴与协作者 [34][35][36] - 在科学、医疗与教育等长远领域,空间智能能模拟实验、加速药物发现、实现沉浸式学习,从而增强人类的专业能力与加速发现 [38][39][40] - 空间智能的应用涵盖不同时间维度,从面向创作者的工具到中期的机器人学雄心,再到长期的变革性科学应用 [30]
模型战事未了,钱已流向别处:一场百人AI公司CEO闭门会后的资本真相
36氪· 2025-11-10 10:47
投资布局与核心理念 - 锦秋基金56%的投资集中于应用层,25%押注于具身智能,10%在算力基础,另有近8%为智能硬件 [6] - 投资布局基于对智能持续提升与获取智能成本持续下降两个宏观趋势的坚定判断 [6] - 核心论断为模型是通用商品,价值会让路给产品,尤其是更懂得用户的产品是更稀缺的 [6] - 在模型尚不完美的当下,用户选择相信谁就会留下来与谁共同成长,因此“信任”将成为比技术更重要的护城河 [6] 芯片与机器人领域机遇 - 推理芯片的需求激增,Token调用量加速增长,推理芯片的窗口刚打开,同时存在芯片软件算法正向飞轮及创新技术方案的机会 [7] - 机器人各公司正在迎来ChatGPT的时刻,数据、资本与成本三大拐点同时发生,2025年全球市场融资额已达2023年的5倍 [7] - 机器人产业正处在与个人电脑发展早期相似的关键节点,缺乏一个类似Windows的中介平台让普通开发者参与构建应用 [17] 智能范式迁移与应用层发展 - AI发展正从依赖算力和数据规模的预训练,进入以强化学习和经验驱动的后训练,这一转变推动了AI在推理、编码和工具使用能力的质变 [10] - 智能商品化趋势意味着模型能力的获取将像逛超市一样货比三家,应用层公司可将重心完全聚焦于解决用户的具体问题 [10] - 对于具身智能,核心竞争力在于数据,尤其是第一人称视角视频数据以及建立真实场景的数据闭环 [10][15] 视频生成与内容创作变革 - 当前流行的文生视频、图生视频被视为过渡方案,未来的极简创作范式是“参考生视频”,允许创作者上传任意主体并通过语言指令让其持续表演,一致性可延长至5分钟 [10][11] - 在“Vidu”的调用中,60%以上来自于参考生视频,证明它正成为专业创作的主流选择 [14] - AI技术正推动内容创作从“记录现实”转向“创造想象”,实现从“交互式特效”到“可消费故事”的跨越 [18] AI公司战略与风险 - AI公司可分为“超新星”(增长快但毛利率低)和“流星”(增长稳健结构健康)两类,投资更青睐后者 [20] - 创业公司面临被基础模型公司“吸收”的结构性风险,产品若通用且技术门槛不高则被大模型吸收是必然 [20] - 创业者的最优解是找到“专业化区间”,在数据、行业知识或分发渠道上建立难以复刻的壁垒,以避免断崖式下滑 [20] 世界模型与数据价值 - 世界模型是具身智能能够进行推理和决策的“大脑”,可通过在线模拟推演获得更好决策,或作为环境模型通过离线强化学习训练智能体 [15] - 第一人称视角视频数据是指数级的宝贵资产,是训练Physical AI的关键 [15]
第八届 「GAIR 全球人工智能与机器人大会」即将启幕:穿越AI长夜,共睹群星闪耀
雷峰网· 2025-11-10 10:05
大会基本信息 - 第八届GAIR全球人工智能与机器人大会将于2025年12月12-13日举办 [2] - 大会地点为深圳南山·博林天瑞喜来登酒店 [2] 大会核心议题与焦点 - 大会将开设三个主题论坛,聚焦大模型、具身智能、算力变革、强化学习与世界模型等多个前沿议题 [3] - 将探讨强化学习的“策略优化”和世界模型的“心智模拟”等关键技术 [3] - 重点关注AI如何与物理世界深度融合、与现实共生,议题涵盖具身智能的实现 [4] 参会嘉宾与行业洞察 - 参会者包括年轻学者和已穿越多个AI周期的资深前辈,形成跨越代际的交流 [4] - 来自欧洲、美国、日本等地的顶尖学者将与中国同行共同探讨 [4] - 产业界参与者包括穿越“死亡谷”的创业者和持续校准方向的行业巨头,将分享AI商业化实践方法论 [4] 算力赛道的商业价值 - 算力被定义为万人竞逐、最早兑现价值的赛道 [4] - 大会将复盘大型算力基建在市场与政策中的发展,洞察芯片概念与资本热潮背后的逻辑 [4] - 将在激荡的Infra市场中寻找下一个值得被看见的破局者 [4] 大会历史与行业地位 - GAIR大会始于2016年,由高文院士、朱晓蕊、林军等人联合发起 [5] - 历届大会曾邀请多位图灵奖、诺贝尔奖得主,以及50位院士、30位人工智能国际顶会主席、100多位Fellow [5] - 2018年第三届GAIR成为国内首个突破5000名AI专家参会的人工智能论坛 [7]
世界模型有望带来机器人与具身智能的下一个“奇点时刻”?
机器人大讲堂· 2025-11-09 15:30
世界模型的技术内核 - 世界模型是通过对真实世界的高维认知建模,赋予智能体理解、预测和规划能力的生成式AI框架[2] - 具备空间内化特性,通过3D高斯表征、点云等技术将二维感知数据转化为三维语义空间,精准还原环境的几何结构与空间关系[3] - 具备规律内化特性,学习物理世界的基本规则如物体运动轨迹、碰撞逻辑、交通流规律等,形成可复用的知识体系[3] - 具备时序内化特性,通过长时序记忆机制整合历史数据与实时信息,实现对动态场景的连续理解与趋势预测[3] - 与VLA模型的核心差异在于绕开语言中间层,直接通过空间感知数据进行物理规律推演[6] 世界模型的发展历程 - 思想最早可追溯至1990年Richard S Sutton提出的Dyna算法,首次实现学习-规划-反应的一体化机制[7] - 2018年David Ha与Jürgen Schmidhuber发布《World Models》论文,标志世界模型正式进入深度学习阶段[7] - 2019年以来进入加速发展期,DeepMind推出MuZero算法,LeCun提出JEPA模型,形成编码器-内部世界模拟器-策略决策器的完整架构[9] - 特斯拉率先将世界模型理念融入FSD系统,通过对场景的连续建模减少对高精地图的依赖[10] - 截至2025年6月,我国智能驾驶及相关机器人领域注册企业总数已超过7000家,其中近60%的头部企业已布局世界模型技术[10] 世界模型对机器人行业的影响 - 打破数据荒的行业瓶颈,通过少量真实数据种子生成海量虚拟场景,实现训练成本指数级下降[12] - 实现训练场景的大规模可能性,将测试场景扩展至2000余种,实现从样本测试到全场景验证的跨越[13] - 赋予机器人类人决策能力,通过感知-理解-生成的闭环能力在内部世界预判未来动态[15] - 提升时空一致性,通过高精度图像渲染与多模态时空对齐技术破解仿真-现实鸿沟[15] 世界模型产业化面临的挑战 - 长时序任务处理存在记忆衰减和信息断裂问题,影响决策连贯性和安全性[16] - 仿真与现实的本质差异在物品纹理、动态一致性、多模态干扰等方面仍存在[16] - 决策逻辑呈现黑盒化特征,需要建立可解释、可追溯的决策链路和行业标准[18] 世界模型与机器人行业的未来趋势 - 与VLA、VLM等多模态技术深度耦合,实现语义、感知和决策的无缝衔接[19] - 算法与算力提升将推动形成以世界模型为核心的端到端闭环解决方案[19] - 算力架构从单一端侧算力堆叠向云端-端侧协同演进,形成高效协同的算力体系[21] - 部署在边缘端的MoE与模型蒸馏技术将成为主流,通过激活部分专家网络降低计算负荷[21] - 到2030年,全球搭载世界模型的机器人市场规模将突破3万亿元,其中智能驾驶机器人占比达到60%[22]
招募4D标注和世界模型方向的合伙人!
自动驾驶之心· 2025-11-08 16:03
文章核心观点 - 自动驾驶之心公众号正在积极拓展业务范围 从内容平台向企业培训 求职辅导和技术服务等领域延伸[2][4] - 公司面向全球招募自动驾驶领域从业者进行合作 合作方向涵盖产品经理 4D标注 世界模型等多个前沿技术领域[4][5] - 合作模式主要包括B端企业高校培训 C端学生求职辅导 课程开发和原创内容创作[4][6] 业务拓展方向 - 企业培训需求多样化 包括技术进展梳理 发布会方案解读和行业发展总结[2] - 求职辅导需求集中在简历优化和项目经验补充方面[3] - 合作领域覆盖自动驾驶产品经理 4D标注/数据闭环 世界模型 VLA 自动驾驶大模型 强化学习和端到端等方向[5] 合作模式与资源 - 合作岗位主要面向自动驾驶培训合作 B端服务企业和高校研究院所 C端服务学生和求职人群[6] - 合作形式包括课程开发和原创文章创作[6] - 公司将提供高额酬金与丰富行业资源吸引合作伙伴[5]
招募4D标注和世界模型方向的合伙人!
自动驾驶之心· 2025-11-08 12:35
公司业务拓展 - 公司正积极拓展业务范围,从原有的内容平台向企业培训和求职辅导等方向进行能力输出 [2] - 业务拓展的驱动力来自行业内越来越多的企业和个人的明确需求 [2] - 公司面向全球自动驾驶领域从业者发出合作邀请,计划在技术服务、培训、课程开发与科研辅导等多个领域展开合作 [4] 市场需求分析 - 企业端培训需求呈现多样化特征,涵盖技术进展梳理、发布会方案解读以及行业发展趋势总结 [2] - 个人用户端存在显著的求职辅导需求,求职者普遍面临简历缺乏亮点、急需项目经验补充和专业技能指导的困境 [3] 合作方向与岗位说明 - 合作聚焦于多个前沿技术方向,包括自动驾驶产品经理、4D标注/数据闭环、世界模型、VLA、自动驾驶大模型、强化学习、端到端等 [5] - 合作岗位主要涉及自动驾驶培训、课程开发及原创文章创作 [6] - 培训业务明确划分为面向企业和高校研究院所的B端市场,以及面向学生和求职者的C端市场 [6] 合作激励 - 公司为合作者提供具有吸引力的高额酬金 [5] - 合作者将有机会获得公司提供的丰富行业资源 [5]
人形机器人,如何跨越规模交付瓶颈?
财联社· 2025-11-08 05:06
行业前景与落地时间表 - 明年将是人形机器人落地的关键年 [1][2] - 工业场景将率先落地实现全自主工作 商业场景已有真正应用如导览讲解 家庭场景因标准和安全问题预计需8-10年 [2] - 未来三年有希望最先突破标准化场景如工业场景和物流分拣 [4] - 小型人形机器人在娱乐和教育领域已具备大量落地能力 走进工厂可能在五年内 [4] - 人形机器人在工业领域明年有望出现采购交付数量过万的企业 相关技术预计未来五年迈过“基本可用”门槛 [9] 当前应用场景与挑战 - 人形机器人已在一定范围内应用于表演、交互、展厅导览等场景 [1] - 无人物流车正迎来快速普及契机 可应用于前置仓、闪购仓等标准化程度高数量庞大的场景 [4] - 人形机器人大规模交付仍存在瓶颈 距离真正产业化尚有差距 [1][6] - 无人物流车大规模应用面临核心挑战是如何精准识别和处理数千甚至上万个SKU [4] - 制造企业核心挑战在于过度依赖自动化易引发刚性生产 过度依赖人工则易造成效率瓶颈与质量一致性差 [2] 技术发展趋势 - 具身智能核心点是“类人” 需要拥有感知-决策-执行整套闭环控制 [6] - 机器人产业正从基础本体制造向更细分高难度领域探索 未来将持续向上游延伸朝更精细化技术密集度更高方向发展 [1][6] - 今年趋势是手的自由度越来越高越来越灵活 [6] - 在硬件本体层面核心在于整合上下游生态资源实现灵活任务切换 在软件算法层面关键在于通过算法数据沉淀复制人类工艺经验 [9] - 世界模型和VLA模型代表两条并行互补技术路线 中短期内VLA是补充 长远看大概率走向世界模型但依赖大量数据训练 [9] 产业链与市场机遇 - 中国积累的制造优势与场景优势正转化为出海优势 机器人企业能提供具有国际竞争力的解决方案 [4][6] - 在视触觉传感器等新兴领域中国企业机遇很大 但需要提升参数性能及量产能力 能实现10万百万量级量产的企业还比较稀缺 [6] - 机器人正在大规模走进全球工厂和生活 这为中国机器人企业提供了前所未有的出海窗口期 [4]
ICCV涌现自动驾驶新范式:统一世界模型VLA,用训练闭环迈向L4
量子位· 2025-11-08 04:10
自动驾驶技术范式转变 - 行业共识自动驾驶技术进入下半场,技术范式从端到端架构转向强化学习[6][8] - 端到端架构统一技术栈释放Scaling Law潜力,但模仿学习只能达到数据平均水平难以超越人类司机[6][8] - 特斯拉和理想汽车在ICCV 2025共同展示以云端生成式世界模型为新基座的趋势[2] 理想汽车训练闭环架构 - 公司构建全球首个世界模型与强化学习闭环量产自动驾驶架构,从数据闭环迈向训练闭环[11] - 训练闭环通过环境生成和反馈迭代实现设定目标,覆盖边缘场景提升模型性能[8][11] - 世界模型系统包含环境构建、智能体构建、反馈构建和场景多推演三大能力[13] 仿真技术路径与成果 - 采用重建与生成结合的仿真路线,重建保证稳定性,生成增强泛化性[14][15][16] - 联合研发的Street Gaussians算法被ECCV 2024收录,Hierarchy UGP实现SOTA大规模动态场景重建[17][19][21] - 生成方式占比将不可逆增加,因能低成本大规模生成多样边缘场景数据[23] 合成数据与强化学习引擎 - 合成数据通过场景编辑、迁移和全场景生成使数据分布均衡,覆盖更多极端复杂案例[23] - 强化学习世界引擎包含仿真智能体、奖励模型和性能优化五大关键因素[25][31] - 仿真智能体建模多车交互行为比实现单车L4更难,公司通过目标函数和奖励函数约束智能体行为[27] 研发投入与底层技术突破 - 2023年和2024年全年研发投入连续超百亿元,2025年上半年研发投入为53亿元[33] - 自研整车操作系统理想星环OS实现软硬件解耦,芯片适配验证加快至4周内[33] - 星环OS采用跨系统架构,在120km/h时速下缩短7米刹停距离,降低几十亿元BOM成本[35][39] 开源生态与学术认可 - 星环OS开源后与16家产业链玩家组建生态联盟,帮助行业节省数亿元研发预算[36][39] - 开源数据集3DRealCar包含2500辆真实汽车,每辆车200张高分辨率RGB-D图像,被AI顶会ICCV收录[40][43] - 研究成果如DriveVLM已落地量产,形成研产闭环能力快速转化预研成果[52] 公司战略定位与竞争优势 - 公司重新定义为空间机器人企业,具备造车基本盘、VLA技术、顶会级预研和研产闭环四大优势[48][50][51][52] - 同时实现算法训练闭环、商业化闭环和研产闭环,在车企底色AI公司中与特斯拉并列领先[52][53]