Workflow
世界模型
icon
搜索文档
Meta首席AI科学家Yann LeCun被曝将离职,投身“世界模型”创业
国际金融报· 2025-11-12 12:12
公司核心管理层变动 - AI领域领军人物、首席AI科学家杨立昆计划在未来数月内离职并创办AI初创公司[1] - 此前"PyTorch之父"Soumith Chintala已宣布将于11月17日离开Meta[1] - 公司聘请28岁的亚历山大·王领导全新的"超级智能实验室"[1] 公司AI战略调整 - 公司从长期基础研究转向更追求产品快速落地的实用主义路线[1] - 新战略要求FAIR实验室更多地服务于公司产品,减少可能帮助竞争对手的对外研究发表[2] - 公司正将全部资源押注在能够快速提升产品体验的大语言模型上[3] 公司组织架构与资源投入 - 公司于夏季斥资143亿美元聘请亚历山大·王,并收购其创立的Scale AI公司49%的股份[1] - 公司亲自组建TBD Lab,开出高达1亿美元的薪酬从竞争对手处招募人才,包括ChatGPT核心研究员赵晟佳[2] - 今年10月公司启动涉及约600人的内部裁员,FAIR实验室成为"重灾区",而TBD Lab未受影响[3] 技术路线分歧 - 杨立昆认为大语言模型虽然有用,但永远无法像人类一样推理和规划,无法通往AGI[3] - 杨立昆主张AI的终局是能理解物理世界的"世界模型",并预测其将在3-5年内成为主流[3] - 杨立昆的创业计划将持续聚焦"世界模型"研究[4] 行业竞争格局 - 公司面临OpenAI和谷歌等科技巨头的外部竞争[1] - 谷歌DeepMind以及英伟达也在积极布局"世界模型"领域[4] - 斯坦福大学李飞飞已为其初创公司World Labs筹集约2.3亿美元,致力于赋予AI"空间智能"[4]
李飞飞揭大模型“死穴”:不会空间智能,再能聊也是纸上谈兵
36氪· 2025-11-12 11:47
当前AI的局限与空间智能的定义 - 当前人工智能被困在由文本和二维图像构成的“扁平世界”里,与立体的、受物理规律支配的现实世界严重脱节[1] - 空间智能被视为打破认知隔膜的关键,是AI从“对话工具”蜕变为“行动伙伴”的转折点,代表了人工智能演进的下一个前沿[1] - 当前AI在自主机器人发展、科学研究效率革命以及创意赋能方面缺乏深度理解,其根本原因在于缺乏人类与生俱来的空间智能[2] - 空间智能是人类通过“感知-行动”循环与物理世界互动的根本能力,驱动日常行为、非语言沟通、想象力与创造力,是文明重大突破的基石[4] 当前AI空间能力的不足 - 尽管多模态大型语言模型具备基础空间感知能力,最先进机器人能在受限环境中操控物体,但AI的空间能力仍远未达到人类水平[5] - 最先进的多模态大型语言模型在估算距离、方位、尺寸及“心理旋转”等任务上表现几乎与随机猜测无异,无法走出迷宫、识别捷径或预测基本物理规律[5] - AI生成的视频往往在几秒后失去连贯性,模型对世界的理解是表面与割裂的,缺乏人类整体性、关联性和基于直觉的认知[5] - 缺乏空间智能导致AI无法有效驾驶汽车、操控机器人、提供沉浸式互动体验,也无法加速材料科学与医学领域的探索进程[5] 下一代AI与世界模型的技术路径 - 构建具有空间智能的人工智能需要转向发展“世界模型”,其核心是能理解、推理并生成在语义、几何、物理和动态规则上都保持一致的复杂世界[8] - 世界模型需具备三种基本能力:生成式能力以创造感知、几何和物理动态一致的模拟世界;多模态能力以处理图像、视频、文本、动作;交互式能力以根据动作预测世界下一个状态[10] - 构建世界模型面临远超语言模型的挑战,因为“世界”遵循的规则更复杂,其表征的维度与复杂性远非一维序列信号可比[10] - World Labs致力于取得根本性进展,包括定义新的通用训练目标函数、破解大规模训练数据难题以及开发新的模型与表征架构[12] 空间智能的应用前景与产业影响 - 空间智能的应用将分阶段深化:短期赋能创意工具如World Labs的Marble平台,变革电影、游戏、建筑及工业设计等领域的故事讲述与空间叙事方式[15] - 中期而言,机器人技术是空间智能具身化的核心实践,世界模型通过生成高保真度模拟数据能极大扩展机器人学习的边界,实现可泛化的理解、推理与交互能力[15] - 长期看,空间智能将辐射至科学、医疗保健与教育等领域,模拟实验、辅助诊断、创造沉浸式学习体验,加速人类发现[18] - 空间智能将重构人机关系,使AI从依赖屏幕与文本的“工具”转变为能感知上下文、理解意图并主动协作的“场景伙伴”[20] 产业生态的演进与投资视角 - 高德地图董事长刘振飞指出,空间智能将如云计算一样,成为360行与物理世界交互的标配基础设施,推动AI从对话工具蜕变为行动伙伴[20] - 群核科技联合创始人黄晓煌将空间智能视为继大语言模型之后至关重要的新领域,是机器从自动化迈向“具身智能”的必经之路,并预言未来机器人数量可能达到700亿台[21] - 英诺创新空间创始合伙人邓永强提出“AI新大陆”概念,将空间智能提升至文明演进高度,预判2025年将成为相关技术规模化落地的关键元年[22] - 空间智能是涵盖三维环境感知与重建、定位与姿态估计、空间关系理解等复杂技术体系,其发展需要技术、伦理与商业的协同进化[24][25]
雷军挖来前DeepSeek大将,大模型团队40人合影曝光,疑进军具身智能
36氪· 2025-11-12 08:31
罗福莉加盟小米事件 - 原DeepSeek核心成员罗福莉官宣加盟小米Xiaomi MiMo团队,宣告全力奔赴AGI [1] - 罗福莉朋友圈配图包括40人同框,并提及“智能终将从语言迈向物理世界”,暗示其主攻方向为“世界模型”与“具身智能” [1] - 罗福莉曾参与DeepSeek-V2研发,此前在阿里巴巴达摩院主导开发多语言预训练模型VECO并推动AliceMind开源 [4] 罗福莉背景与加盟过程 - 罗福莉为95后,本科就读于北京师范大学计算机专业,硕士毕业于北京大学计算语言学研究所 [4] - 去年年底被曝获小米千万年薪挖角,今年10月14日小米与北京大学联合署名的论文中罗福莉以通讯作者身份出现 [6] - 今日朋友圈官宣坐实加盟传闻 [6] 小米Xiaomi MiMo团队与技术进展 - Xiaomi MiMo是小米开源的首个推理大模型,于今年4月推出,仅用7B参数规模在数学推理和代码竞赛测评集上超越OpenAI o1-mini和QwQ-32B-Preview [7] - 小米持续扩充MiMo生态:5月开源多模态大模型Xiaomi MiMo-VL,9月19日开源首个原生端到端语音模型Xiaomi-MiMo-Audio [7] - 多模态融合是世界模型基础,MiMo已实现跨模态信息整合,技术报告显示MiMo-Audio通过ICL实现少样本泛化,预训练阶段出现“涌现” [7] 小米在机器人及具身智能领域布局 - 小米旗下资本于11月7日向北京具身创企深朴智能进行种子轮融资2亿元 [8] - 自2014年投资石头科技起,截至今年9月底,雷军及小米旗下资本在机器人领域已累计投资近30家相关企业 [8] - 投资企业涵盖人形机器人、核心零部件、工业机器人、服务机器人等多个细分领域,包括宇树、九号等明星创企 [9][10] - 近年小米未推出自主研发的机器人新品 [8]
Meta首席AI科学家LeCun被曝将离职创业,与扎克伯格“超智能”路线理念分歧
硬AI· 2025-11-12 05:00
公司AI战略重塑 - 公司决定加速AI产品迭代,减少长期基础研究投入,源于其Llama 4模型表现不及竞争对手[2][6] - 公司进行重大人事重组,图灵奖得主Yann LeCun计划在未来数月离开,凸显其与公司在AI发展路径上的根本分歧[3] - 公司首席人工智能科学家Yann LeCun主张开发全新一代AI系统“世界模型”,认为当前以大语言模型为核心的AI路线永远无法实现人类级智能[3][5] 战略路径根本分歧 - Yann LeCun长期专注于基础性AI研究,主张开发通过视频和空间数据理解物理世界的“世界模型”系统[5] - 公司当前战略以LLM为核心,强调快速产品化和组建“超智能”团队,与LeCun的研究主张明显不符[5][6] - LeCun离职后将创立自己的初创公司,专注于推进其在世界模型方面的工作,并已开始为新项目筹集资金[9] 人事变动与资源投入 - 公司今年夏天斥资143亿美元聘请28岁的Alexandr Wang领导新的“超智能”团队,并收购其数据标注初创公司Scale AI 49%的股权[7] - 公司AI研究副总裁Joelle Pineau已离职,AI研究部门裁员约600人,反映出AI战略的急剧转型[11] - 公司以数亿美元年薪吸引新一代AI领军人物,并从OpenAI和Google等竞争对手挖来人才,组建专属团队TBD Lab[8][11] 竞争压力与转型背景 - 公司面临来自华尔街的日益增长的压力,需要证明其在成为“AI领导者”方面的数十亿美元投资将获得回报并推动收入增长[11] - 公司的Llama 4模型表现不及OpenAI和Anthropic,市场反响平淡,促使战略调整[3][6] - 人事动荡与高薪引才并存,反映出公司在AI竞争压力下向产品化快速转型的决心[11]
华为投资物理 AI:首家国产世界模型公司“极佳视界”新一轮融资
搜狐财经· 2025-11-12 04:35
融资动态 - 极佳视界完成新一轮亿元级A1轮融资,投资方包括某知名产业方和华控基金 [1] - 此前在8月底,公司已完成Pre-A及Pre-A+连续两轮数亿元人民币融资 [1] - 本轮融资的“某知名产业方”为华为哈勃 [1] 公司业务与技术 - 极佳视界是一家成立于2023年的物理AI公司,专注于世界模型驱动的物理世界通用智能 [3] - 公司产品线包括世界模型平台GigaWorld、具身基础模型GigaBrain、通用具身本体Maker等全栈软硬件产品 [3] - 公司宣称是国内第一家专注“世界模型”的科技公司 [3] - 世界模型是用于模拟环境动态并预测未来状态的人工智能核心技术框架 [3] 行业趋势与战略 - 世界模型技术有望成为具身智能、自动驾驶等物理AI方向的主导路线 [3] - 华为智能汽车解决方案BU CEO靳玉志曾表示,华为更看重能实现真正自动驾驶的WA路径,而非VLA路径 [3] - WA路径省掉Language环节,直接通过视觉等信息输入控车 [3]
华为刚投的物理AI:首家国产世界模型公司
量子位· 2025-11-12 04:08
华为投资动态 - 华为哈勃与华控基金联合投资物理AI公司极佳视界 完成亿元级A1轮融资[2] - 这是极佳视界两个月内连续完成的第三轮融资 也是华为哈勃首次投资主业定位为"世界模型"的公司[2][28] 极佳视界公司概况 - 公司成立于2023年 是国内第一家"纯血"物理AI公司 创业目标为世界模型[4] - 产品覆盖自动驾驶世界模型 具身基础模型到世界模型平台的全栈软硬件[4] - 应用落地领域包括自动驾驶和具身智能 与华为押注方向一致[4] 技术产品进展 - 2024年发布国内首个支持原生16秒超长时长视频生成模型"视界一粟YiSu"[5] - 2023年推出全球首个真实世界驱动的自动驾驶世界模型DriveDreamer[9] - 2024年DriveDreamer升级4D版本 联合多家研究机构实现4D驾驶场景重建效果增强[11] - DriveDreamer系列为自动驾驶和具身智能提供数据生成和闭环仿真解决方案 已签约多家头部主机厂 服务客户几十余家[12] 核心团队背景 - 创始人兼CEO黄冠为清华大学自动化系AI方向博士 拥有微软 三星 地平线等公司算法经历及连续创业经验[9] - 联合创始人兼首席科学家朱政论文被引数达1 7万+ h-index为50 其代表作SiamRPN和DaSiamRPN是深度学习时代最具影响力目标跟踪算法[15][16] - 另一位联合创始人孙韶言曾任阿里云总监 地平线数据闭环产品线总经理[17] - 合伙人兼工程副总裁毛继明曾任百度 嬴彻架构师 曾担任百度Apollo仿真技术负责人[18] 华为技术布局 - 华为在自动驾驶领域偏好世界模型而非VLA路径 强调从视觉直接到决策的端到端方式[21] - 华为智能汽车解决方案BU CEO靳玉志表示更看重WA路径 省掉Language环节直接通过视觉信息输入控车[22] - 华为与高校合作的世界模型研究还扩展到更大范围 如联合推出的WorldGrow可单卡30分钟生成272㎡室内场景[26] - 结合此前对具身智能公司千寻智能的投资 华为在空间智能和世界模型上的布局正在连点成线[28]
李飞飞万字长文爆了!定义AI下一个十年
创业邦· 2025-11-12 03:08
文章核心观点 - 空间智能是人工智能的下一个前沿领域,其核心是构建能够理解、推理并与复杂物理世界互动的“世界模型” [8][16][26] - 世界模型需具备生成式、多模态和互动性三大核心能力,以解锁超越当前大语言模型的机器空间智能 [27][29][30] - 空间智能的应用将重塑创意产业、机器人技术和科学研究,其发展需要整个AI生态系统的集体努力 [38][44][48] 空间智能的定义与重要性 - 空间智能是人类认知的基石,使我们能够通过感知与行动的循环来理解和互动物理世界 [18][21] - 该能力驱动着从日常活动(如停车)到专业领域(如科学发现)的推理与规划 [18][21] - 当前AI在空间任务上表现不佳,例如估算距离或心理旋转物体,其能力远未达到人类水平 [22] 构建世界模型的技术框架 - 世界模型必须能生成遵循物理定律且在几何和动态上保持一致的世界 [27] - 模型需处理多模态输入,如图像、视频、文本指令和动作,并预测完整的世界状态 [29] - 当给定动作或目标时,模型应能输出与之协调的世界下一个状态 [30] - 技术挑战包括定义新的通用训练任务函数、利用互联网规模的数据以及开发新的模型架构 [32][33][34] 当前进展与案例 - World Labs已开发出名为Marble的平台,能通过多模态提示生成并维持一致的三维环境 [37][40] - 该平台展示了实时生成性帧基模型等创新架构,旨在实现高效生成和空间持久性 [35][37] 应用领域与前景 创意产业 - 空间智能将变革故事叙述和设计,使创作者能快速构建可探索的三维世界,不受预算或地理限制 [40][42] - 应用包括为电影、游戏、建筑和工业设计提供新的叙事维度和沉浸式体验 [42][43] 机器人技术 - 世界模型将通过模拟数据弥合训练差距,规模化机器人学习,以理解、导航和互动物理世界 [44] - 未来机器人可作为人类协作者,在实验室或家庭等场景中扩展劳动力,但需与人类目标对齐 [45] 科学、医疗与教育 - 在科学研究中,空间智能可模拟实验、测试假设并探索人类无法触及的环境 [48] - 医疗健康领域有望通过分子相互作用建模和医学影像分析加速药物发现与诊断 [48] - 教育将受益于沉浸式学习体验,使抽象概念触手可及,并支持安全的技能练习 [49]
李飞飞聊AI下一个十年:构建真正的空间智能
自动驾驶之心· 2025-11-12 00:04
文章核心观点 - 空间智能是人工智能的下一个前沿,旨在构建能够理解和交互物理及虚拟世界的“世界模型”,这将重塑创造力、机器人技术和科学发现等领域[5][16] - 当前以大语言模型为代表的AI在抽象知识处理上表现出色,但在空间理解、物理推理和与环境交互方面存在根本性局限,与人类能力相距甚远[5][14][15] - 实现空间智能需要构建具备生成性、多模态性和交互性的世界模型,这是一项超越以往AI挑战的复杂任务,需要新的训练方法、大规模数据和模型架构[17][21][22] 空间智能的定义与重要性 - 空间智能是人类认知的基石,支撑着从日常行为(如停车、接钥匙)到专业活动(如消防员救援、科学发现)的物理世界互动[10][13] - 该能力是人类想象力和创造力的基础,从史前洞穴壁画到现代电影、游戏和工业设计,都依赖于基于空间的想象力[10] - 在人类文明进程中,空间智能在关键科学发现(如埃拉托色尼计算地球周长、沃森和克里克发现DNA双螺旋结构)中扮演了核心角色[11][12] 当前AI在空间智能方面的局限 - 最先进的多模态模型在估算距离、方向、大小等基本空间任务上表现仅略高于随机水平,在“心智旋转”测试中能力极为有限[14] - AI生成的视频虽令人惊叹,但往往在数秒后便失去连贯性,无法预测基本物理规律,也无法识别捷径或穿越迷宫[14] - 当前AI对世界的理解是割裂的,缺乏人类那种将事物在空间上的关系、意义及彼此关联进行整体性理解的能力[15] 构建空间智能世界模型的核心框架 - **生成性**:模型需能生成在语义、几何和物理层面保持一致的虚拟世界,并且对当前世界的理解必须与过去状态保持连贯[18] - **多模态性**:模型应能处理图像、视频、深度图、文本指令、手势、动作等多种形式的输入,并预测或生成完整的世界状态[19] - **交互性**:当动作或目标成为输入时,模型需能生成与先前世界状态、物理规律相一致的下一个世界状态,甚至预测实现目标所需的后续行动[20] 实现世界模型的技术挑战与研究方向 - **新的通用训练任务函数**:需要定义能反映几何与物理规律的通用目标函数,其复杂程度远超语言模型中的“下一token预测”[23] - **大规模训练数据**:需研发能从互联网海量二维图像或视频帧中提取深层空间信息的算法,并利用合成数据及深度、触觉等额外模态[24] - **新型模型架构与表征学习**:需突破现有MLLM与视频扩散模型范式,探索具备三维或四维感知能力的分词、上下文和记忆机制[25] 空间智能的潜在应用与影响 - **创造力与叙事**:工具如World Labs的Marble平台正赋能电影制作人、游戏设计师和建筑师快速创建可自由探索的三维世界,颠覆传统创作流程[32][33] - **机器人技术**:世界模型将通过提供可扩展的训练数据解决方案,缩小模拟与现实差距,加速具备泛化能力的机器人的发展[35][36] - **科学、医疗与教育**:空间智能系统能模拟实验、加速药物发现、实现沉浸式学习,在拯救生命和加速科学发现方面具有深远影响[38][39][40]
Meta首席AI科学家LeCun被曝将离职创业,与扎克伯格“超智能”路线理念分歧
华尔街见闻· 2025-11-11 12:46
公司核心人事变动 - Meta首席人工智能科学家Yann LeCun计划在未来数月内离职并创立自己的初创公司 [1] - 此次离职凸显了其与扎克伯格在AI发展路径上的根本分歧 [1] - 2024年以来Meta高管层持续动荡,AI研究副总裁Joelle Pineau已离职,AI研究部门裁员约600人 [4] 公司AI战略分歧 - LeCun主张开发全新一代AI系统“世界模型”,认为当前以大语言模型为核心的AI路线永远无法实现人类级推理和规划 [1][2] - 扎克伯格则强调快速产品化和“超智能”团队战略,在Llama 4模型表现不佳后决定加速AI产品迭代并减少长期基础研究投入 [2] - 战略重组导致LeCun的汇报关系发生变化,从向首席产品官Chris Cox汇报改为向新任“超智能”团队领导Alexandr Wang汇报 [2] 公司战略转型与资源投入 - 扎克伯格斥资143亿美元聘请28岁的Alexandr Wang领导新的“超智能”团队,并收购其数据标注初创公司Scale AI 49%的股权 [2] - 公司组建名为TBD Lab的专属团队,以1亿美元的薪酬包从OpenAI和Google等竞争对手挖来人才,负责推进大语言模型的下一代开发 [2] - 公司以数亿美元年薪吸引新一代AI领军人物,包括OpenAI ChatGPT联合创作者Shengjia Zhao,后者已担任Meta“超智能实验室”首席科学家 [4] 公司面临的竞争与财务压力 - Meta在AI竞争中面临压力,其Llama 4模型表现不及OpenAI和Anthropic [1] - Meta AI聊天机器人市场反响平淡 [2] - 扎克伯格面临来自华尔街的日益增长的压力,需要证明其在成为“AI领导者”方面的数十亿美元投资将获得回报并推动收入增长 [4]
AI教母李飞飞:空间智能才是走向AGI的唯一路径
虎嗅APP· 2025-11-11 10:52
文章核心观点 - 当前大语言模型存在根本性局限,被描述为“能言善辩却缺乏经验,知识渊博却脱离现实”的“睁眼瞎”,无法真正理解物理世界[4][7][28] - AI发展的下一步关键方向是赋予机器“空间智能”,即理解和交互物理世界的能力,这被视为通往通用人工智能(AGI)的唯一路径[4][17][28] - 空间智能的载体是全新的“世界模型”,其具备生成性、多模态和交互性三大核心能力,将取代以语言模型为中心的发展路线[17][18][38] AI当前局限与空间智能定义 - 大语言模型在需要物理世界理解的简单任务上表现不佳,例如无法准确回答杯子旋转90度后的样子或预测物体运动轨迹[5][8][36] - AI生成内容(如视频)经常出现违背物理定律的“穿帮”镜头,例如人物多出手指或物体穿墙而过,暴露了其缺乏对物理规律的基本认知[6][36] - 空间智能是人类与生俱来的基础认知能力,是想象力和创造力的“脚手架”,使人类能够进行侧方停车、接住抛来的钥匙、在黑暗中倒水等日常活动[12][14][32][34] - 人类历史上的重大科学发现和发明创造,如埃拉托斯特尼计算地球周长、沃森和克里克发现DNA双螺旋结构,都深刻依赖于空间智能[21][34] 世界模型的核心特征与技术挑战 - 世界模型必须同时具备三种基本能力:生成性(创造符合物理和几何规律的3D世界)、多模态(处理文本、图像、视频、深度信息、手势等多种输入)、交互性(预测动作指令下的世界状态变化)[18][22][39][40][41] - 构建世界模型的技术挑战远超语言模型,因为世界是四维(三维空间+时间)且受无数复杂物理定律约束,而语言只是一维的序列化信号[18][42] - 关键技术障碍包括:定义能同时反映几何和物理定律的通用训练任务函数、从海量互联网图像和视频等二维数据中提取深层空间信息、开发全新的三维或四维模型架构[44][45][46] 空间智能的应用前景与行业影响 - 在创意产业,World Labs的Marble模型将赋能电影制作人、游戏设计师和建筑师,通过自然语言提示词快速创建和迭代可交互的3D世界,大幅降低专业3D软件的使用门槛[23][49] - 在机器人技术领域,世界模型能通过模拟环境为机器人提供海量训练数据,使其掌握成千上万种实用技能,从而成为家庭、医院等场景中得力的助手和看护[23][52] - 在科学研究中,空间智能系统可模拟人类无法亲临的环境(如深海、外太空),并行测试假设,加速在材料科学、气候科学和医学等领域的发现进程[27][56] - 在教育领域,学生可通过沉浸式体验“走进”古罗马街道或细胞内部,教师能利用互动环境进行个性化教学,专业人士可在高度逼真的仿真环境中练习复杂技能[27][56]