世界模型

搜索文档
烧钱一年,李飞飞的「空间智能」愿景有变化吗?
机器之心· 2025-06-13 12:02
创业一年后 World Labs 的愿景 - World Labs 在成立一年内完成两轮融资累计募资2 3亿美元 估值突破10亿美元 成为AI领域独角兽企业 [5] - 公司已发布「世界生成」模型和Forge渲染器等技术成果 其中「世界生成」技术仅需单张图片即可生成可交互3D物理世界 [5][6] - 空间智能被定位为理解重建生成物理世界的核心能力 超越语言模型局限 目标构建可创造无限虚拟宇宙的AI系统 [5][6] - 技术路径依赖跨学科整合(AI+计算机图形学) 当前算力数据工程能力提升使「世界模型」攻关具备可行性 [7] 空间智能对AI完整性的意义 - 语言模型存在三维物理世界描述的天然缺陷 空间智能作为更古老的智能形式可弥补这一关键缺口 [6][8] - 公司技术路线选择与主流LLM分野 专注让AI理解3D物理世界运作方式 涉及机器人设计社交等多领域应用 [5][8] - 空间智能被视为智能的核心组件之一 其突破将推动AI从单一现实向多元宇宙演进 [5][6] 空间智能与多元宇宙愿景 - 「多元宇宙」指通过AI创造无限虚拟宇宙 需依赖3D物理世界的理解与生成能力 [4][6] - 技术反直觉发展体现在:早期忽视3D表征 现通过数据驱动方法实现空间智能突破 [4][7] - Forge渲染器支持Web端实时渲染AI生成3D场景 标志技术落地取得实质性进展 [7] 世界模型的发展现状 - 前置技术如算力提升数据积累工程优化为世界模型创造发展时机 [7] - 公司方法论借鉴LLM的数据驱动和神经网络经验 但强调需结合计算机图形学等跨学科知识 [7] - 下一步重点攻关方向包括3D物理世界的理解重建及生成技术的场景化应用 [4][7]
凭借RCE和AI两把利器,广汽丰田开启中国自研2.0时代
中国汽车报网· 2025-06-13 02:47
战略规划与目标 - 公司计划到2030年实现智能电动汽车产销量占比达到80%的技术发展规划 [1] - 2024-2026年为转型期,2027-2030年转入反攻期,目标是打造两大新能源专属平台并构建全新电子电气架构 [9] - 挑战2030年新能源占比达到80%的目标,并推出中小型车和中大型车两大新能源平台 [9] 研发与创新 - 现地首席工程师(RCE)制度由中方工程师主导研发,继承丰田QDR基因,涵盖全新车型、改款车型和换代车型 [2] - 丰田总部已将广汽丰田智能电动产品的开发决策权从日本移交中国,RCE将主导包括赛那、汉兰达和凯美瑞的换代研发 [2] - 公司全面开启中国自研2.0时代,深化商品定义权,由中国工程师主导研发全流程 [5] - 研发方面运用AI分析用户需求,精准把握目标用户定位、机会市场识别等 [13] 产品与技术 - 中小型车新能源平台覆盖5米以内的A级和B级新能源车,具备A级车定位、B级车尺寸、C级车舒适空间的特征,铂智3X是该平台首款车 [9] - 中大型车高兼容性平台覆盖5.3米以内的C级和D级新能源车,支持BEV、PHEV、REEV等多种能源形态,铂智7为首款车,明年第一季度上市 [9] - Momenta全场景自动驾驶辅助系统在铂智3X上首次搭载,后续车型将陆续搭载,并与小马智行共同研发L4级Robotaxi [10] - 2026-2027年将研发基于"世界模型"的自动驾驶辅助系统,学习效率提升1000倍,应对复杂场景能力大幅提升 [10] - 铂智7将搭载"驾舱融合式架构",实现智能座舱和自动驾驶辅助系统双向协同,提升车辆感知与响应能力 [12] 供应链与合作 - 华为、Momenta、速腾聚创、雅马哈、汇川联合动力等国内外一流供应商展示先进产品,华为、Momenta和小米代表登台讲述技术生态 [8] 生产与制造 - AI赋能制造,供应链部品纳入不良率降至0.26PPM,为史上最低 [16] - 超声波在线无损检测准确率提升10%,AI车身精度激光在线计测精度达0.01毫米 [16] - 量产车型整车全检不良率降至0.008件/辆,AI让丰田生产方式更加精益 [16] - AI赋能智慧物流,拥有40多项专利,整合63个平台系统,实现零库存 [16]
AGI真方向?谷歌证明:智能体在自研世界模型,世界模型is all You Need
机器之心· 2025-06-13 02:32
通用人工智能与世界模型 - 谷歌DeepMind研究证明,能够处理复杂长期任务的AI智能体必须学习内部世界模型,且该模型可从智能体行为中提取[3][4][5] - 世界模型是实现多步骤目标导向行为的必要要素,提升智能体性能需学习更精确的世界模型[5][20][34] - 实验显示智能体处理目标深度(n)增加时,提取的世界模型误差按O(δ/√n)+O(1/n)比例下降[32][33][34] 理论框架构建 - 研究基于四要素构建数学框架:环境(20状态5动作cMP)、目标(LTL逻辑表达)、智能体(有界目标条件策略)、世界模型(预测环境转移函数)[24][25][27][28] - 有界智能体定义为在最大目标深度n下失败率δ≤1的策略,其最优策略可最大化目标实现概率[28][29] - 世界模型精度与智能体能力正相关,当δ→0且n≫1时模型误差趋近于0[31][33][34] 算法与实验验证 - 开发Algorithm 1算法通过查询智能体复合目标行为来估计状态转移概率Pss'(a),精度参数n与目标深度2n+1相关[37][38] - 在20状态5动作稀疏转移环境中测试,即使δ=1的最坏情况下仍能恢复准确世界模型,平均误差随目标深度增加而降低[40][46] - 算法填补了"策略+目标→世界模型"的三角关系,区别于传统规划(模型+目标→策略)和IRL(模型+策略→目标)[41][43] 行业技术关联 - 研究支持Ilya Sutskever观点:大语言模型本质是学习世界模型压缩表征,预测准确度反映模型保真度[16][17][19] - Genie 2基础世界模型可通过单图像生成无限3D环境,为智能体提供经验流训练,标志从人类数据时代向经验时代转变[50][51][52] - 领域泛化需比任务泛化更深层因果理解,适应分布变化的智能体必须学习因果世界模型[45][47]
LeCun亲自官宣!Meta世界模型V-JEPA 2登场!仅用62小时机器人数据,就能实现零样本控制!
AI科技大本营· 2025-06-12 10:48
Meta发布V-JEPA 2世界模型 - 公司重磅发布V-JEPA 2(Video Joint Embedding Predictive Architecture 2)世界模型,旨在赋予机器更深层次的物理世界理解、预测及交互能力,向构建通用AI智能体迈出关键一步[1][3] - 该模型基于联合嵌入预测架构(JEPA)构建,由编码器和预测器两大组件组成,编码器捕捉视频输入的关键语义信息,预测器生成预测嵌入结果[11] - 模型在Hugging Face物理推理能力排行榜上位列第一,超过GPT-4o,在IntPhys 2、MVPBench、CausalVQA三个基准测试中分别达到56.4%、44.5%、38.99%的准确率[6][7] 技术架构与训练方法 - 训练分为两阶段:第一阶段使用超过100万小时视频和100万张图像进行无动作预训练,学习物体、人与环境的交互逻辑[9] - 第二阶段仅用62小时机器人数据进行动作条件训练,使模型具备可控性,在新物体拾取与放置任务中达成65%-80%的成功率[14][17] - 采用零样本迁移能力验证,在开源DROID数据集训练后直接部署实验室机器人,无需场景微调[15] 性能表现与行业影响 - 在Something-Something v2动作识别任务和Epic-Kitchens-100动作预测任务中创造SOTA纪录,与语言模型结合后在视频问答基准任务上实现领先性能[12] - 公司开放模型代码与权重检查点供研究及商业用途,推动开源社区生态建设[8] - 发布IntPhys 2、MVPBench、CausalVQA三项物理理解基准测试,当前模型准确率较人类85%-95%的水平仍有显著差距[23][24] 未来发展方向 - 当前模型局限在于单一时间尺度预测,下一步将开发分层式世界模型实现跨时空复杂规划[29] - 计划推进多模态建模能力,融合视觉、听觉、触觉等感知信息提升世界理解水平[30] - 该技术代表公司在高级机器智能(AMI)和物理世界AI智能体开发的重要进展[27]
杨立昆的“反ChatGPT”实验,能救Meta吗?
第一财经· 2025-06-12 09:20
Meta的AI双线战略 - 公司采取双线并进策略应对AI竞争,一方面推进杨立昆主导的"世界模型"V-JEPA 2,另一方面由扎克伯格组建"超级智能"团队押注主流LLM路线 [1][12] - Llama 4发布后表现不佳导致公司在开源大模型领域落后于GPT/o系列、Gemini和Claude,同时面临中国DeepSeek和Qwen的竞争压力 [10] - 公司2025年资本开支指引上调至640-720亿美元,重点增加数据中心和基础设施投资以支持AI发展 [12] 世界模型技术路线 - V-JEPA 2采用联合嵌入预测架构(JEPA),放弃主流Transformer架构,拥有12亿参数,训练使用超过100万小时视频和100万张图像 [4][6] - 该模型比英伟达Cosmos快30倍,专注于物理世界交互能力,使AI能预测行为后果并规划行动方案 [6] - 杨立昆认为自回归LLM存在事实错误、逻辑缺陷等问题,世界模型能提供更接近人类直觉的物理世界理解能力 [4][5] 超级智能团队布局 - 扎克伯格亲自组建约50人顶尖AI团队,提供数千万美元薪酬方案,目标成为AGI领域领导者 [11] - 已招募谷歌DeepMind首席研究员Jack Rae和Sesame AI机器学习负责人Johan Schalkwyk,二人曾参与Gemini项目 [11] - 公司投资数十亿美元(传闻150亿)于数据标注公司Scale AI,其CEO将加入Meta团队,Scale AI当前估值超百亿美元 [12] 战略资源投入 - 公司广告业务现金流可支撑AI巨额投入,计划建设世界顶级算力数据中心 [12] - 杨立昆作为图灵奖得主坚持非主流路线20年,认为自回归预测彻底失败,但当前仍面临内外压力 [7][10] - 扎克伯格回归"创始人模式",认为公司有能力和责任率先实现AGI [2]
Meta发布世界模型,被群嘲的开源旧王要反击了
虎嗅· 2025-06-12 08:29
Meta的AI战略布局 - 公司坚定All In AI战略 在Llama 4受挫后仍持续加码投入[1] - 创始人扎克伯格亲自组建"超级智能"团队 并以9位数重金挖角Google和OpenAI顶级科学家[2] - 公司近期开源重量级模型V-JEPA 2 聚焦物理世界理解与行动能力[3] V-JEPA 2技术特性 - 模型拥有12亿参数 采用联合嵌入预测架构(JEPA) 通过预测抽象表示而非生成内容来理解物理世界[10][12] - 区别于传统LLM 模型强调构建"世界常识" 能预测物体运动轨迹等物理规律[13][15] - 训练分为两阶段:第一阶段使用100万小时视频+100万张图像自监督训练 第二阶段加入62小时机器人数据实现动作规划[16][20] 模型性能表现 - 在DROID数据集上实现零样本机器人规划 多步操作任务成功率65%-80%[21][23] - 在Something-Something v2动作识别和Epic-Kitchens-100动作预测任务中刷新纪录[29] - 联合语言模型后在Perception Test和TempCompass视频问答基准表现领先[29] 创新评估体系 - 推出IntPhys 2基准 通过生成违反物理规律的视频测试模型常识理解[25][27] - 设计MVPBench双胞胎视频测试 要求模型识别最小化细节差异以杜绝投机行为[30][33] - 开发CausalVQA测试集 专门评估反事实推理 事件预判和行动规划能力[34][37][38] 未来发展方向 - 计划开发多时间尺度分层JEPA模型 支持洗碗 烘焙等复杂分步任务[40] - 将拓展多模态JEPA模型 整合视觉 听觉和触觉等多维感知数据[41] - 目标构建具备更强感知与规划能力的高级机器智能系统[39][42]
LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代
量子位· 2025-06-12 08:17
核心观点 - Meta开源发布V-JEPA 2世界模型,该模型能够像人类一样理解物理世界,并具备预测和规划能力[1][4][6] - V-JEPA 2采用自监督学习框架,利用超过100万小时互联网视频和100万图片进行预训练,不依赖语言监督[10][12] - 该模型在运动理解和人类动作预测方面表现优异,在Something-Something v2上达到77.3的top-1准确率,在Epic-Kitchens-100上达到39.7的recall-at-5[23] - V-JEPA 2在新环境中拾取并放置新物体的成功率达到65%-80%[29] - Meta发布了三个新的基准测试(IntPhys 2、MVPBench、CausalVQA)用于评估模型从视频中理解和推理物理世界的能力[31][32][37][41] 模型能力 - 理解能力:能够识别视频中物体、动作和运动等事物[7] - 预测能力:能够预测世界演变以及智能体采取行动后世界的变化[7] - 规划能力:基于预测能力,能够规划实现给定目标的行动序列[7] - 零样本规划:能够在新环境中进行零样本规划和机器人控制[6] 技术架构 - 采用联合嵌入预测架构(JEPA),包含编码器和预测器两个组件[14] - 编码器接收原始视频并输出捕捉世界状态语义信息的嵌入[15] - 预测器接收视频嵌入和额外上下文,输出预测的嵌入[16] - 训练分为两个阶段:无动作预训练和额外的动作条件训练[21] 性能表现 - 在Something-Something v2数据集上达到77.3的top-1准确率[23] - 在Epic-Kitchens-100数据集上达到39.7的recall-at-5[23] - 与大型语言模型对齐后,在8B参数规模下多个视频问答任务中展示当前最佳性能(PerceptionTest上达到84.0,TempCompass上达到76.9)[24] 应用场景 - 机器人技术:使AI智能体能够在不需要大量训练数据的情况下完成家务和体力任务[2] - 短期任务:如拾取或放置物体,成功率达到65%-80%[25][26][27][28][29] - 长期任务:如拾取物体并将其放置在正确的位置[28] 未来方向 - 发展分层次JEPA模型,能够在多个时间和空间尺度上学习、推理和规划[44][45][46] - 开发多模态JEPA模型,能够使用视觉、音频和触觉等多种感官进行预测[47]
LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代
量子位· 2025-06-12 08:16
核心观点 - Meta开源发布V-JEPA 2世界模型,该模型能够像人类一样理解物理世界,具备理解、预测和规划能力,被视为机器人领域的革命性突破[1][5][9] - V-JEPA 2采用自监督学习框架,利用超过100万小时互联网视频和100万图片进行预训练,不依赖语言监督,62小时训练即可生成规划控制模型[10][12] - 模型在运动理解和人类动作预测方面表现优异,在Something-Something v2上达到77.3的top-1准确率,在Epic-Kitchens-100上达到39.7的recall-at-5[23] - 与大型语言模型对齐后,在8B参数规模下多个视频问答任务中展示当前最佳性能,在PerceptionTest上达到84.0,在TempCompass上达到76.9[24][25] - 在新环境中拾取并放置新物体时成功率达到65%-80%[30] 技术架构 - V-JEPA 2采用联合嵌入预测架构(JEPA),包含编码器和预测器两个组件[14] - 编码器接收原始视频并输出捕捉观察世界状态的语义信息的嵌入[15] - 预测器接收视频嵌入及额外上下文,输出预测的嵌入[16] - 训练分为无动作预训练和额外的动作条件训练两个阶段[21] 应用场景 - 下游应用分为三类:理解与预测(行为分类、物体识别、行为预测)、语言对齐(视频问答)、规划(机器人操作)[18] - 短期任务如拾取或放置物体,以图像形式指定目标,通过模型预测控制重新规划并执行最高评分动作[25][26][27][28] - 长期任务如拾取并放置物体,通过视觉子目标实现,类似人类视觉模仿学习[29] 性能表现 - 在运动理解方面,V-JEPA 2 ViT-g384达到77.3 top-1准确率(Something-Something v2)[23] - 在人类动作预测方面,V-JEPA 2 ViT-g384达到39.7 recall-at-5(Epic-Kitchens-100)[23] - 在视频问答任务中,V-JEPA 2 ViT-g384 + Llama 3.1 8B组合达到84.0(PerceptionTest)和76.9(TempCompass)[24][25] 未来发展 - 计划发展分层次JEPA模型,实现跨多个时间尺度的学习、推理和规划[45][46][47] - 探索多模态JEPA模型,整合视觉、音频和触觉等多种感官进行预测[48] 行业影响 - 该技术有望为机器人技术带来新时代,使AI智能体能在现实世界中完成家务和体力任务,且不需要大量机器人训练数据[2] - Meta发布三个新基准测试(IntPhys 2、MVPBench、CausalVQA)评估模型从视频中理解和推理物理世界的能力,当前模型与人类表现(85%-95%)仍有明显差距[32][36][42][43]
被“网暴”两个月后,Yann LeCun 携最新世界模型杀回!小扎千万美元激励抢人,Meta AI 内部权利之争开始
AI前线· 2025-06-12 06:07
Meta推出V-JEPA 2世界模型 - Meta推出新一代世界模型V-JEPA 2,旨在提升AI在物理世界中的视觉理解与预测能力,实现高级机器智能(AMI)[1] - V-JEPA 2被描述为"现实的抽象数字孪生",使AI能够预测行为后果并规划行动方案[1] - 该模型比英伟达Cosmos模型快30倍,并已开源[1][5] - V-JEPA 2基于100多万小时视频数据训练,无需标记视频片段即可执行推理[3][4] - 模型赋予AI三大核心能力:理解、预测与规划,帮助机器构建现实内部模拟[3] 技术特点与应用场景 - V-JEPA 2可帮助AI模拟人类物理直觉,如理解重力影响、预测物体运动轨迹[2][4] - 在实验室测试中,机器人借助V-JEPA 2成功执行抓取、拾取和放置物体等任务[5] - 适用于自动驾驶汽车、仓库机器人和无人机配送系统等需要实时空间理解的技术[3] - Meta发布三项新基准测试(IntPhys 2、MVPBench和CausalVQA)评估模型物理推理能力[5] - 潜在应用领域包括医疗、农业和救灾等需要AI在陌生环境自主运行的场景[18] 行业竞争与战略布局 - Meta将V-JEPA 2视为实现通用人工智能(AGI)的关键里程碑,与OpenAI、谷歌等展开竞争[11] - 行业趋势显示AI研究正向世界建模发展,李飞飞初创公司World Labs获2.3亿美元融资,谷歌DeepMind测试Genie项目[19] - 英伟达在CES上发布Cosmos World Foundation模型系列,提供物理感知视频预测与生成能力[5] - Meta称V-JEPA 2依赖简化空间推理而非大量数据输入,可能比现有AI模型更高效和可扩展[17] Meta内部AI战略调整 - Meta首席执行官扎克伯格亲自领导新成立的"超级智能"团队,计划招募约50名顶尖AI专家[14] - 公司向Scale AI投资140亿美元以获取高质量训练数据,应对Llama 4表现不佳的挑战[13] - 时隔两年Meta再次重组AI团队,提供数千万美元薪酬方案吸引人才[14] - 公司试图挖角谷歌和OpenAI顶级研究员未果,显示行业人才竞争加剧[15] Yann LeCun的AI理念 - Meta首席AI科学家LeCun认为AI需要世界模型而非仅大语言模型,此理念已研究20年[7][8] - LeCun批评大语言模型(LLM)不足以实现人类水平智能,称其为"token生成器"[8] - V-JEPA 2的发布被视为LeCun长期坚持的世界模型理念的重要突破[11]
刚刚,LeCun亲自出镜,Meta推出新世界模型!
机器之心· 2025-06-12 00:53
Meta的AI战略布局 - 公司组建"超级智能团队"以实现通用人工智能 并提供9位数薪酬吸引人才[3] - 推出基于视频训练的世界模型V-JEPA 2 旨在开发能像人类一样认知世界的AI系统[4][5] - 首席AI科学家Yann LeCun强调世界模型是物理世界的数字孪生 可帮助AI理解物理规律并进行任务规划[6] V-JEPA 2技术特性 - 模型架构包含12亿参数 基于联合嵌入预测架构(JEPA)构建[8] - 包含编码器和预测器两大组件 通过自监督学习无需人工标注[16][18][19] - 训练分两阶段:使用超100万小时视频和100万张图像进行预训练 再用62小时机器人数据微调[20][21][25] 模型性能表现 - 在抓取任务(Grasp)成功率从8%提升至45% 放置任务(Pick-and-place)从13%提升至73%[12] - 动作预测任务(Epic-Kitchens-100)准确率达39.7% 超越前最佳27.6%[12] - 在Hugging Face物理推理榜单排名第一 超越GPT-4o等模型[34] 应用场景拓展 - 适用于辅助技术、混合现实指导、个性化教育等场景[6] - 在机器人领域实现零样本规划 新环境物体操作成功率65%-80%[26] - 对自动驾驶和家庭服务机器人具有重大意义[7] 新发布的基准测试 - IntPhys 2测试物理合理性判断 人类准确率85%-95%而当前模型接近随机水平[28] - MVPBench通过最小变化对减少模型作弊 评估真实物理理解能力[29] - CausalVQA专注视频因果关系理解 揭示模型在反事实推理方面的不足[32][33] 未来研究方向 - 开发跨多时间尺度的分层JEPA模型 应对复杂任务分解需求[36] - 探索多模态JEPA模型 整合视觉、听觉和触觉等感官信息[36] - 持续优化在物理推理和因果理解方面与人类表现的差距[28][33]