世界模型

搜索文档
对比之后,VLA的成熟度远高于世界模型...
自动驾驶之心· 2025-09-26 16:03
作者 | 周彦武 来源 | 佐思汽车研究 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 首先需要指出VLA和世界模型都是端到端的一种,尽管很多人都认为一段式端到端比分段式优秀,但无论是产业界还是学术界,90%以上都是分段式端到端,纯 粹的VLA和世界模型非常罕见。 代表VLA阵营出战的是高德地图的 模型,地平线的SENNA模型,还有加州大学洛杉矶分校的AutoVLA。代表世界模型出战的有和特斯拉中国 FSD很接近的上海AI实验室的GenAD模型,做重卡自动驾驶的中科慧拓的GenAD模型,华为和浙江大学合作的Drive-OccWorld,还有理想汽车的World4Drive,理 想汽车尽管推崇VLA,但对世界模型的研究水平也是极高的。 | 模型名称 | L2平均距离(米) | 3秒平均碰撞率 | 备注 | | --- | --- | --- | --- | | AutoDrive-R2 | 0.19 | | 70亿参数版 | | AutoDrive-R2 | 0.49 | | 30亿参数版 | | SENNA | 0.22 | 0.08% | 加入自车状态 ...
高通组局,宇树王兴兴说了一堆大实话
量子位· 2025-09-26 09:12
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 王兴兴的大实话,在高通攒的这场局上,全交代了。 所有终端都被AI、Agent赋予新想象,因为足够new,具身智能成为被影响最大的那一个领域。但也因为足够new,具身智能的热闹下必然存 在诸多争议与挑战。 宇树科技,长期站在聚光灯下的明星玩家,此时此刻将行业中的诸多难题直接剖开。 或许不为别的,而是高通攒的这个局太难得。 2025骁龙峰会·中国,聚集了国内外终端领域的核心玩家,覆盖上下游产业链 。在这开诚布公 讨论的问题,或许将马上成为行业最关注的热点,进而能更快得到解决。 而不止王兴兴,来自硬件、模型、操作系统等层级的玩家,也都畅所欲言、应聊尽聊: 目前机器人领域技术路线都不一样,导致看着热闹,但是进展没那么显著; 既然现在大家开发的模型都还不能部署直接用,那还不如开放出来 ,就像OpenAI开源GPT-1/2一样; 宇树前几天开源的世界模型也无法直接在工厂中落地使用; 现在机器人和芯片厂商都忽视了 芯片 对于机器人的重要程度; 手机芯片 等类似芯片用到机器人身上是非常有想象空间的。 理想汽车副总裁、智能空间研发负责人勾晓菲 面壁智能CEO李大海 中科创达 ...
车圈一个月48位高管变动,新一轮的变革要开始了......
自动驾驶之心· 2025-09-25 03:45
车企的新一轮变革已经拉开了帷幕。 这一个月车企48位高管变动。理想把智驾团队拆成 11 个二级部门,比亚迪从斑马挖来 CTO 搞座 舱,长安汽车的高层也正经历大变动,连蔚来的任少卿都一边在公司管自动驾驶,一边去中科大搭 实验室了。 整个自动驾驶行业在"踩油门" 变方向,老话说的透彻, 这个世界上唯一不变的恰恰就是变化本身。 对于搞算法的同学来说,更是深有感触。三年前还是BEV,两年前是无图,一年期是端到端,今年 是VLA和世界模型,下一步是什么呢?在人工智能这条大的赛道上,什么才是算法岗位真正的活力 和壁垒? 柱哥认为是持续不断的更新自己的认知,要敢于跳出自己的舒适圈。 这一个月,柱哥和很多学术界&工业界的小伙伴进行了交流。有打算转行具身、转行Agent的,有研 一想做自动驾驶摸索方向的,也有车企大佬在联系柱哥招人攻坚端到端的。 自动驾驶还行不行这个话题总是有不同的答案,每个人都会基于自己的认知做出选择。 所以我们搭建了自动驾驶、具身智能和大模型三个平台,在变化中不断摸索前行的道路并反过来提 升自己。别盼着稳定,要在变化里找新机会。这一个月我们在尝试新的文章风格,开启了第一次星 球内部成员的线上交流活动,也正 ...
华为坚定要走的世界模型路线,到底是什么?
自动驾驶之心· 2025-09-24 23:33
一、引言 世界建模已成为人工智能(AI)与机器人领域的一项基础性任务,其核心目标是使智能体具备理解、表示并预测其所处动态环境的能力。近年来,生成 式建模技术(包括变分自编码器(VAEs)、生成对抗网络(GANs)、扩散模型(diffusion models)和自回归模型(autoregressive models))取得了显 著进展,通过实现复杂的生成与预测能力,极大地丰富了该领域的研究内容。 然而,这些进展在很大程度上集中于2D数据,主要是图像或视频。与之形成对比的是,现实世界场景本质上处于3D空间中且具有动态特性,通常需要 利用原生3D与4D表示的模型。这类表示包括RGB-D图像、占用网格、激光雷达点云,以及能够捕捉时间动态的时序形式。这些模态可提供明确的几何 信息和物理基础,对于自主驾驶、机器人等嵌入式系统(embodied systems)和安全关键系统(safety-critical systems)而言至关重要。 除上述原生格式外,世界建模的研究也已拓展至相邻领域。部分研究关注视频、全景或基于网格(mesh)的数据,此类系统具备大规模、通用的视频- 网格生成能力;与此同时,另一类研究聚焦于3D物体 ...
PhysicalAgent:迈向通用认知机器人的基础世界模型框架
具身智能之心· 2025-09-20 16:03
当前机器人操控领域存在两大关键瓶颈:一是主流视觉-语言-动作(VLM)模型(如RT-1/RT-2、OpenVLA)依赖任务与平台特定微调,换机器人或环境后鲁棒 性骤降;二是基于世界模型的方法(如DreamGen)需依赖专门训练的预测模型(如Cosmos Predict),且训练数据需精心筛选机器人-场景对,通用性受限。 为解决这些问题,有研究团队提出 PhysicalAgent ——一个融合迭代推理、扩散视频生成与闭环执行的机器人操控框架。其核心思路是:用基础模型(视觉语言 模型、扩散视频模型)承担感知与推理的"重活",仅保留轻量级机器人适配层负责执行,最终实现跨形态、跨任务的通用操控,同时通过迭代修正提升执行鲁棒 性。 点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Artem Lykov等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 出发点与动机 架构设计:泛化性的核心逻辑 该框架的核心原则是 感知与推理模块不绑定特定机器人形 ...
那些号称端到端包治百病的人,压根从来没做过PnC......
自动驾驶之心· 2025-09-16 23:33
端到端自动驾驶技术发展现状 - 国内新势力车企正在推进VLA(Vision-Language-Action)技术的落地和优化 而另一部分企业则聚焦WA(World Model)路线 更多车企和Tier1供应商仍处于端到端技术攻坚阶段[2] - 端到端系统通过输入传感器原始数据直接输出控制信号或自车轨迹 代表性算法包括UniAD和Sparse系列[3] - 端到端本质是实现感知信息的无损传递 解决模块化方法中人工定义感知结果无法覆盖开集场景的问题 目前工业界普遍采用模仿学习方法进行优化[4] 端到端技术挑战与行业共识 - 端到端系统虽提高性能上限但下限稳定性不足 实际落地仍需传统规控方法兜底 learning-based输出轨迹仍需经过传统PnC处理[5] - 行业共识是自动驾驶从规则驱动转向认知驱动 但端到端技术距离成熟仍有较长距离 需要更多时间沉淀[5] - 车企为突破感知模型迭代瓶颈 积极布局VLA和WA技术路线 但需理性看待端到端替代传统规控的局限性[5] 自动驾驶技术社区生态 - 自动驾驶之心知识星球社区规模已超4000人 覆盖超300家机构与自动驾驶公司 目标两年内达到近万人规模[8][102] - 社区整合40+技术方向学习路线 包括VLA、端到端、多模态大模型等前沿领域 并提供与一线产业界/学术界大佬的直接交流渠道[8][9][17] - 社区提供岗位内推机制 成员来自蔚小理、地平线、华为、英伟达等头部企业 以及国内外顶尖高校实验室[17] 技术资源体系 - 社区汇总近60+自动驾驶数据集 涵盖VLM预训练/微调/思维链/强化学习等类型 并整合3D目标检测/BEV感知/Occupancy等开源项目[37][53][55] - 提供七大福利视频教程 内容覆盖世界模型、自动驾驶大模型、Transformer等 已举办超百场专业技术直播[88][91] - 详细梳理端到端自动驾驶技术体系 包括一段式/二段式量产方案、VLA算法及里程碑方法 兼顾学术界与工业界需求[39][47]
特斯拉、华为与新势力决胜:世界模型大战
36氪· 2025-09-12 02:45
行业技术路线争议 - 智驾行业对"世界模型"定义存在分歧 多家公司提出不同技术路径并相互质疑 [1][3] - 小鹏汽车宣称其是中国唯一真正实现VLA量产的公司 并计划9月通过OTA在全新P7车型上线VLA功能 [3][7] - 华为明确反对VLA路径 提出WA方案直接通过视觉信息控车 跳过语言转换环节 [3] - 元戎启行支持VLA路径 称VLA模型下限已超过端到端上限 强调思维链和长时序推理为核心能力 [5] 技术架构差异 - 理想汽车采用车端快慢双系统:快系统为端到端E2E 慢系统VLM部署参数为22亿参数 云端基座模型作为仿真训练系统 [7] - 小鹏汽车研发720亿参数云端大模型"小鹏世界基座模型" 通过云端蒸馏方式部署到车端 [8] - 华为WEWA方案中云端WE作为"AI驾校" 车端WA采用一段式端到端架构 总参数80亿但实际激活等效20亿参数 算力消耗降低75% [15][17] - 蔚来世界模型NWM采用云端训练+车端推理双架构 直接通过生成式模型生成轨迹规划 跳过语言中间层 [12][13] 技术演进脉络 - VLA是在端到端+VLM基础上的技术进化形态 解决原有方案局限性但存在空间感知能力弱的问题 [5] - 世界模型概念由特斯拉最早提出 通过在感知与决策间嵌入AI大模型构建虚拟环境进行自动驾驶验证 [9][11] - 行业从两段式端到端进化到一段式端到端 VLA和世界模型均处于试错阶段的新方法 [8] - 视频生成技术分为GAN、扩散模型、自回归模型和掩码四大类型 其中扩散模型又分SVD和SD两种 [14] 企业战略布局 - 小鹏全新P7车型搭载三颗图灵芯片 硬件配置大幅升级以支持VLA功能 [7] - 理想在英伟达2025春季GTC大会宣布从零训练基座模型 支持MindVLA算法量产上车 [7] - 蔚来2024年NIO IN发布NWM 宣布智驾从"感知驱动"转入"认知驱动" 2025年5月底实现全量推送 [12][15] - 地平线认为所有新技术本质都是端到端 最终评判标准是产品实际收益 [17]
华为坚定要走的世界模型路线,到底是什么?
自动驾驶之心· 2025-09-11 23:33
世界模型技术路线概述 - 华为、蔚来等公司坚持世界-行为流派(WA),认为世界模型是实现自动驾驶的终极方案,与视觉语言行为模型(VLA)路线形成技术分歧 [2] - 世界模型使智能体能够理解、表示并预测动态环境,研究重点从2D图像转向利用RGB-D图像、占用网格和激光雷达点云等原生3D/4D表示 [5] - 原生3D/4D信号在物理坐标系中编码度量几何、可见性和运动信息,为安全关键系统提供多视图一致性、刚体运动学和场景级遮挡推理等能力 [9] 3D/4D表示方法 - 视频流表示为多帧序列,强调几何一致性和时间连贯性以确保物理合理的仿真 [19] - 占用网格使用体素指示空间占用状态,时序占用网格扩展到4D捕捉场景演变,能强制执行空间约束 [20] - 激光雷达点云直接捕捉几何信息且不受纹理、光照或天气变化影响,时序激光雷达记录时间戳实现对运动的精确建模 [22] - 神经表示如神经辐射场(NeRF)和高斯溅射(GS)对连续体素场或显式高斯基元进行建模,时间扩展版本添加动态组件实现4D重建 [23] 世界模型功能分类 - 数据引擎在几何和语义条件下生成多样化场景,用于大规模数据增强和场景创建 [29][33] - 动作解释器基于历史观测和动作条件预测未来世界状态,实现动作感知的预测 [30][33] - 神经仿真器通过生成连续场景状态迭代仿真智能体与环境的闭环交互 [31][33] - 场景重建器从部分观测中恢复完整连贯的3D/4D场景,用于高保真建图和数字孪生修复 [34][35] 生成模型技术 - 变分自编码器(VAEs)通过概率编码和解码学习结构化latent空间,训练稳定但生成样本较模糊 [37] - 生成对抗网络(GANs)通过生成器和判别器的极小极大博弈生成数据,能产生高保真样本但训练不稳定 [38] - 扩散模型通过学习逆转逐步加噪过程实现生成,具有较强的稳定性和样本质量但推理速度较慢 [39][40] - 自回归模型将联合分布分解为条件概率乘积,适合序列生成但计算复杂度高 [41] 视频生成世界模型 - 基于视频的生成模型通过提供视觉线索和时间动态建模复杂场景,分为数据引擎、动作解释器和神经仿真器三类 [44] - 感知数据增强方法如BEVGen采用自回归Transformer生成与BEV布局空间对齐的环境图像,MagicDrive结合3D几何和语义描述生成高保真图像 [47] - 动作引导的视频生成如GAIA-1融合视频、文本和动作输入合成真实驾驶场景,GAIA-2扩展框架纳入智能体配置和环境因素 [50] - 闭环仿真器如DriveArena构建包含交通合成和自回归场景生成的框架,DreamForge通过物体级位置编码增强长时程建模能力 [54] 占用生成世界模型 - 基于占用的生成模型提供以几何为中心的表示,对3D世界的语义和结构细节进行编码,分为场景表示器、占用预测器和自回归仿真器 [56] - 3D感知鲁棒性增强方法如SSD采用离散和latent扩散模型生成场景级3D分类数据,SemCity通过扩散过程提升几何和语义保真度 [59] - 4D占用预测模型基于自车动作和历史观测预测未来占用状态,EmergentOcc引入可微渲染实现自监督训练,UniWorld结合图像和激光雷达数据学习基础占用模型 [61] - 自回归仿真器生成大规模时间连贯的4D占用,PDD提出尺度可变扩散框架从粗布局到精细细节生成户外场景,XCube采用分层体素latent扩散实现多分辨率生成 [64] 激光雷达生成世界模型 - 基于激光雷达的生成模型提供几何感知且外观不变的表示,在几何保真度和环境鲁棒性方面具有优势,分为数据引擎、动作预测器和自回归仿真器 [67] - 感知数据增强方法如DUSty通过GAN框架合成真实激光雷达扫描,LiDARGen将朗之万动力学应用于点云生成,R2DM利用DDPM过程实现更高精度生成 [70] - 场景补全方法如UltraLiDAR利用VQ-VAE引入离散体素表示实现稀疏到密集补全,LiDiff利用去噪过程重新定位重复点补全遮挡区域 [73] - 时序建模方法如Copilot4D通过VQ-VAE对点云token化并重构为离散扩散模型,以历史帧和未来动作为输入预测未来激光雷达帧 [75] 数据集与评估体系 - 行业采用多模态数据集如nuScenes包含1000个场景140万帧图像和40万帧激光雷达数据,Waymo Open包含1150个场景100万帧图像和23万帧激光雷达数据 [79] - 评估指标包括生成质量指标(FID、FVD)、预测准确性指标(L1 Error、IoU)、规划质量指标(ADE、FDE)和重建质量指标(PSNR)等 [81][83][84] - 感知保真度指标如FPD评估点云几何真实性,FRD评估激光雷达距离图像分布保真度,FSVD评估体素结构保真度 [81] - 时空一致性指标如VCS评估多视角几何一致性,CTC评估CLIP特征时间稳定性,TTCE评估点云运动对齐 [81][83]
马斯克给了AI5可以跑250B参数模型的预期
理想TOP2· 2025-09-07 12:09
特斯拉AI芯片技术进展 - AI5芯片设计完成 针对参数数量低于2500亿的模型 是推理芯片中硅片成本最低且性能功耗比最高的产品[1] - AI6芯片正在开发 预计成为迄今为止最好的AI芯片 架构从两种切换为一种 使团队能集中资源打造单一高性能芯片[1] - 芯片团队分布情况:约50%在湾区 50%在奥斯汀 另有众多工程师分散在全球各地[1] 芯片性能参数对比 - AI5本地推理参数量达137.9亿 对比理想汽车当前处理40亿参数量 性能提升显著[3] - GPT系列参数量对比:GPT-1为1.17亿参数 GPT-2为15亿参数 GPT-3达1750亿参数[4] - 自动驾驶发展方向需运行更大参数量模型 要求具备或超越人类思考能力并解决时延问题[4] 特斯拉战略调整与合成数据应用 - 解散Dojo超算研发团队 业务调整源于FSD端侧模型训练数据集转向依赖合成数据[5] - 训练与推理概念区分:训练发生在云端调整模型参数 推理发生在车端处理新数据生成输出结果[6] - 新训练流程使用云端世界模型推理生成合成数据 辅以真实道路数据训练可部署的FSD模型[6] 未来2-3年特斯拉AI发展路径 - 采用英伟达GPU集群训练超大参数规模的世界模型[6] - 使用Dojo 3(AI5/AI6芯片组成的推理集群)运行世界模型生成大规模合成数据[6] - 通过Dojo 3与英伟达混合集群训练小参数量FSD模型 用于车端部署和频繁迭代[6] - AI5/AI6芯片将同时应用于车端和机器人端的推理任务[7] 合成数据战略优势 - 转向合成数据主要基于效率提升、成本控制、场景可控性和数据覆盖度考量[7] - 现实世界数据仍重要 作为FSD模型与现实对齐的基础 合成数据用于填补极端场景和扩展长尾分布[7] - 最终形成混合数据策略 结合真实数据与合成数据的优势[7] 推理即数据的新范式 - 世界模型的推理过程直接生产训练材料 通过模拟现实世界生成包括摄像头视角和传感器数据的完整过程[8] - 推理行为本身成为数据生产环节 突破传统推理仅作为模型应用环节的限制[8] 训练即推理的闭环生态 - FSD模型训练核心数据来自世界模型的推理结果 训练过程依赖于推理输出[9] - 形成四步循环:训练世界模型→生成合成数据→训练FSD模型→真实场景数据反馈优化世界模型[10] - 闭环系统实现模型能力与数据规模相互促进 突破传统单向流程中数据断供的限制[10] 芯片战略与行业影响 - AI6芯片可替代Dojo功能 既能上车也能组大集群提供云端算力[11] - 车端芯片集成座舱、智驾及域控功能于专用NPU芯片 要求强大的软件和系统能力[11] - 大算力芯片缺货背景下 具备芯片设计能力+软硬件能力+模型能力的企业将获得显著竞争优势[11]
VLA和World Model世界模型,哪种自动驾驶路线会胜出?
自动驾驶之心· 2025-09-04 23:33
自动驾驶技术路线对比 - 目前95%以上的世界模型用于生成视频以训练自动驾驶系统而非直接控制车辆 VLA技术已实现量产上车[3] - VLA本质属于模仿学习 依赖语言作为中间转换层 世界模型则采用类脑学习机制 跳过语言层直接输出动作 实现真正端到端控制[3] - 世界模型基于抽象层级理解与预测物理现实 具备因果推理和零样本学习能力 无需标注数据即可学习[4] 技术理论框架演进 - 世界模型理论可追溯至1994年 核心架构包含Vision Model、Memory RNN和Controller三大模块 采用VAE进行视觉特征提取[11] - 2019年演进为RSSM架构 结合确定性与随机性组件 在防止模型随意发挥的同时提升容错性[13][15] - 2023年提出JEPA架构 通过自我监督学习预测抽象状态而非像素细节 大幅降低计算需求 V-JEPA2于2025年6月发布[17] 模型训练与数据特性 - V-JEPA2预训练使用超100万小时无标注网络视频 仅用62小时机器人影片进行微调即可实现零样本任务执行[19] - 世界模型优势在于非逐像素计算降低运算资源需求 且训练完全无需标注数据 可直接利用网络资源[19] - 极端场景数据稀缺问题可通过虚拟仿真生成补充样本 结合域适应技术减少模拟到真实的性能差距[19] 技术瓶颈与挑战 - 传感器信息局限导致物理世界表达不完整 当前摄像头与激光雷达无法模拟人眼事件相机式的高效信息捕捉机制[20] - 表征崩溃现象使模型生成无意义向量 需通过正则化技术控制模型复杂度 但会限制因果关系学习能力[21] - 长期预测存在误差累积问题 多步预测可能导致严重偏离 需采用半监督与教师强制策略结合进行校正[21] - 世界模型缺乏可解释性 决策异常难以溯源 且易受对抗攻击影响 存在安全性隐患[22] 融合发展趋势 - VLA可通过强化学习微调吸收世界模型优点 典型案例如博世IRL-VLA采用逆向强化学习奖励世界模型[22] - 地平线SENNA VLA基于META小羊驼模型 阿里达摩院WorldVLA均体现VLA与世界模型相互增强的趋势[27][28] - 行业判断结合世界模型增强的VLA将成为主流技术路线 纯世界模型因可解释性等问题难以单独量产应用[30]