训练闭环
搜索文档
理想下一步的重点:从数据闭环到训练闭环
自动驾驶之心· 2025-12-14 02:03
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 理想汽在ICCV'25期间也分享了些新东西!目前还没有视频对外。 VLA团队负责人詹锟老师做了一场世界模型的presentation,名为World Model: Evolving from Data Closed-loop to Training Closed-loop。自动驾驶之心第一时间做了解 读分享给大家~ 首先是介绍下理想VLA司机大模型: 回顾了理想汽车智能驾驶的发展路线,从规则时代的轻图和无图,再到基于AI的E2E+VLM快慢双系统和VLA, 这四个方案中Nav(导航)是重点突出的模块。 下面介绍的是数据闭环的价值。左上角这张图是一个完整的数据闭环流程: 影子模式验证→经由数据触发回传到云端进行数据挖掘→有效样本进行自动标注→生 成训练集训练模型→模型下发验证性能。 这个过程已经可以做到一分钟的数据回传。 目前已经有15亿公里的驾驶数据,200+的Trigger来生产15-45s的Clip数据。 目前理想的端到端量产版本MPI已经到了220+, ...
ICCV涌现自动驾驶新范式:统一世界模型VLA,用训练闭环迈向L4
量子位· 2025-11-08 04:10
自动驾驶技术范式转变 - 行业共识自动驾驶技术进入下半场,技术范式从端到端架构转向强化学习[6][8] - 端到端架构统一技术栈释放Scaling Law潜力,但模仿学习只能达到数据平均水平难以超越人类司机[6][8] - 特斯拉和理想汽车在ICCV 2025共同展示以云端生成式世界模型为新基座的趋势[2] 理想汽车训练闭环架构 - 公司构建全球首个世界模型与强化学习闭环量产自动驾驶架构,从数据闭环迈向训练闭环[11] - 训练闭环通过环境生成和反馈迭代实现设定目标,覆盖边缘场景提升模型性能[8][11] - 世界模型系统包含环境构建、智能体构建、反馈构建和场景多推演三大能力[13] 仿真技术路径与成果 - 采用重建与生成结合的仿真路线,重建保证稳定性,生成增强泛化性[14][15][16] - 联合研发的Street Gaussians算法被ECCV 2024收录,Hierarchy UGP实现SOTA大规模动态场景重建[17][19][21] - 生成方式占比将不可逆增加,因能低成本大规模生成多样边缘场景数据[23] 合成数据与强化学习引擎 - 合成数据通过场景编辑、迁移和全场景生成使数据分布均衡,覆盖更多极端复杂案例[23] - 强化学习世界引擎包含仿真智能体、奖励模型和性能优化五大关键因素[25][31] - 仿真智能体建模多车交互行为比实现单车L4更难,公司通过目标函数和奖励函数约束智能体行为[27] 研发投入与底层技术突破 - 2023年和2024年全年研发投入连续超百亿元,2025年上半年研发投入为53亿元[33] - 自研整车操作系统理想星环OS实现软硬件解耦,芯片适配验证加快至4周内[33] - 星环OS采用跨系统架构,在120km/h时速下缩短7米刹停距离,降低几十亿元BOM成本[35][39] 开源生态与学术认可 - 星环OS开源后与16家产业链玩家组建生态联盟,帮助行业节省数亿元研发预算[36][39] - 开源数据集3DRealCar包含2500辆真实汽车,每辆车200张高分辨率RGB-D图像,被AI顶会ICCV收录[40][43] - 研究成果如DriveVLM已落地量产,形成研产闭环能力快速转化预研成果[52] 公司战略定位与竞争优势 - 公司重新定义为空间机器人企业,具备造车基本盘、VLA技术、顶会级预研和研产闭环四大优势[48][50][51][52] - 同时实现算法训练闭环、商业化闭环和研产闭环,在车企底色AI公司中与特斯拉并列领先[52][53]
理想ICCV'25分享了世界模型:从数据闭环到训练闭环
自动驾驶之心· 2025-11-07 00:05
公司智能驾驶技术发展路线 - 公司智能驾驶发展经历了从规则时代的轻图和无图方案 到基于人工智能的端到端+视觉语言模型快慢双系统和视觉语言自动驾驶方案 导航模块在四个方案中均为重点 [6] - 公司端到端量产版本的MPI已达到220+ 相比2024年7月底的版本提升了约19倍 [13] 数据闭环流程与规模 - 完整的数据闭环流程包括:影子模式验证、数据触发回传至云端、数据挖掘、有效样本自动标注、生成训练集训练模型、模型下发验证性能 [9] - 数据回传过程可在一分钟内完成 [10] - 公司已积累15亿公里的驾驶数据 通过200多个触发器生产时长15至45秒的片段数据 [11] 自动驾驶下半场:从数据闭环到训练闭环 - 行业观点认为自动驾驶进入下半场 核心玩法从数据闭环转向训练闭环 [18][21] - L4级训练循环的核心技术栈为视觉语言自动驾驶+强化学习+世界模型 轨迹由视觉语言自动驾驶的扩散模型和基于世界模型的强化学习共同优化 强化学习包括RLHF、RLVR和RLAIF [23] - 训练闭环关键技术栈包括区域级别仿真、合成数据和强化学习 [24] 训练闭环关键技术细节 - 仿真依赖场景重建技术 包括视觉/激光雷达重建、区域重建、多趟重建、场景编辑和风格迁移 [26] - 合成数据依赖多模态生成技术 包括视频/点云生成和神经渲染 [26] - 强化学习依赖智能体、3D资产以及评测与奖励模型 [26] - 可交互的智能体是训练闭环的关键挑战 [40] - 系统能力是世界模型增强引擎的关键 包括仿真环境、3D资产构建多样化场景、交互式行为建模、奖励模型反馈泛化能力及GPU工程加速推理 [41] 公司在重建与生成领域的进展 - 公司在重建领域已有两篇顶会论文成果 [28] - 公司技术方案从重建发展到生成 其中Feedforward 3DGS方案无需点云初始化 可直接由视觉输入得到结果 [29] - 公司在联合重建与生成领域有一篇顶会论文 [32] - 公司在生成领域有三篇顶会论文成果 [34] - 生成技术的应用包括场景编辑、场景迁移和场景生成 [36]
理想ICCV'25分享了世界模型:从数据闭环到训练闭环
自动驾驶之心· 2025-10-30 00:56
公司智能驾驶发展路线 - 公司智能驾驶发展经历了从规则时代的轻图和无图,到基于AI的E2E+VLM快慢双系统,再到VLA司机大模型的演进 [6] - 在以上四个方案中,导航模块是重点突出的部分 [6] 数据闭环系统能力 - 公司数据闭环流程包括影子模式验证、数据触发回传、云端数据挖掘、自动标注、生成训练集训练模型及模型下发验证 [9] - 数据回传过程已实现一分钟内完成 [10] - 公司目前拥有15亿公里的驾驶数据,并通过200多个触发器生产15-45秒的片段数据 [10] - 端到端量产版本的MPI已达到220+,相较于24年7月底版本提升了约19倍 [12] 自动驾驶下半场战略转向 - 行业观点认为自动驾驶已进入下半场,需从数据闭环转向训练闭环的新模式 [17][20] - 数据闭环存在局限性,难以完全解决长尾场景收敛问题,例如交通管制、烟花燃放和突然变道等场景 [15] 训练闭环核心技术栈 - L4级训练循环的核心由VLA司机大模型、强化学习和世界模型构成 [22] - 轨迹优化结合了VLA的Diffusion技术和基于世界模型的强化学习 [22] - 强化学习范畴不仅包括RLHF,还涵盖RLVR和RLAIF [22] - 世界模型主要用于场景重建和新视角复原 [22] - 闭环自动驾驶训练关键技术栈包括区域级别仿真、合成数据和强化学习 [24] 仿真与生成技术进展 - 仿真依赖场景重建技术,具体包括视觉/Lidar重建、区域重建、多趟重建、场景编辑和风格迁移 [25] - 合成数据通过多模态生成技术获取,如视频/点云生成和神经渲染 [25] - 强化学习依赖于智能体、3D资产以及评测和奖励机制 [25] - 公司在重建到生成的方案上取得进展,例如Feedforward 3DGS技术可直接由视觉输入得到结果,无需点云初始化 [26] - 公司在重建领域有两篇顶会论文,联合重建与生成领域有一篇顶会论文,生成领域有三篇顶会论文 [26][29][31] - 生成技术的应用涵盖场景编辑、场景迁移和场景生成 [33] - 公司在数据配比方面进行了大量优化工作 [35] 训练闭环关键挑战与系统能力 - 可交互的智能体是实现训练闭环的关键挑战 [37] - 系统能力作为增强引擎,世界模型提供仿真环境,3D资产构建多样化场景,模拟智能体进行交互式行为建模,奖励模型提供准确反馈以增强泛化能力,GPU工程加速推理过程 [38]