同济孙剑团队首创!三层框架解析端到端自动驾驶训练生态
自动驾驶之心·2025-12-20 02:16

文章核心观点 - 同济大学与UNC联合团队提出一个名为Data-Strategy-Platform的三层生态框架,旨在系统性地解决当前端到端自动驾驶训练中存在的“训练碎片化”问题,该框架整合了超过280篇论文和6家主要车企的工业实践,为端到端自动驾驶从科研走向量产提供了系统级的“训练导航图” [3][4][49] 数据层:从“规模”到“价值”的转型 - 核心逻辑从“规模扩张”转向“价值密度”,聚焦高风险和长尾场景,而非单纯堆砌数据量 [3][8] - 采用混合数据采集策略,结合真实数据锚定核心分布与合成数据填补高价值缺口,例如使用高保真仿真和生成式世界模型生成极端天气等场景数据 [21] - 提出场景价值量化公式,通过风险等级、稀有度和训练收益三个维度对数据进行评分,以优先处理高价值场景 [16][22] - 实施分层标注策略,对高价值场景进行精细人工标注,对普通场景采用自动标注,自动标注速度可达1000帧/小时,准确率不低于92%,通过此方法将总标注成本降低了60% [21][25] - 列举了18个代表性数据集,并指出高价值数据集如Bench2Drive的1.3万场景,比海量低价值数据更能提升模型的闭环性能 [9][34] 策略层:从“传统范式”到“生成式基础模型” - 策略演进脉络涵盖从经典模仿学习、强化学习到新兴生成式范式,强调“基础模型+轻量化适配”的未来路线 [9][28] - 经典模仿学习通过DAgger变体进行优化,强化学习则通过离线RL和约束RL来应对样本低效和安全挑战 [25] - 新兴生成式范式主要包括三大方向:扩散策略、多模态大语言模型和世界模型,它们分别擅长建模驾驶不确定性、提升可解释性与泛化性、以及通过“想象推演”覆盖长尾场景 [24] - 明确了不同场景的最优策略选择:结构化场景用模仿学习,复杂交互用强化学习,长尾场景用生成式模型 [9] - 未来趋势是构建通用驾驶基础模型,具备跨域迁移能力,并通过参数高效微调等轻量化技术适配不同区域 [30] 平台层:支撑大规模闭环训练的工程基础 - 平台层核心是从“静态离线”训练进化为“持续闭环”系统,整合分布式训练、评估与云边协同 [3][8] - 分布式训练平台包含五种并行范式以适应不同模型规模,混合并行是工业实践主流 [28] - 测试评估平台结合高保真仿真与实车测试,评估指标从离线误差转向碰撞率、路线完成率等闭环指标 [31] - 云边协同平台实现了“数据采集→训练→部署”的持续学习闭环,具体流程为车端触发采集高价值数据,云端进行联邦与分布式训练,再通过灰度发布迭代 [29][33] - 整合了Waymo、特斯拉、Cruise、百度Apollo、小鹏、华为ADS共6家车企的工业实践,揭示了“持续训练+灰度发布”是量产关键 [9][35] 工业实践与数据集 - 代表性数据集分为规模型、价值型和混合型,例如规模型数据集nuScenes包含4万剪辑,价值型数据集Bench2Drive包含1.3万高价值场景 [34] - 六大车企实践对比显示,Waymo采用“仿真优先”测试方法,特斯拉依赖车队学习和影子模式实现快速迭代,小鹏和华为则已落地云边协同闭环 [35]