Workflow
自动驾驶仿真
icon
搜索文档
李弘扬团队最新!SimScale:显著提升困难场景的端到端仿真框架,NavSim新SOTA
自动驾驶之心· 2025-12-04 03:03
文章核心观点 - 自动驾驶行业面临的核心瓶颈并非数据总量不足,而是缺乏足够多的高风险、长尾、极端等“关键场景”数据,导致模型性能难以持续提升 [2] - 由中科院、港大OpenDriveLab和小米汽车联合完成的SimScale研究,提出了一种通过可扩展的3D高斯Splatting仿真生成关键场景并与真实数据协同训练的新路径 [2] - 该方法首次揭示了自动驾驶仿真数据的规模效应:在固定真实数据量的前提下,仅通过扩大仿真数据规模,就能持续提升端到端驾驶模型的性能上限 [2][4] - 在真实世界基准测试中,该方法显著提升了多种规划器的性能,例如在navhard数据集上EPDMS指标最高提升6.8分,在navtest数据集上最高提升2.9分 [4][44] 背景与问题 - 大模型在其他领域的成功依赖于数据规模效应,但自动驾驶领域此方法失灵,原因是现实道路数据中安全“常态行为”占绝大多数,关键场景难以大规模收集 [2] - 仅依靠扩展真实世界驾驶数据效率低下,因为人类专家演示数据中复杂、安全关键场景代表性不足,且训练出的规划器难以泛化到罕见或未见场景 [7] - 行业亟需一种能系统性生成大量关键场景、并规模化训练的新路径,以解决数据分布偏移和因果混淆问题 [2][7] SimScale方法概述 - 核心框架包含一个可扩展的仿真数据生成流程和一个有效的虚实协同训练策略 [11] - 采用基于3D高斯Splatting的高保真神经渲染技术构建仿真数据引擎,能够生成可控的多视角视频观测数据 [13][15] - 设计了伪专家场景仿真流水线:通过对自车轨迹进行多样化扰动采样,生成分布外状态,并配套生成伪专家轨迹作为动作监督 [8][17] - 提出了两种伪专家策略进行对比:引导策略回归人类轨迹分布的“恢复式专家”和能生成优化、探索性轨迹的“规划器式专家” [20][23] - 采用简单的虚实协同训练策略,从真实数据集和仿真数据集的混合集中随机采样,以保留人类驾驶分布并减轻视觉域退化 [24] 实验结果与关键发现 - **排行榜表现**:在navhard基准测试中,采用SimScale协同训练的GTRS-Dense模型取得了47.2的得分,创下该基准的最新最优性能 [31] - **性能提升**:所有测试模型在两个基准上均表现提升,性能较弱的基线模型获益最明显,性能提升超过20% [31] - **规模效应**:实验首次系统揭示了仿真数据的规模效益,在固定真实数据量的情况下,仅增加仿真数据量就能实现策略性能的平稳提升 [4][33] - **伪专家的探索性**:对于所有规划器,“规划器式专家”策略下的数据缩放曲线和最终性能均优于“恢复式专家”,凸显了伪专家探索性行为对提升仿真数据价值的重要性 [36] - **多模态建模的优势**:扩散模型类规划器相比回归类规划器,在仿真数据扩展中表现出更近似线性的性能提升,证明了多模态建模能力对于处理多样化监督和可扩展自动驾驶的重要性 [38] - **奖励信号的效用**:对于基于词汇评分的规划器,仅使用仿真数据中的奖励信号而无需专家轨迹,就能实现更优的性能,表明在稳定优化方向的前提下,奖励引导能发挥更好效果 [39] - **反应式仿真的价值**:与非反应式仿真相比,引入反应式交互的仿真数据虽然有效样本数更少,但能带来持续且显著的性能提升,证明了交通交互的真实性和多样性对增强仿真数据有效性的关键作用 [39] 方法技术细节 - **3DGS仿真引擎**:利用从真实数据重建的3DGS资产,通过输入相机参数和智能体状态,渲染出新视角的RGB观测图像,以减小域差异 [15] - **轨迹扰动**:从覆盖动作空间的人类轨迹词汇库中采样,通过对纵向/横向偏移和航向变化设阈值,并剔除无效轨迹,确保扰动既多样又合理 [19] - **协同训练规划器**:为全面评估,选取了三种代表性端到端规划范式:基于回归的LTF、基于扩散模型的DiffusionDrive和基于词汇评分的GTRS-Dense [24] - **训练目标**:对于回归和扩散模型,最小化模仿损失;对于评分模型,额外增加奖励预测损失 [25][26] - **数据缩放分析**:采用对数二次函数建模性能与总数据量的关系,以分析缩放趋势 [33] 总结与影响 - SimScale是一个完整的虚实结合学习系统,能够释放现有真实世界驾驶数据的潜力,通过仿真扩展持续提升模型性能 [12][44] - 该研究为端到端规划中基于有限真实场景扩展仿真数据提供了一套系统化方案,并揭示了推动仿真规模化的关键因素 [6][7] - 研究表明,探索性专家设计、交互式环境以及规划器的多模态建模能力,是提升仿真数据有效性和实现良好数据扩展特性的重要因素 [12][44]
TeraSim World:用开源方式重建「特斯拉式」世界模型
自动驾驶之心· 2025-10-28 00:03
特斯拉世界模型技术特点 - 神经网络驱动的虚拟世界生成器,根据车辆状态和控制输入实时合成八个摄像头视角的高分辨率视频[2] - 在没有真实相机的情况下预测环境变化,重建连续且空间一致的驾驶画面,支持闭环验证和强化学习[2] - 学习通用的"感知—动作—世界变化"映射,可迁移到机器人等其他平台,成为通用物理智能的基础组件[2] TeraSim World开源框架核心能力 - 在开源条件下实现与特斯拉世界模型同级的生成与评测能力,无需真实地图或传感器背景即可自动生成整个城市环境与交通行为[5] - 基于NeuralNDE和NADE两项奠基性研究,既能再现自然交通行为,又能主动生成突发风险与环境干扰[6] - 模块化全自动数据合成流水线,专为生成端到端自动驾驶所需的真实且安全关键数据而设计[7] 真实地图与交通环境构建 - 用户输入位置或路线后,系统自动从公开地图数据获取当地道路结构和交通情况,识别道路类型并生成数字地图[11] - 从实时交通数据服务自动获取实际车流速度与拥堵状况,模拟符合当地节奏的早晚高峰和拥堵点[13] - 自动检索真实世界道路地图并转换为仿真可用格式,与智能体行为建模后端集成[10] 智能体仿真技术 - 通过学习大量真实驾驶数据生成自然的多车交互行为,如红绿灯前减速、狭窄道路错车、环岛礼让等[16] - 根据真实世界事故概率和强化学习机制自动引入安全关键情境,如前车急停、行人闯红灯等罕见但高风险事件[17] - 输出每个参与者的详细轨迹,描述其在道路上的移动和互动[17] 传感器仿真技术 - 依托NVIDIA开源世界模型Cosmos系列,生成真实感摄像头输入并可扩展到其他传感器类别[18][19] - 使用Google Street View API抓取六个方向街景图像,通过多模态语言模型自动生成语义描述[20] - 生成六个摄像头视角的高分辨率视频,最高分辨率达1280×704,帧率为24 fps,确保跨视角几何对齐和光照一致[25][26] 自动化压力测试框架 - 基于NADE研究成果复现动态风险,并扩展到静态风险和环境风险,如交通锥、施工区域、天气变化等[30] - 系统评估自动驾驶系统在多种复杂环境下的稳定性和安全边界[30] - 支持自动生成和验证不同类型的风险场景[30] 系统应用前景与愿景 - 为自动驾驶安全验证提供可扩展、成本更低的替代方案,减少实车采集和路测需求[31] - 采用开放技术路线,希望成为全球研究者与开发者共享的自动驾驶虚拟试验场[32] - 长期愿景是打造开放的端到端自动驾驶仿真与评测体系,让虚拟道路测试成为实车路测的可靠替代[32]
执行力是当下自动驾驶的第一生命力
自动驾驶之心· 2025-10-17 16:04
行业竞争格局演变 - 智能驾驶行业经历近两年洗牌后,牌桌已更换一批新玩家,但工业界对自动驾驶的投入持续加大,自动驾驶被视为AI核心技术及未来重点布局方向[1] - 行业在2022年之前处于蓬勃发展期,公司只要具备单一长板(如双目技术、硬件能力或AI能力)即可获得发展机会,但此后进入收缩期或平稳期,生存和发展的关键转变为补足短板[1] - 当前在赛道中活跃且表现良好的公司或主机厂,均在系统性地提升硬件、软件、AI能力及工程落地等综合实力,行业实践表明,只有成为“六边形战士”才能在未来竞争中存活并发展得更好[1] 2025年行业展望与人才需求 - 2025年行业将进入冷静期而非收敛期,L3、L4及Robotaxi等新赛道仍存在未解决的技术问题,这为所有参与者保留了机会[2] - 行业变革对个人而言是挑战更是机遇,能够留在行业内担当主力的均为技术栈丰富的综合型人才,抱有“捞一波”心态者将被淘汰,持续积累和构建壁垒是长期受用的策略[2] 自动驾驶之心知识星球社区概况 - 社区旨在解决初学者试错成本高、缺乏完整学习体系的问题,是一个集视频、图文、学习路线、问答、求职交流于一体的综合类自驾社区,目前成员已超过4000人,目标在未来2年内达到近万人规模[4] - 社区联合了众多学术界与工业界专家,内部梳理了超过40种技术路线,并邀请数十位活跃在一线的领域嘉宾答疑解惑,内容涵盖端到端入门、VLA学习路线、数据闭环工程实践等实用主题[4][6] - 社区成员背景多元,来自上海交大、北京大学、CMU、清华大学等国内外知名高校,以及蔚小理、地平线、华为、大疆等头部公司,形成了前沿技术聚集地[17] 社区资源与技术覆盖范围 - 社区汇总了近40个开源项目、近60个自动驾驶相关数据集及主流仿真平台,技术学习路线全面覆盖感知、规划控制、仿真、端到端、VLA等核心方向[18][35][37] - 针对热点技术领域如3DGS与NeRF、世界模型、视觉语言模型(VLM)、自动驾驶VLA、扩散模型、BEV感知等,社区均进行了详细的技术梳理和内容汇总[42][44][47][49][53][55] - 社区提供原创直播课程与系列视频教程,内容涵盖感知融合、多传感器标定、SLAM、决策规划、数据工程、端到端与大模型技术等,并建立了与多家自动驾驶公司的岗位内推机制[12][13] 社区互动与专业交流 - 社区内部定期与学术界、工业界专家畅聊技术趋势与量产痛点,并举办超过一百场专业直播分享,内容涉及VLA模型、V2X、3D检测、轨迹生成等前沿话题[7][92] - 成员可自由提问并获得解答,问题范围包括研究方向选择、就业前景分析、技术路线图求取以及企业内部推荐机会,形成了良好的学习交流与求职对接环境[6][21][94]