Workflow
自动驾驶之心
icon
搜索文档
打算招聘几位大佬共创平台(4D标注/世界模型/VLA等方向)
自动驾驶之心· 2025-09-23 23:32
QS200以内高校,硕士及以上学历,手握顶会的大佬优先。 待遇说明 自动驾驶资源共享(求职、读博、出国留学推荐等); 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 业务合伙人 自动驾驶之心业务合伙人招募来啦!我们团队今年计划向国内外招募10名优秀的合伙人,负责自动驾驶相 关课程研发、论文辅导业务开发、硬件研发; 主要方向 如果您是大模型/多模态大模型、扩散模型、VLA、端到端、具身交互、联合预测、SLAM、3D目标检测、 世界模型、闭环仿真3DGS、大模型部署与量化感知推理等方向,欢迎加入我们; 岗位要求 丰厚的现金激励; 创业项目合作与推荐; 联系我们 更多欢迎添加微信咨询,备注" 机构/公司 + 自动驾驶合作咨询 "。 ...
什么样的技术才能成就一家顶流自动驾驶公司?
自动驾驶之心· 2025-09-23 23:32
文章核心观点 - 自动驾驶技术自1989年实验室探索起步 历经36年发展 已从基于规则的模块化设计演进至端到端大模型驱动 逐步走向大众市场[2] - 行业技术路线呈现共性趋势:从依赖高精地图和多传感器融合 转向无图化纯视觉方案 最终迈向端到端架构和世界模型 核心突破体现在BEV鸟瞰视角感知 占用网络障碍物识别和大模型决策规划[6][17][23] - 主流厂商通过数据驱动飞轮循环 实现算法迭代和场景泛化 特斯拉纯视觉方案构建数据壁垒 华为ADS版本迭代提升感知距离35% 时延降低65% Momenta依托10亿公里训练数据推进L3落地[6][28][31][33] - 硬件成本持续下探 卓驭科技纯视觉方案硬件成本降至5000-7000元人民币 地平线征程6系列芯片算力达560TOPS 支持10-20万元主流市场[54][56][50] - 2025年成为技术分水岭 理想VLA司机大模型具备因果推理 蔚来世界模型NWM支持0.1秒216种轨迹推演 行业从L2普及(渗透率65%-70%)迈向L3落地前夜[61][110][112] 特斯拉技术发展 - 采用纯视觉感知方案 摒弃激光雷达和高精地图 通过庞大车队构建数据壁垒[6] - 2021年AI Day推出BEV技术:通过Transformer将2D图像转换到3D鸟瞰图空间 实现多摄像头感知融合[8][9] - 2022年AI Day推出占用网络:将空间划分为体素 预测占用状态而非物体类别 可识别异形障碍物但计算量巨大[12][16] - 2024年3月FSD V12实现端到端模型:统一深度学习模型直接输出控制指令 驾驶行为更拟人化但可解释性差[17][18][19] 华为ADS技术演进 - ADS 1.0(2021年4月):依赖3颗激光雷达和13个摄像头 结合高精地图实现高速NCA和自动泊车 硬件成本高[25] - ADS 2.0(2023年4月):实现无图智驾 激光雷达减至1颗 平均人工接管里程从100公里提升至200公里 GOD网络识别异形障碍物[27] - ADS 3.0(2024年4月):端到端大模型融合感知与规划 探测距离提升35% 时延降低65% 搭载192线激光雷达和4D毫米波雷达[28][29] - ADS 4.0(2025年4月):支持高速L3级自动驾驶 依托45EFLOPS云端算力和10亿公里训练数据迭代算法[30][31] Momenta技术路径 - 采用"一个飞轮两条腿"战略:数据驱动算法形成闭环 左腿量产自动驾驶(Mpilot)提供数据流 右腿完全无人驾驶(MSD)反馈技术流[33] - 2019年AD 1.0:视觉建图精度10cm 支持众包更新但功能限于泊车场景[35] - 2022年AD 2.0:规则驱动规划 依赖高精地图 拓展性差[36][37] - 2023年AD 3.0-4.0:向数据驱动转型 感知任务整合至单一模型 但保留感知规划分离pipeline[38][41][42] - 2024年AD 5.0:端到端大模型整合感知与规划 模仿人类长期记忆 延迟降低但系统复杂[43] - 2025年R6飞轮大模型:基于强化学习和7000万黄金数据自我进化 驾驶能力超人类但可靠性待验证[44] 地平线技术路线 - 软硬协同渐进路线:从车规芯片切入 通过征程系列芯片迭代支撑功能升级[47][49] - 征程2/3芯片(2021年):支持L2辅助驾驶 800万像素前视摄像头[49] - 征程5芯片(2022-2023年):支持L2+高速NOA和城区领航辅助 应对交通信号灯识别[50] - 征程6系列芯片(2025年):算力达560TOPS 支持10-20万元市场规模化落地 并拓展至机器人领域[50] 卓驭科技低成本方案 - 成行平台基础版(2023年):7摄像头+32TOPS算力 硬件成本5000元人民币 实现高速NOA和记忆泊车[54] - 成行平台升级版:纯视觉无图城区智驾 硬件成本7000元人民币 支持15万元级别车型[56] - 成行平台高配版(2024年):10摄像头+100TOPS算力 增800万像素长焦单目 提升侧向感知[57] - 舱驾融合传感器(2025年):惯导三目集成激光雷达 成本降30%-40% 下放至30万元内车型[59] 理想汽车三段演进 - 规则驱动(2021年前):if-else规则分解驾驶任务 可解释性强但泛化能力差[63][64][66] - 端到端模型(2023年):模仿学习直接输出控制指令 行为拟人但缺乏因果推理[65][67][71] - VLA司机大模型(2025年):统一建模视觉-语言-行动 具备逻辑推理能力 训练成本极高[61][73][74][75] 小鹏全场景进化 - XPILOT 2.0/2.5(2018-2019年):20传感器实现自动泊车和遥控泊车 解决特定场景需求[81][82][83] - XPILOT 3.0(2020年):P7搭载高速NGP 实现全自研360度感知[84][85] - XPILOT 3.5(2021年):P5首搭激光雷达 城市NGP限5城开放[87][88][89] - XNGP(2022年):AI大模型驱动 算力508TOPS 降低高精地图依赖[90][91][92] - 2024年无图方案覆盖243城 端到端大模型上车 2025年推进全球XNGP研发[93][94] 蔚来稳健推进 - 早期合作Mobileye(2016年):利用成熟方案但迭代受限[101][102][103] - NOP+高速领航(2020-2024年):全栈自研后安全性达人驾6.26倍 但城区功能推送较晚[104][105] - 2024年4月全域NOP+订阅制推送:无图技术覆盖726城 群体智能架构优化系统[107][108][109] - 世界模型NWM(2025年5月):支持0.1秒216种轨迹推演 认知能力增强但长期稳定性待观察[110][111][112]
3DGS重建!gsplat 库源码解析
自动驾驶之心· 2025-09-23 23:32
作者 | 微卷的大白 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1952449084788029155 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 前两天看到李飞飞 Worldlabs 新工作Mrable的时候,提到后面想多看一看 3DGS / 重建相关的工作。 不过如果真的有小白要踩坑 ,gsplat 的文档和维护其实比gaussian-splatting 要稍微好一些,个人更推荐这个库。 相比3DGS 论文对应的 gaussian-splatting 库,nerfstudio-projectgsplat 是对官方库做了一些优化,可参考https://docs.gsplat.studio/main/migration/migration_inria.html 的 说明。 但是知乎搜了一下发现,讲 3DGS 论文原理、改进的不少,我自己上半年也回顾过cuda kernel 源码:重温经典之 3DGS CUDA 源码解析 ,但是另一个常用的gsplat ...
专攻长尾场景!同济CoReVLA:双阶段端到端新框架
自动驾驶之心· 2025-09-23 23:32
自动驾驶技术在 长尾场景(低频率、高风险的安全关键场景) 中表现仍存在显著短板——这类场景虽不常见,却占自动驾驶事故的很大比例,且会导致驾驶员 接管率急剧上升。 传统模块化自动驾驶系统(感知-预测-规划分阶段)存在"误差累积"问题:各阶段的微小误差会逐步放大,导致整体性能难以提升;而端到端方法直接将传感器 输入映射为控制动作或者自车的轨迹,具备更强的适应性和统一优化能力,被认为是解决长尾场景问题的潜在方向。 而当前端到端方法主要分为两类,但均无法很好应对长尾场景: CoReVLA 核心设计:"Collect-and-Refine"双阶段框架 为解决上述问题,CoReVLA提出 持续学习的双阶段框架 ,通过"数据收集(Collect)"与"行为优化(Refine)"循环,提升长尾场景下的决策能力。整体流程如 figure 1所示,分为预阶段(SFT)、第一阶段(接管数据收集)、第二阶段(DPO优化)三部分。 预阶段:基于QA数据的监督微调(SFT) 此阶段的目标是让VLA模型建立自动驾驶领域的基础认知,为后续长尾场景学习铺垫。 $${\mathcal{L}}_{S F T}=-\sum_{i=1}^{N}\su ...
世界模型能够从根本上解决VLA系统对数据的依赖,是伪命题...
自动驾驶之心· 2025-09-23 11:37
"世界模型能够从根本上解决VLA系统对数据的依赖,是伪命题。" 柱哥这两天和星球大佬讨论VLA和WA的路线之争,分享给大家。 2025年的自动驾驶赛道正分裂为两大阵营:小鹏、理想、元戎启行押注 VLA路线,华为、蔚来则力 推世界行为模型(WA)。后者认为WA才是能真正实现自动驾驶的终极方案。然而血淋淋的现实 是:这不过是个套壳的数据依赖论。 VLA依赖海量数据训练得到的VLM进一步扩展Action的能力,但工业界最得天独厚的优势就是有海 量的数据,这给模型研发提供了无限可能。在普通场景大家都已经做到99.9%的能力下,长尾场景才 是既分高下也决生死的所在。 世界模型为什么会被吹捧,生成式的方法理论上可以无限扩展corner case,但生成的前提是用海量真 实数据训练物理规则认知框架。 你去生成一个卡车在马路上打篮球的场景,理论上虽然可以,但实际上VLA也好,WA也好,都未必 能真正理解。 『自动驾驶之心知识星球』目前集视频 + 图文 + 学习路线 + 问答 + 求职交流为一体,是一个综合类 的自驾社区,已经超过4000人了。 我们期望未来2年内做到近万人的规模。给大家打造一个交流+技 术分享的聚集地,是许多 ...
一汽正式收购大疆卓驭!落下智能驾驶功课的车企们,正在加速补作业...
自动驾驶之心· 2025-09-23 03:44
公司收购与股权变更 - 一汽正式成为大疆卓驭第一大股东 国家市场监管总局于9月22日对股权收购案进行公示 [1] 公司发展历程与业务布局 - 卓驭前身为大疆车载事业部 2016年建立 2023年拆分独立运营 2024年启用"卓驭"品牌 [3] - 公司累计融资超25亿元 投资方包括比亚迪、上汽、国投招商、基石资本、光远资本等 [3] - 以低算力高性价比方案起家 近年拓展至中高端算力平台 推出激光雷达方案及舱驾一体技术 [3] - 上海车展展示补盲激光雷达知周、激目2.0等硬件产品 以及基于NVIDIA DRIVE Thor平台的VLA大模型和高通SA8775P平台舱驾一体方案 [3] 市场前景与战略合作 - 预计2025年将有200万台车型搭载大疆车载智驾系统 3-5年内合作量产车型达500万台量级 [5] - 一汽通过收购获取卓驭智驾技术优势 提升产品竞争力 加速智驾升级和智能化转型 [5] - 一汽入股被视为对卓驭技术路线的肯定 [6] 行业地位与发展路径 - 卓驭发展历程覆盖自动驾驶黄金十年 [7] - 作为大疆孵化企业 通过引入一汽作为股东 走出区别于华为的差异化发展路径 [8] - 标志自动驾驶行业新格局开启 [9]
急需一台性价比高的3D激光扫描仪!
自动驾驶之心· 2025-09-22 23:34
最强性价比3D激光扫描仪 | 雄厚背景&项目验证 | | --- | 面向工业场景和教研场景的 超高性价比3D扫描仪来了!GeoScan S1是国内目前最强性价比实景三维激光扫描 仪,轻量化设计,一键启动,便可拥有高效实用的三维解决方案。以多模态传感器融合算法为核心,实现厘米级 精度的三维场景实时重构。可广泛用于多种作业领域。 每秒20万级点云成图,70米测量距离,360°全域覆盖,支持20万平米以上的大场景,扫描可选配3D高斯数据采 集模块,实现高保真实景还原。支持跨平台集成,配备高带宽网口及双USB 3.0接口,为科研实验提供灵活扩展 空间。降低开发门槛,助力开发者快速掌握研发能力,开启更多可能。 同济大学刘春教授团队和西北工业大学产业化团队携手合作 多年科研和行业积累,上百个项目验证 GeoScan S1设备自带手持Ubuntu系统和多种传感器设备,手柄集成了电源,可通过D-TAP转XT30母头输出至 GeoScan S1设备本体,给雷达、摄像头以及主控板提供电源。 基础版重建效果一览! 使用门槛低 :操作简单直观,一键启动即可 执行扫描作业 扫描结果导出即用 :无需复杂部署和繁琐处理,扫 描结果导出即 ...
三维重建综述:从多视角几何到 NeRF 与 3DGS 的演进
自动驾驶之心· 2025-09-22 23:34
三维重建技术演进综述 - 三维重建是计算机视觉与图形学的交叉核心,作为虚拟现实、增强现实、自动驾驶、数字孪生等前沿应用的数字底座 [5] - 以神经辐射场(NeRF)和三维高斯抛雪球(3DGS)为代表的新视角合成技术,使重建质量、速度、动态适应性同时跃升 [5] - 技术演进从传统多视角几何(SfM→MVS)到NeRF与3DGS,为数字孪生、智慧城市、元宇宙等领域提供技术演进全景图 [5] 应用需求驱动技术革新 - 城市级数字孪生需求公里级范围、厘米级精度、分钟级更新 [6] - 自动驾驶仿真需求动态交通流、实时语义、可编辑车道 [6] - AR/VR社交需求轻终端、大于90 FPS、照片级真实感 [6] - 工业数字工厂需求弱纹理、反光、复杂拓扑完整建模 [6] - 传统先几何后纹理管线无法满足新需求,NeRF与3DGS通过可微渲染统一学习几何-纹理-光照,实现从离线静态到实时动态的突破 [6] 传统多视角几何重建(SfM→MVS) - 理论基石包括对极几何x'^T F x = 0、三角测量X = argmin(∑‖π(P_i,X)−x_i‖^2)和束调整min ∑‖x−π(P,X)‖^2 + λ‖P−P_0‖^2 [9][10] - 成熟工具链包括COLMAP(学术最常用,CPU优化)、OpenMVG(模块化,适合算法研究)、Agisoft Metashape(商业级,支持无人机影像)和ContextCapture(Bentley城市级解决方案) [11] - 存在五大痛点:数据饥渴需大于70%航向重叠加60%旁向重叠、弱纹理空洞(玻璃、白墙、水面、天空)、光照敏感导致阴阳面色差和纹理接缝明显、动态失效导致行人车辆重影/鬼影、编辑困难改一棵树要重跑全流程 [13][15] NeRF隐式神经辐射场(2020-2024) - 基础框架将场景建模为连续5D函数F_Θ:(x,y,z,θ,φ)→(c,σ),通过体渲染积分得到像素颜色 [13][14] - 质量提升路线包括Mip-NeRF(锥体追踪+集成位置编码解决锯齿混叠,训练时间×2)、NeRF-W(外观嵌入+可变光照解决天气/曝光变化,推理需调latent)、NeRF++(反向球面背景+双层场景解决远景退化,参数量+30%)、NeRFLiX(退化模拟器+视角混合解决伪影噪声,需合成数据预训练)、BAD-NeRF(运动模糊物理模型解决模糊输入鲁棒,需已知模糊核)、UHDNeRF(隐式体+稀疏点云高频实现8K超高清,显存增加) [17] - 效率优化路线包括InstantNGP(多分辨率哈希编码实现5秒至1分钟训练时间、5 FPS渲染、1.2 GB显存)、TensoRF(CP分解+低秩近似实现10分钟训练、10 FPS、300 MB显存)、NSVF(稀疏体素八叉树实现30分钟训练、15 FPS、500 MB显存)、Zip-NeRF(抗锯齿网格采样实现20分钟训练、20 FPS、400 MB显存)、Lightning NeRF(点云先验初始化实现8分钟训练、10 FPS、600 MB显存) [18] - 稀疏视角合成(小于10张图)方法包括FreeNeRF(频率正则+遮挡正则实现DTU 3-view PSNR 19.92,零额外开销)、FlipNeRF(反射射线过滤实现PSNR 19.55,减少漂浮物)、MixNeRF(混合密度+深度估计实现PSNR 18.95,提升几何)、HG3-NeRF(几何-语义-光度分层实现PSNR 19.37,需语义标签) [20] - 动态场景(视频输入)方法包括Deformable-NeRF(变形场Ψ(x,t)实现D-NeRF PSNR 29.8,正则化扭曲)、NSFF(场景流+静态/动态分解实现PSNR 31.5,可解释运动)、DNeRF(时间编码γ(t)实现PSNR 29.6,无需额外mask)、NeRFPlayer(静态+变形+新区域实现PSNR 30.2,流式播放)、Tensor4D(4D张量分解实现PSNR 31.0,内存下降50%) [21] 3DGS三维高斯溅射(2023-2025) - 基础公式将场景表示为3D高斯集合G={μ_i,Σ_i,α_i,SH_i}_{i=1}^M,投影到图像平面后按深度排序做α-混合C=∑_{i∈N}c_iα'_i∏_{j=1}^{i-1}(1-α'_j) [22][23] - 渲染质量优化方法包括Mip-Splatting(3D/2D Mip滤波实现抗锯齿,LPIPS下降10%)、Scaffold-GS(锚点生长-剪枝实现内存下降79%,覆盖提升)、GaussianPro(渐进传播+深度一致实现低纹理PSNR提升1.7 dB)、GSDF(高斯+SDF双分支实现几何误差下降30%)、SuperGS(粗到细+梯度引导分裂实现4K超分实时) [25] - MipNeRF360对比显示3DGS的PSNR 27.21、SSIM 0.815、LPIPS 0.214、FPS 134、内存734 MB;GSDF的PSNR 29.38、SSIM 0.865、LPIPS 0.185;Scaffold-GS的PSNR 28.84、SSIM 0.848、LPIPS 0.220、FPS 102、内存156 MB;SuperGS的PSNR 29.44、SSIM 0.865、LPIPS 0.130、FPS 47、内存123 MB [26] - 效率再升级方法包括LightGaussian(蒸馏+量化+伪视角实现15倍压缩,200 FPS)、CompGS(K-means+游程编码实现存储下降80%)、EAGLES(轻量化编码实现显存下降70%)、SuGaR(表面网格提取实现编辑友好,Poisson重建)、Distwar(寄存器级并行实现GPU原子操作下降60%) [27][28] - 稀疏视角重建(小于10张图)方法包括FSGS(单目深度+邻域上采样实现200 FPS,需预训练DepthNet)、SparseGS(扩散模型补全实现实时360°,生成伪标签)、LM-Gaussian(大模型视觉先验实现迭代细化,视频扩散)、MCGS(多视角一致性修剪实现内存下降50%,渐进剪枝) [29] - 动态重建(视频)方法包括Deformable 3D-GS(变形场实现D-NeRF PSNR 39.51,时序正则)、4D-GS(神经体素+MLP实现PSNR 34.05,分解4D特征)、Gaussian-Flow(双域变形实现PSNR 34.27,显式运动向量)、DN-4DGS(去噪网络实现PSNR 25.59,时空聚合) [30] 三代技术横向对比 - 核心表征:SfM/MVS为点云+Mesh,NeRF为隐式σ(x)+c(x),3DGS为显式高斯集合 [31] - 几何精度:SfM/MVS★★★★☆,NeRF★★★☆☆,3DGS★★★☆☆ [31] - 照片真实感:SfM/MVS★★☆☆☆,NeRF★★★★★,3DGS★★★★☆ [31] - 训练时间:SfM/MVS为小时级,NeRF为小时至天级,3DGS为分钟级 [31] - 渲染FPS:SfM/MVS小于1,NeRF小于1,3DGS为50-300 [31] - 动态扩展:SfM/MVS不支持,NeRF需变形场,3DGS支持时序高斯 [31] - 编辑性:SfM/MVS极难,NeRF隐式不可见,3DGS支持移动/删除/增改 [31] - 硬件门槛:SfM/MVS只需CPU,NeRF需8个高端GPU,3DGS只需1个消费GPU [31] - 代表落地:SfM/MVS用于测绘、文保,NeRF用于影视、直播,3DGS用于AR/VR、自动驾驶 [32] 未来5年技术雷达 - 混合表征:NeRF+3DGS+SDF统一框架,光滑表面用SDF,高频细节用高斯,空洞用NeRF补全 [33] - 端侧实时:INT4量化+TensorRT/ONNX实现手机30 FPS重建 [33] - 生成式重建:Diffusion先验+3DGS实现单图/文本生成可驱动3D资产 [33] - 物理-语义联合:引入光照模型、重力、语义标签实现一键可编辑城市场景 [33] - 多模态融合:LiDAR深度、事件相机、IMU、Thermal同步实现SfM-free鲁棒重建 [33] - 三维重建将走向人人可用、处处实时的普适计算时代,让每部手机、每台车、每副AR眼镜都拥有实时数字化的瑞士军刀 [34]
放榜了!NeurIPS 2025论文汇总(自动驾驶/大模型/具身/RL等)
自动驾驶之心· 2025-09-22 23:34
自动驾驶 - FutureSightDrive提出时空思维链技术用于自动驾驶视觉思考[2] - AutoVLA开发端到端自动驾驶视觉-语言-动作模型 具备自适应推理和强化微调能力[4] - 阿里与西交联合研发FSDrive系统 论文编号2505.17685[6] - UCLA团队推出AutoVLA框架 论文编号2506.13757[7] - 清华AIR与北航等机构开发双边网格驾驶场景高斯泼溅技术[13] 视觉感知推理 - OmniSegmentor构建多模态语义分割灵活学习框架[16] - 水牛城大学与中科院研发YOLOv12注意力中心实时目标检测器 论文编号2506.05280[18] - 南开大学程明明团队提出DFormer模型 论文编号2509.15096[19] - PixFoundation 2.0研究视频多模态大模型在视觉定位中的运动使用机制 论文编号2509.02807[20][33] 视频理解 - DeepTraverse采用深度优先搜索网络实现算法化视觉理解 论文编号2506.10084[25] - 英伟达与台湾大学开发ThinkAct视觉-语言-动作强化推理系统 论文编号2507.16815[27] 图像视频生成 - Fast and Fluent Diffusion通过卷积解码和拒绝微调提升扩散语言模型效率 论文编号2509.15188[34][63] - AutoEdit实现图像编辑超参数自动调优[31] - OmniSync通过扩散变换器实现通用唇形同步 论文编号2505.21448[36][38] 具身智能 - DeepMind推出自改进具身基础模型 论文编号2509.15155[46][50] - 复旦与上交等机构开发ForceVLA力感知混合专家模型 用于接触式操作 论文编号2505.22159[48][51][64] 大模型训练 - Scaling Offline RL通过高效表达捷径模型扩展离线强化学习 论文编号2505.22866[40][44] - 研究发现在机械推理中LLM世界模型存在输出层脆弱性 论文编号2507.15521[40][62] 大模型微调 - 卷积解码和拒绝微调技术提升扩散语言模型性能 论文编号2509.15188[42][63] - 联邦学习框架实现自适应LoRA专家分配与选择 论文编号2509.15087[42][55] - 康奈尔大学开发差分隐私联邦低秩适配技术 论文编号2507.09990[44] 医疗诊断评估 - 构建3D肿瘤中心视觉问答医疗基准测试VLM诊断能力 论文编号2505.18915[39][44][57] - DeepTumorVQA项目评估视觉语言模型临床诊断准备度[39][44][57] 文档理解与安全 - STEM-POM评估语言模型在文档解析中的数学符号推理能力 论文编号2411.00387[55][65] - AgentMisalignment测量基于LLM智能体的行为错位倾向[55] - 概念级可解释性技术用于审计和引导LLM响应 论文编号2505.07610[54] 代码生成 - SBSC逐步编码方法提升数学奥林匹克竞赛性能 论文编号2502.16666[60] - 卷积解码和拒绝微调技术优化扩散语言模型代码生成 论文编号2509.15188[60][63] 强化学习 - 强化视觉潜在规划实现视觉-语言-动作推理 论文编号2507.16815[23][27][65] - 扩展离线强化学习通过高效表达捷径模型 论文编号2505.22866[40][44] 持续学习 - 持续学习技术改进多模态大语言模型 论文编号2410.19925[53][56] - 研究分布外泛化在ARC类任务中的挑战 论文编号2505.09716[66] 人机交互 - 实时直观AI绘图系统整合形式与上下文意图增强人类创造力 论文编号2508.19254[54] - 公平摘要技术平衡提取式摘要的质量与多样性 论文编号2411.07521[66]
FlowDrive:一个具备软硬约束的可解释端到端框架(上交&博世)
自动驾驶之心· 2025-09-22 23:34
核心观点 - 提出FlowDrive自动驾驶框架 在BEV空间中引入基于能量的流场表示 显式编码风险势场与车道吸引力场 实现安全可解释的轨迹规划[2][7] - 采用任务解耦设计 分离运动意图预测与轨迹生成过程 减少梯度冲突与特征干扰[6][9] - 在NAVSIM v2基准测试中EPDMS评分达86.3 超越现有SOTA方法0.3分 在安全性与规划质量方面表现最优[3][40] 技术架构创新 - 风险势场通过高斯函数建模障碍物排斥力 计算公式为$$U_{risk}(u,v)=\sum_{i}\eta\exp\Biggl{(}-\frac{\left\|(u,v)-(u_{i},v_{i})\right\|^{2}}{2\sigma^{2}}\Biggr{)}$$[20] - 车道吸引力场结合横向距离与纵向弧长 计算公式为$$U_{lane}(u,v)=\frac{1}{2}k_{lat}d(u,v)^{2}+k_{lon}(L-s(u,v))$$[20] - 流感知锚定轨迹优化模块通过Transformer动态调整初始轨迹 使其与能量极小值区域对齐[7][22] - 运动解耦生成规划器采用条件扩散框架 使用两组门控查询分离意图预测与轨迹去噪任务[28] 实验性能表现 - 使用ResNet-34骨干网络时EPDMS达84.9分 超越DiffusionDrive的84.2分和DriveSuprim的83.1分[40] - 采用V2-99骨干网络后EPDMS提升至86.3分 较最优基准方法提升0.3分[40] - 在DAC(97.4)、DDC(99.6)、TTC(97.9)等安全指标上显著领先[40] - 多模态设置下(图像+激光雷达)性能与TransFuser、DiffusionDrive相当或更优[41] 消融实验验证 - 移除流场学习模块导致EPDMS从86.3降至85.8[43][47] - 禁用自适应锚定优化使EPDMS下降0.4分[43][47] - 取消运动解耦设计导致性能降低0.2分[43][47] - 流场参数最优配置为$$k_{lat}=10.0$$, $$k_{lon}=1.0$$, $$\eta=1.0$$, $$\sigma=10.0$$[43] 行业技术背景 - 端到端自动驾驶成为主流范式 基于BEV的方法可分为回归式(如UniAD、VAD)与生成式(如GenAD、DiffusionPlanner)两类[10][11] - 流场表示在机器人领域早有应用 但此前未有效整合进端到端自动驾驶框架[12] - 多任务学习采用MoE、MMoE等门控机制 但现有方法存在特征纠缠问题[13]