Autonomous Driving

搜索文档
都在做端到端了,轨迹预测还有出路么?
自动驾驶之心· 2025-08-19 03:35
端到端自动驾驶与轨迹预测技术 - 端到端自动驾驶量产应用仍较少 多数公司沿用二段式端到端或模块化方法 轨迹预测仍是量产主流算法 [1] - 轨迹预测模型与感知模型融合训练即构成端到端系统 该领域研究热度持续 会议期刊相关论文产出量大 [1] - 多智能体轨迹预测需处理历史轨迹数据 预测未来运动 应用于自动驾驶/智能监控/机器人导航 面临行为不确定性和多模态挑战 [1] 扩散模型在轨迹预测中的应用突破 - 扩散模型通过逐步去噪生成复杂分布 在轨迹预测中显著提升多模态建模能力 [2] - LeapfrogDiffusionModel采用可训练跳跃初始化器 减少去噪步骤实现实时预测 在NBA/NFL/SDD/ETHUCY数据集上精度提升19-30倍 [2] - MixedGaussianFlow构建混合高斯先验 在UCY/ETH/SDD数据集达到最先进性能 [2] - PatternMemory-basedDiffusionModel通过聚类运动模式构建记忆库 引导生成多样化合理轨迹 [2] 课程体系与科研目标 - 课程聚焦扩散模型多智能体轨迹预测 包含12周科研+2周论文指导+10周维护期 预期产出算法框架/定量分析/高水平论文 [3][9] - 覆盖轨迹预测技术发展史 比较传统模型与生成式模型创新点 包含LSTM/SocialPooling/Graph-basedmodel等经典方法解析 [24] - 重点解析LED/MGF/SingularTrajectory/MPMNet等先进算法 涉及跳跃初始化/混合高斯先验/运动模式记忆等核心技术 [24] 技术资源支持 - 提供ETH/UCY/SDD等公开行人车辆轨迹数据集及预处理脚本 [20] - 开源LED/SingularTrajectory/MGF/MPMNet等基线代码框架供参考扩展 [21][22] - 必读论文包括CVPR2023跳跃扩散模型/NeurIPS2024混合高斯流等前沿成果 [23] 课程特色与学员收益 - "2+1"师资配置(教授+研究员+行业导师) 配备科研班主任全程督学 [16][17] - 学习周期包含学前测试/个性化指导/学术复习 提供论文初稿/结业证书/推荐信等产出 [18][19] - 学员可掌握扩散模型条件控制/社会交互建模/多模态不确定性处理等高级技术 [24]
自动驾驶秋招交流群成立了!
自动驾驶之心· 2025-08-18 23:32
技术发展趋势 - 自动驾驶技术栈呈现趋同态势 从过去几十个方向算法需求转向统一方案如one model、VLM和VLA [1] - 技术方案统一化实际形成更高行业技术壁垒 [1] 行业社群建设 - 建立综合型平台汇集全行业人才 通过社群方式促进产业人才共同成长 [1] - 社群内容覆盖相关产业讨论、公司分析、产品研发及求职跳槽等专业领域 [1] - 提供行业社交网络构建渠道 帮助成员获取产业第一手信息 [1]
性能暴涨4%!CBDES MoE:MoE焕发BEV第二春,性能直接SOTA(清华&帝国理工)
自动驾驶之心· 2025-08-18 23:32
核心观点 - 提出CBDES MoE框架 在功能模块层面实现分层解耦的专家混合结构 集成四种异构视觉backbone 通过自注意力路由器实现动态专家选择 提升自动驾驶BEV感知性能[2][5][12] - 在nuScenes 3D目标检测任务中 mAP提升1.6个百分点至65.6% NDS提升4.1个百分点至69.8% 超越所有单专家基线模型[3][37] - 采用稀疏激活推理机制 仅激活top-1专家 显著降低计算成本 支持实时应用[25][26] 技术架构 - 集成四种结构异构专家网络:Swin Transformer(擅长全局空间结构) ResNet(强于局部结构编码) ConvNeXt(平衡局部性与可扩展性) PVT(多尺度目标建模)[17][18] - 设计自注意力路由器SAR 包含分层特征提取 自注意力编码和MLP专家评分三阶段 生成图像级路由概率[19][20][21] - 采用软加权特征融合机制 根据路由概率动态加权专家输出 保持训练稳定性[24] - 引入负载均衡正则化 防止专家坍塌 使mAP从63.4%提升至65.6% NDS从65.8%提升至69.8%[42][43][46] 性能表现 - 在nuScenes数据集上全面超越单专家基线:BEVFusion-Swin Transformer(mAP 64.0% NDS 65.6%) BEVFusion-ResNet(mAP 63.3% NDS 65.2%) BEVFusion-ConvNeXt(mAP 61.6% NDS 65.2%) BEVFusion-PVT(mAP 62.4% NDS 65.7%)[37] - 在恶劣条件(雨雾 夜间)下保持检测鲁棒性 显著减少误检和漏检[40] - 训练过程收敛更快 损失更低 显示优化稳定性和学习效率优势[39] 应用前景 - 可无缝集成至BEVFusion等标准框架 保持相机到BEV投影逻辑和下游任务头兼容性[29][30] - 当前支持图像级路由 未来可扩展至图像块级或区域感知路由 实现更细粒度适应[48] - 潜在扩展方向包括多任务学习(分割 跟踪) 跨模态路由(激光雷达信号) 以及自动化架构搜索[48]
Pony.ai Attracts Premium Capital as Funds Chase the Next Tech Transformation
Prnewswire· 2025-08-18 13:53
投资动态 - ARK Invest首次投资中国L4级自动驾驶公司Pony.ai 金额达1290万美元 [1] - 第二季度至少有14家全球知名机构投资者入股Pony.ai 包括Baillie Gifford和Nikko Asset Management等 [2] - 高盛给予Pony.ai买入评级 目标价24.5美元 较8月15日收盘价有54.5%上涨空间 [8] 市场前景 - ARK预测到2030年网约车市场规模将达10万亿美元 全球robotaxi车队规模可能达到5000万辆 [3] - 瑞银预计到2030年代末 中国robotaxi市场规模将达1830亿美元 除美国外的国际市场达3940亿美元 [9] - Pony.ai成为唯一在中国四大一线城市(北京上海广州深圳)获得全无人驾驶商业许可的公司 [6] 财务表现 - 第二季度robotaxi收入同比增长158% [4] - 第七代车型成本比前代降低70% 保险成本下降18% 远程辅助与车辆比例有望年底达到1:30 [5] - 公司预计年底车队规模达到1000辆时 将实现单位经济性盈利 [5] 运营进展 - 第七代车型自4月底发布后两个月内已生产约200辆 总车队规模达500辆 [5] - 在广州和深圳实现24/7全天候运营 [7] - 与腾讯合作将robotaxi服务接入微信平台 触达超10亿用户 [7] 技术优势 - 获得上海浦东部分区域收费服务商业许可 [6] - 安全性和技术验证获得认可 [8] - 被认为是robotaxi商业化准备最充分的企业 [9]
文远知行获Grab数千万美元投资,加速在东南亚大规模部署Robotaxi
搜狐财经· 2025-08-18 01:40
战略投资与合作 - 自动驾驶科技公司文远知行获得东南亚超级应用平台Grab数千万美元股权投资 [1] - 投资是双方战略合作的一部分 旨在加速东南亚L4级Robotaxi及其他自动驾驶车辆的大规模部署 [3] - 投资预计不晚于2026年上半年完成交割 具体时间取决于文远知行选定的时间点和成交条件 [3] 市场拓展与商业计划 - 文远知行计划结合东南亚当地法规和社会接受程度 渐进式部署数千辆Robotaxi [3] - Grab的投资将支持文远知行的国际增长战略 扩大东南亚商业自动驾驶车队规模 [3] - 公司将利用自动驾驶技术和运营经验与Grab的平台优势 提供安全高效的Robotaxi服务 [3] 合作伙伴优势 - Grab是东南亚家喻户晓的品牌 在网约车和数字服务领域拥有无可比拟的区域经验和规模优势 [3] - 合作将推动AI驱动的出行方式发展 巩固公司在未来出行领域的先发优势 [3]
自动驾驶VLA:OpenDriveVLA、AutoVLA
自动驾驶之心· 2025-08-18 01:32
OpenDriveVLA技术分析 - 核心目标是解决标准VLM在处理动态三维驾驶环境时的"模态鸿沟"问题,通过结构化方式让VLM理解3D世界[23] - 采用分层视觉Token提取方法,将BEV特征提炼为Agent Token、Map Token和Scene Token三种结构化视觉Token[25] - 多阶段训练范式包括特征对齐、指令微调、交互建模和轨迹规划微调四个阶段[25] - 在nuScenes开环规划基准测试上取得SOTA性能,平均L2误差0.33米,碰撞率0.10%[10] - 优势在于3D空间接地能力强,可解释性好,能有效抑制空间幻觉[26] AutoVLA技术分析 - 核心哲学是将驾驶任务完全融入VLM的原生工作方式,从"场景解说员"转变为"驾驶决策者"[26] - 创新性提出物理动作Token化,通过K-Disk聚类算法构建包含2048个离散动作基元的动作代码本[29] - 采用双模式思维与监督微调(SFT)结合组相对策略优化(GRPO)算法进行强化学习微调(RFT)[28][30] - 在nuPlan、Waymo和CARLA等多个基准测试上取得顶级性能[20] - 优势在于端到端整合度高,决策策略可通过RL持续优化,性能上限高[32] 技术对比 - OpenDriveVLA专注于感知-语言对齐,AutoVLA专注于语言-决策一体化[32] - OpenDriveVLA采用分层视觉Token提取,AutoVLA依赖模型自身注意力处理视觉信息[32] - OpenDriveVLA自回归生成文本形式坐标点,AutoVLA生成离散动作Token[32] - OpenDriveVLA采用多阶段监督学习,AutoVLA采用两阶段学习(SFT+RFT)[32] - 未来理想模型可能是两者的结合体,采用OpenDriveVLA的结构化感知前端和AutoVLA的动作Token化强化学习后端[34] 行业影响 - 两篇论文共同推动了VLA在自动驾驶领域的发展,描绘了更智能、更可靠的端到端自动驾驶系统前景[33] - OpenDriveVLA为建造摩天大楼打下坚实的地基,AutoVLA则是在坚实地基之上构建摩天大楼本身[36] - 相关技术涉及大模型、VLA、端到端自动驾驶、数据闭环、BEV感知等30+自动驾驶技术栈[38]
成本降低14倍!DiffCP:基于扩散模型的协同感知压缩新范式~
自动驾驶之心· 2025-08-18 01:32
协同感知技术现状 - 协同感知(Collaborative Perception)是解决独立智能系统局限性的新兴方案,但在非理想无线通信场景下面临高可靠性和低延迟传输的挑战 [3] - 当前C-V2X系统在10米距离最大数据速率约10Mbps,100米降至5Mbps,无法满足特征级和原始数据级协同算法的带宽需求 [3] - 多智能体系统中感知特征分布相似,关键差异来自几何位置和前景物体语义信息 [3] DiffCP技术突破 - 首次采用条件扩散模型捕获几何相关性和语义差异性,实现超低通信成本的特征级协同 [4] - 通过整合几何和语义条件,通信成本降低14.5倍,同时保持最先进算法性能 [4] - 可在单个通信步骤内重建协同智能体的BEV特征,成为基于BEV协同感知算法的通用范式 [5] 技术实现细节 - 使用预训练BEV感知算法提取特征,将扩散时间步/空间位置/语义向量作为条件嵌入 [5] - 几何先验信息引导扩散过程,六元素组成传感器几何位置状态 [9] - 语义提取器(SE)生成独特语义向量,通过可调向量长度实现通信量控制 [9] 性能优化方案 - 针对高精度3D检测任务,采用Top-K方法传输特征值最大元素增强重建精度 [11] - 实验显示在向量长度减少32倍时,准确性仅损失30% [18] - 通过DDIM加速去噪,评估指标为协同者与本车BEV特征的均方误差(MSE) [15] 实验数据对比 - 在3D目标检测任务中,DiffCP数据速率从745Mbps降至87.8Kbps,压缩倍数达8,700倍 [20] - AP@IoU=0.7指标显示:无协同58.22,传统特征级协同83.31,DiffCP+Top-25达78.75 [19] - 采样步数从2步增至9步时,计算时间从53ms升至185ms,需平衡迭代步数 [16][18] 行业应用价值 - 实现与SOTA算法相当精度,同时支持可变语义向量长度的自适应速率机制 [20] - 在超低带宽场景(如2.5Kbps)仍保持稳健性能,适合严苛通信条件部署 [16][20] - 推动网联智能系统在现有无线通信基础设施上的商业化落地 [22]
你的2026届秋招进展怎么样了?
自动驾驶之心· 2025-08-16 16:04
自动驾驶技术发展趋势 - 自动驾驶技术栈呈现趋同态势 从过去几十个分散方向转向统一方案如one model、VLM、VLA [1] - 技术方案统一化背后反映行业技术壁垒显著提升 [1] 行业社群建设 - 社群定位为综合型平台 旨在汇集全行业人才并促进交流成长 [1] - 社群正式运营方向聚焦产业讨论、公司分析、产品研发及求职跳槽等专业内容 [1] - 社群提供行业人脉拓展渠道 帮助成员第一时间获取产业动态信息 [1]
自动驾驶论文速递 | 视觉重建、RV融合、推理、VLM等
自动驾驶之心· 2025-08-16 09:43
Dream-to-Recon 单目图像三维场景重建 - 核心观点:慕尼黑工业大学团队提出基于扩散-深度蒸馏的单目3D场景重建方法Dream-to-Recon,通过三阶段框架实现仅需单张图像的高精度实时重建,为自动驾驶与机器人提供高效三维感知新范式 [2] - 技术框架: 1) 视图补全模型(VCM):基于ControlNet微调StableDiffusion-2.1,PSNR提升23.9 [2] 2) 合成占据场(SOF):遮挡区域重建精度达72%-73%,超越多视角监督方法2%-10% [2] 3) 轻量蒸馏模型:在KITTI-360/Waymo上整体精度达90%-97%,推理速度提升70倍至75ms/帧 [2] - 性能优势:成功重建动态物体,无需复杂传感器标定 [2][6] SpaRC-AD 雷达-相机融合自动驾驶框架 - 核心观点:慕尼黑工业大学团队提出首个雷达-相机融合的端到端自动驾驶框架,通过稀疏3D特征对齐与多普勒测速技术实现多项性能突破 [13] - 技术突破: 1) 3D检测mAP提升4.8%,跟踪AMOTA提升8.3% [13] 2) 运动预测mADE降低4.0%,轨迹规划L2误差降低0.11m [13] 3) 在nuScenes基准上实现轨迹预测一致性提升9.0%,仿真成功率提升10.0% [16] - 应用价值:增强感知范围,提升恶劣环境鲁棒性,支持检测、跟踪和规划查询的协同优化 [16] 视觉推理统一框架 - 核心观点:建立首个跨范式视觉推理统一框架,整合关系推理、符号推理等五大类型,推动自动驾驶/医疗等安全关键领域的可信AI发展 [23] - 研究进展: 1) 系统关联不同推理范式的方法、任务与评估指标 [24] 2) 整合多模态思维链推理等新兴方向,评估技术优势与局限性 [26] 3) 提出符号与亚符号推理融合、跨域自适应架构设计等前瞻方向 [27] - 行业影响:解决开放环境泛化性和评估可靠性问题,促进多模态因果基准发展 [23] STRIDE-QA 自动驾驶时空推理数据集 - 核心观点:构建目前最大规模自动驾驶时空推理VQA数据集(100小时/285K帧/16M QA对),通过多传感器自动标注实现厘米级几何精度 [36] - 数据特征: 1) 定义三个新颖的以自我为中心的VQA任务,联合要求空间定位和短期预测推理 [37] 2) 支持VLMs在细粒度空间和短期时间推理上的有监督训练 [39] - 模型表现:微调模型STRIDE-Qwen2.5-VL-7B时空定位成功率(MLSR)达55.0%,显著优于通用VLMs [42][44]
又有很多自动驾驶工作中稿了ICCV 2025,我们发现了一些新趋势的变化...
自动驾驶之心· 2025-08-16 00:03
多模态大模型 & VLA - 多模态大模型和VLA是当前最热门的赛道,主流范式遵循『预训练-微调-强化学习』三阶段,但通用自动驾驶VLM基础模型仍缺失 [5] - 华科与小米联合推出ORION框架,通过视觉语言指令生成动作实现端到端自动驾驶 [5] - 中山大学与美团合作开发All-in-One大型多模态模型DriveMM,整合多任务处理能力 [6] - 重庆大学提出MCAM模型,通过多模态因果分析理解自车级驾驶视频 [8] 闭环仿真 & 世界模型 - 基于世界模型和3DGS的闭环仿真成为行业刚需,聚焦车道线、红绿灯等细粒度性能优化 [5] - 清华大学与旷视科技推出DiST-4D模型,实现4D驾驶场景的时空解耦生成 [34] - 美团与中山大学开发RoboTron-Sim,通过模拟极端案例提升实车驾驶性能 [17] - 清华大学与地平线合作Epona模型,采用自回归扩散方法构建世界模型 [47] OCC与3D重建 - 丰田利用大规模二值占用数据开发语义占用预测模型B2S-Occupancy [52] - 清华大学团队提出GS-Occ3D,基于高斯泼溅技术扩展纯视觉占用重建 [51] - Valeo AI推出GaussRender,通过高斯渲染学习3D占用 [60] - 慕尼黑工业大学开发SceneDINO,实现无监督语义场景补全 [56] 目标检测 - 新加坡国立大学提出Perspective-Invariant 3D检测方法PI3Det,提升视角不变性 [68] - 韩国庆熙大学开发SFUOD框架,解决无源未知物体检测问题 [71] - 南京理工大学推出OcRFDet,基于物体中心辐射场实现多视角3D检测 [75] 数据集与评估 - 加州大学欧文分校发布DriveBench工具包,评估VLM在自动驾驶中的可靠性 [76] - 卡内基梅隆大学推出ROADWork数据集,专注施工区域驾驶场景 [79] - 中国科大与华为联合开发VLADBench,细粒度评估大视觉语言模型 [87] 端到端与轨迹预测 - 香港科技大学与滴滴合作强化轨迹预测模型,引入奖励启发机制 [29] - 韩国DGIST实验室利用可控扩散模型解决长尾轨迹预测问题 [30] - 中科院自动化所与理想汽车推出World4Drive,通过意图感知潜变量模型实现端到端驾驶 [32] 其他技术方向 - 浙江大学与中兴通讯开发Dynamic-DINO,实时开放词汇检测 [93] - 新加坡国立大学团队提出LiMA框架,跨视角蒸馏提升LiDAR表征 [97] - 复旦大学与萨里大学合作DriveX,在自由轨迹上生成驾驶视图 [37]