自动驾驶之心

搜索文档
一文尽览!近一年自动驾驶VLA优秀工作汇总~
自动驾驶之心· 2025-07-15 12:30
自动驾驶VLA技术进展 - 端到端自动驾驶成为主流范式,视觉-语言-动作(VLA)方法在学术界和工业界快速落地[2] - 理想、文远知行、小米、小鹏等主机厂正在大力尝试VLA技术的量产应用[2] - 2025年学术界和工业界涌现大量优秀工作,重点关注VLA落地可行性、扩散模型轨迹可靠性等问题[2] NavigScene技术突破 - 小鹏汽车提出NavigScene,解决局部传感器数据与全局导航信息的关键差距[2] - 开发三种互补方法:导航引导推理、导航引导偏好优化、导航引导VLA模型[2] - 实验显示显著提升感知、预测、规划和问答任务性能,实现超视距推理能力[2][6] - 在NuInstruct基准测试中,Qwen2.5-7B模型表现最佳,多项指标提升明显[5] AutoVLA创新框架 - UCLA提出AutoVLA,统一推理和动作生成的自回归模型[7] - 采用SFT+GRPO两阶段训练,在NAVSIM取得92.12 PDMS指标[9] - 在nuPlan、nuScenes等多个基准测试中展现竞争优势[8] - 实现自适应推理能力,可根据场景复杂度调整思维模式[12] ReCogDrive三阶段训练 - 华科与小米合作提出三阶段训练框架[13] - 收集2.3M高质量QA数据,通过预训练+模仿学习+强化学习流程[14] - 在NAVSIM基准达到89.6 PDMS,创下新SOTA记录[16] - 比之前最佳方法提升5.6 PDMS[16] 数据集与基准建设 - 清华AIR与博世发布Impromptu VLA数据集,包含80K+精选视频片段[17] - 理想汽车推出DriveAction基准,包含16,185个QA对,覆盖2610个驾驶场景[31] - 实验显示视觉和语言输入缺失会导致动作预测准确率下降3.3%-8.0%[31] - 基准建设被认为是行业未来重点发展方向[50] 技术趋势与挑战 - 思维链、空间理解成为标配技术,但车端必要性存疑[50] - 时序处理研究不足,与实际车端需求存在差距[50] - 轨迹输出形式分文本自回归和扩散模型两大路线[50] - 行业缺乏大规模自动驾驶预训练基座模型[50] - NAVSIM指标已逼近人类专家水平,验证技术可行性[50]
双非研究生,今年找工作有些迷茫。。。
自动驾驶之心· 2025-07-14 14:04
行业趋势与人才需求 - 自动驾驶和具身智能公司对人才要求较高,倾向于实力强、背景好的候选人 [3] - 大公司招聘需求集中在端到端、大模型、VLA、强化学习、3DGS等前沿方向 [4] - 机器人初创公司融资活跃,未来几年发展前景可观 [4] - 传统机器人技术仍是产品主线,但具身智能是最前沿方向 [5] 技术方向与就业建议 - 双非学生可转向机器人/具身智能领域,从事SLAM、ROS相关优化和集成工作 [4] - LV融合、无图、BEV感知等技术已应用但人才饱和 [4] - 深圳、杭州的机器人公司提供全面技术培养机会 [5] 前沿技术资源汇总 - 视觉大语言模型、世界模型、扩散模型和端到端自动驾驶是四大技术方向 [9] - 提供10个Awesome和综述资源链接,涵盖智能交通、AIGC、视觉语言模型等领域 [10] - 列出17个VLM预训练数据集,最大规模达12B图像-文本对(LAION5B) [17] - 汇总图像分类、文本检索、行为识别等评估数据集,如ImageNet-1k(1000类)、Kinetics700(700类) [18][20] 自动驾驶数据集与应用 - 覆盖2D/3D目标检测、语义分割、跟踪等任务,如NuScenes(2020年,多模态)、Waymo Open Dataset(2020年) [23] - 语言增强数据集支持视觉-语言导航、车辆检索等应用,如NuScenes-QA(2023年) [24] - 智能交通领域方法聚焦语言引导的车辆检索和视觉问答 [25] - 自动驾驶感知技术包括语言引导的3D检测、开放词汇分割(如OpenScene) [26] 世界模型与扩散模型 - 世界模型研究集中在3D场景理解和生成,如HERMES(2025年)、DriveGPT(2024年) [32][33] - 扩散模型在自动驾驶中用于视频生成(如DriveDreamer)、数据增强(如Cityscape-Adverse) [35][41] - 汇总19篇扩散模型综述,涉及3D视觉、推荐系统等方向 [35][38][39] 端到端自动驾驶 - 开源仓库跟踪E2E最新研究,如opendilab/awesome-end-to-end-autonomous-driving [43][47] - 方法融合多模态感知与规划,如DriveGPT4(2023年)、VADv2(概率规划) [47][50] - 研讨会覆盖CVPR、ICRA等会议,探讨基础模型与规模化应用 [48] - 长尾分布问题通过对抗训练(如CAT)、场景生成(如KING)解决 [53][58]
VLA盛行的时代,为什么这家公司坚持量产非端到端方案?
自动驾驶之心· 2025-07-14 11:54
公司战略与技术路线 - 公司早期采用低成本方案和模块化技术路线,未大规模投入端到端解决方案[1] - 现有规则方案已满足多数稳定场景需求,主机厂偏好兼容现有生态的模块化方案[1] - 模块化方案依赖规则+小数据量调整适配区域差异,训练数据需求远低于端到端方案[1] - 公司主力方案采用多感知+预测两阶段技术架构(map、od、occ等)[1] 行业现状与挑战 - 多数tier1供应商因端到端方案未验证显著优势,短期内坚持现有量产方案[1] - 端到端方案面临海量高质量数据训练需求,量产规模不足导致研发成本高企[1] - 模块化方案凭借早期数据积累和供应链稳定性,仍是行业主流低成本选择[1] - 新势力车企自研自产模式与供应商量产模式存在成本与风险差异[1] 研发投入与商业化 - 公司持续尝试控制端到端及大模型方案的成本,但高阶研发迭代费用高昂[1] - 量产规模限制导致新技术商业化风险显著,与模块化方案形成成本剪刀差[1]
现在自动驾驶领域的行情怎么样了?都有哪些方案?
自动驾驶之心· 2025-07-14 11:30
自动驾驶产业概况 - 自动驾驶分级与应用涵盖行车、泊车、座舱、V2X等主要功能 [1] - 核心系统由芯片、软件、传感器构成 [3] 技术趋势 - 传统自动驾驶pipeline仍为主流方案之一 [5] - 新兴技术包括端到端自动驾驶、VLM方案、VLA方案 [6][7] 主机厂与供应商格局 - 新势力主机厂包括小鹏、理想、蔚来、华为、极氪、小米等 [7] - 老牌车厂涵盖比亚迪、吉利、长安、奇瑞等 外企包括奔驰、大众、现代 [7] - 上市供应商有地平线、小马智行、黑芝麻智能等 未上市企业含momenta、轻舟智行等 [8] 职位与技术方向 - 传统方案涉及定位建图(NERF、splatting)、感知层次(BEV算法、OCC)、后融合技术 [8] - 新方案聚焦端到端算法、扩散模型、强化学习、VLA/VLM算法及数据闭环工程 [8] 行业资源与求职服务 - AutoRobo求职星球提供面试题库(如毫米波视觉融合一百问、BEV感知一百问)、行业研报(人形机器人量产研报)、面经复盘(覆盖滴滴、英伟达等企业案例) [16][17][26][27] - 附加服务包括谈薪技巧、简历优化、内推资源及专业书籍推荐 [28][29] 市场参与者动态 - 大厂布局自动驾驶领域包括百度、滴滴、京东 其他玩家含商汤绝影、毫末智行等 [8] - 技术细分领域覆盖多传感器标定、3D目标检测、CUDA部署等实战方向 [17]
自动驾驶圆桌论坛 | 聊聊自动驾驶上半年都发生了啥?
自动驾驶之心· 2025-07-14 11:30
技术路线与量产现状 - BEV感知方案已成为行业主流量产选择 完全替代传统单目/双目检测方案 但在corner case(如非结构化道路、复杂路口)上仍有明显短板 [11][36] - 特斯拉引领的纯视觉BEV+Occ环境建模方式已获行业验证 但3DGS等新型表征方式正在探索中 [2][52] - 端到端方案(E2E)尚未展现显著优势 数据收集难度和训练成本高于传统两阶段模型 目前更多停留在PR层面 [4][48] 新兴技术方向 - VLA/VLM成为2025年焦点技术 通过语言模型提升corner case处理能力 但存在落地真实性存疑、学术界与工业界数据壁垒等问题 [5][20][45] - 扩散模型在轨迹生成中展现多模态优势 但实时性仍是量产挑战 CVPR2025的DiffusionDrive已取得进展 [17][39] - 世界模型主要应用于仿真数据生成 预训练和端侧推理仍待突破 部分厂商宣传存在夸大 [50][52] - 强化学习受限于仿真精度与安全性要求 在自动驾驶领域尚未规模化应用 但长期潜力被看好 [7][47][51] 行业痛点与突破方向 - 长尾场景处理需解决三大核心问题:VLA在corner case的实证数据不足、车端算力与模型效率的平衡、模仿学习的天花板突破 [5][6][7] - 数据闭环能力成为竞争关键 需构建自动化标注+仿真验证的高效流水线 头部企业已布局AI驱动的数据运营体系 [28][33] - 芯片算力限制导致技术分层:Orin-X支持多模态LLM处理复杂城区场景 而J6M等中低端芯片仅能支撑纯视觉高速NOA [40][45] 未来趋势与竞争格局 - 技术路线呈现分化:L2+方案侧重VLA泛化性提升 L4方案聚焦世界模型构建安全验证体系 [25] - 3D高斯与毫米波雷达应用被忽视 前者可发展为世界模型表征 后者存在技术空白 [52] - 行业进入"智驾平权"阶段 地平线征程6等芯片推动辅助驾驶普及 但平价车型仍受限于corner case处理能力 [36][39] - 中心化智能成为长期方向 从单车智能向V2X+云端协同演进 [47] 技术迁移与跨领域应用 - 自动驾驶与具身智能技术高度互通 VLA时代下两者在安全场景与灵活场景形成互补 [33] - 舱驾一体化成为新探索方向 结合语音与OS系统提升用户体验 [43] - 知识体系需保持可迁移性 避免过度专业化导致转行障碍 [52]
小鹏最新!NavigScene:全局导航实现超视距自动驾驶VLA(ACMMM'25)
自动驾驶之心· 2025-07-14 11:30
自动驾驶技术突破 - 小鹏汽车团队提出NavigScene解决方案,通过连接局部感知和全局导航信息弥补自动驾驶系统关键差距,实现超视距推理能力[2] - NavigScene包含两个子集:NavigScene-nuScenes和NavigScene-NAVSIM,通过自然语言指令模拟人类驾驶环境,整合Google Maps等导航工具的BVR(超视距)信息[9][14] - 系统采用三种创新方法:导航引导推理(NSFT)、导航引导偏好优化(NPO)和导航引导视觉-语言-动作模型(NVLA),显著提升感知、预测和规划任务性能[10][12] 技术实现细节 - 视觉生成模块利用Google Maps API合成导航视频,通过Direction API获取路线、Static Map API采集连续图像,Distance Matrix API计算行驶数据[16] - 文本生成采用三重相似度指标(交叉路口相似度Sinter、距离相似度Sdist、词汇相似度Sword)选择最优导航描述,权重分配体现方向准确性优先原则[18] - NVLA模型通过可学习MLP解决VLM高维输出(如LlamaAdapter的32,000维)与BEV特征(典型256维)的维度不匹配问题,实现特征融合[28][29] 性能验证数据 - 问答任务中,整合NavigScene的VLMs在BLEU-4、METEOR等指标全面提升,Qwen2.5-7B表现最佳(BLEU-4从51.65提升至55.13)[32][47] - 端到端驾驶测试显示,SparseDrive模型整合Qwen2.5-7B后检测mAP提升0.04,闭环规划中DAC指标达96%,优于基线系统84.2%[40][41] - 跨城市泛化实验证明,NPO技术使波士顿→新加坡场景的平均碰撞率从26.83%降至22.55%,显著增强陌生环境适应能力[55] 行业应用前景 - 技术方案已覆盖感知(3D检测、BEV)、预测(轨迹分析)、规划(闭环控制)全链条,形成30+技术栈的完整学习体系[65] - VLA/VLM算法工程师岗位需求激增,顶尖企业为博士人才提供90-120K薪资,反映技术商业化加速[64] - 行业社区规模达4000人,涵盖300+企业与科研机构,显示技术生态快速扩张[65]
ICCV25!百度U-Vilar:视觉定位多任务SOTA,无痛兼容端到端框架~
自动驾驶之心· 2025-07-14 11:30
百度U-ViLAR视觉定位框架 - 核心解决城市环境中GNSS信号受建筑物干扰导致的定位不可靠问题 通过视觉定位技术实现高精度定位 [2] - 创新性采用感知不确定性(PU)和定位不确定性(LU)双模块解耦设计 突破传统方法对光照/视角敏感和大规模3D地图构建成本高的限制 [2][4] - 在nuScenes数据集横向定位召回率@1m达69.12% 较OrienterNet-S提升17.86个百分点 航向角召回率@3°达94.84% [23] 技术架构 BEV特征处理 - 采用ResNet主干网络提取多视图图像特征 通过BEVFormer投影至鸟瞰图空间 支持HD Map与OpenStreetMap双地图输入 [6][7] - 创新跨模态融合机制 交替使用自注意力(SA)和交叉注意力(CA)增强视觉与地图特征关联性 [8] 不确定性建模 - PU模块生成像素级不确定性图 通过高斯核构造软标签监督矩阵 全局关联采用交叉熵损失 局部关联使用对称交叉熵损失 [10][13][14] - LU模块对平移/旋转三自由度离散化建模 通过香农熵量化不确定性 构建3D联合概率分布实现128m×128m大范围搜索 [15][17] 性能表现 - 在SRoad复杂道路数据集(含50万+帧)中 横向定位@5m召回率达88.03% 较基线提升3.52个百分点 [22][23] - 实时性达28FPS(V100 GPU) 经优化后可在Orin平台实现15FPS 满足车载算力要求 [20] - 消融实验证实去除PU或LU模块会导致定位误差显著增加 横向MAE从0.040m恶化至0.064m [24][25] 应用前景 - 已验证支持HD Map和开源地图(OSM)双模式输入 在KITTI 39.2公里里程数据中纵向定位@5m召回率70.20% [22][23] - 未来将扩展至交叉口/高架桥等复杂场景 目标建立跨数据集统一模型 [26]
VLA之外,具身+VA工作汇总
自动驾驶之心· 2025-07-14 10:36
具身智能领域研究进展 - 2025年将涌现大量具身智能与视觉动作融合的研究成果,涵盖机器人操作、全身控制、sim2real迁移等方向,其中字节跳动Seed团队提出Chain-of-Action轨迹自回归建模方法[2] - 扩散策略成为主流技术路线,涉及潜在空间强化学习(Steering Your Diffusion Policy)、模态组合扩散(Modality-Composable Diffusion Policy)、响应式噪声中继扩散(Responsive Noise-Relaying Diffusion Policy)等变体[2][3][4] - 单次学习(One-Shot)技术取得突破,包括You Only Teach Once双手机器人操作、FUNCTO工具操作模仿、Human2Robot人机视频配对学习等方案[2][3][5] 机器人操作技术创新 - 灵巧操作领域出现AnyDexGrasp通用抓取系统,学习效率达到人类水平,支持不同手型适配[3] - 触觉融合技术发展显著,包含Adaptive Visuo-Tactile Fusion多感官融合、KineDex触觉运动教学、Tactile Beyond Pixels多模态触觉表征等方案[3][7] - 非prehensile操作取得进展,DyWA动力学自适应模型实现通用化非抓取操作,SPOT基于SE(3)的物体中心轨迹扩散提升操作精度[5][8] 仿真到现实迁移 - sim2real技术出现FetchBot零样本迁移方案,可在杂乱货架实现物体抓取[3] - 世界模型应用广泛,LaDi-WM基于潜在扩散的预测模型、GAF高斯动作场动态模型、World4Omni零样本框架等提升跨域迁移能力[7][9] - 数据生成技术突破,DemoGen合成演示生成、GraspMolmo大规模合成数据生成等方法解决数据效率问题[3][7] 算法架构演进 - 2024年扩散策略持续优化,出现1B参数规模的Transformer扩散策略(Scaling diffusion policy)、Consistency Policy一致性蒸馏加速、One-Step Diffusion单步蒸馏等高效方案[9][11] - 3D表征成为新趋势,3D Diffuser Actor、GenDP 3D语义场、Lift3D 2D升维等方法增强空间理解[9][11] - 多任务学习框架创新,包含MoE-Loco专家混合架构、H3DP三重层次扩散策略、Mamba Policy混合选择状态模型等[5][9] 人机交互技术 - 人类示范利用效率提升,Phantom仅用人类视频训练、ZeroMimic从网络视频蒸馏、HACTS人类协同驾驶系统等方法降低数据依赖[4][5][7] - 跨具身学习取得进展,SHADOW利用分割掩码跨具身迁移、UniSkill跨具身技能表征实现视频模仿[4][6] - 人形机器人技术突破,HumanoidPano全景-LiDAR跨模态感知、Trinity模块化AI系统、Distillation-PPO两阶段强化学习框架等推动发展[5]
从BEV到端到端,谈谈自动驾驶数据闭环的核心~
自动驾驶之心· 2025-07-14 10:36
自动驾驶4D自动标注技术 核心观点 - 4D自动标注(3D空间+时间维度)成为自动驾驶数据闭环的核心竞争力,需解决时空一致性下的多任务联合标注问题(动态障碍物、静态元素、OCC、端到端标注)[1] - 自动标注算法(auto-labeling)是高精度离线真值生成系统,可突破车端算力限制,实现全时序数据优化,并挖掘corner case指导模型训练[1] - 行业痛点包括:跨传感器标定/遮挡处理、算法泛化性、标注质量筛选、自动化质检等,直接影响数据闭环迭代效率[2] 技术难点 1. **时空一致性**:需在连续帧中精准追踪动态目标轨迹,解决遮挡/形变导致的标注断裂[3] 2. **多模态融合**:激光雷达/相机/雷达数据需同步处理坐标对齐、语义统一和时延补偿[3] 3. **动态场景泛化**:交通参与者突发行为(急刹/变道)及恶劣天气增加标注模型适应性挑战[3] 4. **效率与成本**:高精度标注依赖人工校验,海量数据导致周期长,自动化算法复杂场景精度不足[3] 课程核心内容 - **动态障碍物标注**: - 涵盖离线3D检测(SAFDNet算法)、多目标跟踪(DetZero实战)、误漏检优化及数据质检[7] - **SLAM重建**: - 激光&视觉SLAM算法原理(Graph-based方案)及在静态标注中的应用[8][10] - **OCC标注**: - 基于Lidar/视觉的稠密化点云方案,优化跨传感器遮挡场景[11] - **端到端真值生成**: - 一段式/两段式实现方案,整合动态障碍物/静态元素/自车轨迹,含DrivingGaussian闭环仿真实战[12] 行业趋势 - 数据驱动架构面临scaling law有效性验证,需解决跨传感器/感知系统协同问题[13] - 量产场景泛化要求覆盖不同城市/道路/天气数据,标注算法性能需持续优化[3] 技术应用价值 - 掌握4D自动标注全流程可提升算法研发能力,覆盖学术界(CVPR 2024算法)与工业界(特斯拉Occupancy Network等量产技术)前沿[7][11][18]
还在纠结是否入门大模型?别人已经发了第一篇顶会!
自动驾驶之心· 2025-07-14 06:20
大模型在自动驾驶领域的应用 - 大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行自己的VLA、VLM方案 [1] - 下一代大模型需要关注轻量化与硬件适配、知识蒸馏与量化加速、高效微调大模型等方向 [1] - CoT方案是后期完成空间感知的重点,VLA+强化学习等高级推理范式受到行业重点关注 [1] 大模型优化课程介绍 - 课程系统性地探讨大模型的前沿优化方法,重点研究参数高效计算、知识动态扩展和复杂推理三大方向的关键技术 [2] - 参数压缩方面研究剪枝稀疏化和量化加速等轻量化方法 [2] - 知识扩展方面探索检索增强生成(RAG)和参数高效微调(PEFT)等动态知识注入技术 [2] - 推理优化方面研究链式思维(CoT)和强化学习优化(GRPO)等高级推理范式 [2] 课程解决的问题 - 帮助学员系统掌握大模型相关理论知识,形成清晰的体系 [3] - 解决动手能力差、无法复现论文的问题,协助开发设计新模型 [3] - 解决论文写作和投稿难题,积累写作方法论并获得投稿建议 [3] 课程收获 - 掌握大模型优化的核心算法,包括结构化剪枝、低比特量化、动态检索等关键技术 [9] - 获得Coding能力增强,在baseline代码和可用数据集上高效展开研究 [9] - 撰写出论文初稿,可能产出一篇不错的论文 [9] 课程大纲 - 大模型剪枝与稀疏化算法优化:详解让大模型体积更小、运行更快的方法 [19] - 大模型量化加速全景:从数据位宽到编译来优化大模型的加速 [19] - 参数高效微调(PEFT)革命:介绍用少量计算资源让大模型适应垂类任务的高效微调算法 [19] - 基于RAG的大模型知识动态扩展范式:解决大模型的事实性错误和知识更新滞后问题 [19] - Chain-of-Thought推理进阶:针对让大模型分步骤思考解决复杂问题的算法进行深入剖析 [19] 课程资源 - 提供Baseline代码,包括LLM-Pruner、GPTQ、LLaVA等开源项目 [16] - 必读基础论文包括GPTQ、Sheared LLaMA、TVM等 [18] - 数据集来自于公开数据集,根据具体任务选用 [13] 招生要求 - 具备深度学习/机器学习基础,熟悉Python和PyTorch [6] - 最好具备4张4090显卡或以上设备性能的机器,最低不少于2张4090显卡 [15] - 掌握基本的编程语言,熟练使用PyTorch等深度学习框架 [15]