自动驾驶之心
搜索文档
传统规划控制不太好找工作了。。。
自动驾驶之心· 2025-10-30 00:04
行业技术趋势 - 自动驾驶规划控制岗位的职责范围正在扩大,不再仅仅是逻辑兜底,端到端和VLA的量产趋势正在蚕食传统规划控制的生存空间 [2] - 行业秋招面试更看重规则算法与端到端技术的结合,仅掌握传统规控基础已难以获得优质offer [2] - 工业界实际关注的加分项包括不确定环境下的决策规划问题,例如Contingency Planning和博弈式交互规划经验 [2] - 业内核心议题是明确端到端技术与传统规划控制在量产中的角色定位,前沿算法如一段式、二段式、自动驾驶与大模型及VLA是未来PnC岗位必须掌握的内容 [2] - 端到端自动驾驶是近两年的热点,传统规控工程师需了解其与传统方法的优劣及实际落地中的数据驱动收益最大化策略 [29] 课程核心目标与定位 - 课程设计直面工作难点和实际量产问题,旨在教授业内使用的经典方案、热门端到端方案以及两者在实际落地中的融合方式 [6] - 课程重点的两个工程项目可直接写入简历,尤其适合缺乏相关实习经验或简历项目不突出的学员在秋招前提升竞争力 [6] - 课程为小班教学,招收学员不超过50人,主打保姆级陪伴与教学,学完目标对标2年算法工程师经验 [7] - 课程后期提供求职辅导,包括修改简历、模拟面试和推荐工作机会,以助力学员拿到offer [8] - 课程适用于有一定实习或工作基础的学员,非面向纯小白,购买本课程可免费获赠一套基础课程 [12] 课程内容与教学安排 - 课程使用C++和Python作为主要开发工具,所有代码将开源,学员需具备一定的编程基础 [15] - 课程第一章将全面复盘规划控制基础算法,建立学员对领域的整体概念和全局视野 [20] - 第二章将利用基础算法构建完整的决策规划框架,包括路径-速度解耦框架、时空联合框架及数据驱动框架 [21] - 第三章聚焦不确定环境下的决策规划问题,讲解系统性解决方案Contingency Planning,从理论到代码全方位掌握 [24] - 第四章讲解博弈交互式规划方法,通过Dynamic Game Model理论实现自车与他车的联合轨迹优化 [26] - 第五章新增端到端自动驾驶内容,涵盖一段式、二段式端到端以及VLM & VLA技术 [29] - 第六章提供PnC岗位面试辅导,包括简历修改、模拟面试及面试技巧传授 [31] 课程附加价值与成果 - 根据反馈,前两批近100名学员已成功获得华为、百度、地平线、Momenta、小米、极氪及蔚小理等公司的offer [10] - 讲师宁远老师将提供一对一简历修改和Offer选择指导,实现保姆级陪伴 [10] - 课程提供价值1000元以上的附加福利,包括首次免费简历修改(价值500元)和赠送基础课程或满减券(价值500元) [33][36] - 学员在开课一周内仍可对导师专业性提出质疑,经核实后可申请全额退款 [43]
繁华落幕,人形机器人或将进入寒冬
自动驾驶之心· 2025-10-30 00:04
行业现状与市场预期 - 人形机器人行业面临普遍不及预期的状况,国外公司的表现和专家预言均不乐观 [4][5] - 特斯拉Optimus Gen2因发热、灵巧手短命问题暂停今年量产计划,Gen3再次跳票至明年第一季度 [5] - Figure 03被爆出存在多次拍摄剪辑问题,Meta首席AI科学家LeCun认为机器人行业远未实现真正智能,Google DeepMind负责人预计人形机器人进入家庭市场还需5-10年 [6] - 国内市场呈现虚假繁荣,订单多为左手倒右手、无需交付的框架订单或远期订单 [7] 技术瓶颈与核心挑战 - 硬件繁荣带来误区,误以为软件跟进是迟早之事,但过去50年硬件虽经翻天覆地变化(如宇树电驱打败波士顿动力液压技术)却仍未实现机器人大规模实用化普及 [8][9] - 本质卡点在于当前AI技术能否让人形机器人行业涌现智能仍存巨大疑问 [10] - 现有技术多基于VLA在特定场景下训练,可完成叠衣服、分拣包裹等任务,但缺乏泛化能力,无法适应家庭环境 [13][14] - 视频学习技术虽被特斯拉AI负责人及科研论文强调,但尚无公司能证明其可实现灵巧手的泛化操作,技术卡点包括强化学习奖励函数设计、手部识别精准度、逆动力学模型准确率等 [15][17] - 视频学习和世界模型仍处于大公司预研阶段,远未到落地阶段,多数公司(包括谷歌DeepMind)仍采用真机采集操作 [19] 潜在机遇与发展路径 - 行业存在两个不确定因素:特斯拉Optimus Gen3是否可超预期,以及硬件极致化能开拓何种市场 [19][24] - 特斯拉Optimus Gen3被寄予厚望,马斯克称其为无与伦比的产品,若明年第一季度展示失败则行业预期可能消耗殆尽 [20][21][22] - 宇树科技通过将硬件做到极致,走出泛娱乐化机器人道路,为行业提供了卖铲子式的发展路径,即使通用AI遇冷,泛娱乐路线研究仍会持续 [25][26] - 参考新能源汽车早期寒冬后的技术迭代与爆发,当前人形机器人的不及预期可能是一种蓄力 [27]
IROS'25冠军方案:X-VLA重磅开源,全面刷新机器人SOTA!
自动驾驶之心· 2025-10-30 00:04
模型核心亮点与性能 - 清华大学与上海人工智能实验室联合发布全新通用跨本体具身基座模型X-VLA,该模型是首个实现120分钟无辅助自主叠衣任务的全开源模型[2] - X-VLA以仅0.9B的参数量在五大权威仿真基准上全面刷新性能纪录,并在IROS-AGIBOT World Challenge上夺得冠军[2] - 模型具备四大核心亮点:率先实现超长时序灵巧操作任务的全流程开源、仅0.9B超轻量参数即实现SOTA性能、通过创新技术打破大规模异构数据训练难题、完整公开模型参数代码与训练数据[7] 技术突破与创新方法 - 引入面向本体泛化的Soft-Prompt机制,动态编码机器人硬件配置信息为连续表征,显著增强模型对异构机器人平台的适应能力[16] - 采用基于功能分工的多模态编码策略,对主视角和辅助视角图像进行分治编码,优化计算资源分配并提升信息处理通量[16] - 动作生成模块采用先进的flow-matching技术,以概率生成方式建模机器人动作序列,增强动作轨迹平滑性与环境鲁棒性[17] 仿真与实机测试表现 - 在五大权威仿真基准测试中,X-VLA以0.9B参数在多个关键指标上超越现有SOTA模型,如在Simpler基准上达到95.8分,在LIBERO基准上平均达到98.1分[25] - X-VLA的预训练缩放定律曲线呈现优异线性增长趋势,验证了其架构的强大可扩展性[22] - 在真实机器人平台上,X-VLA成功完成无限时长的自主叠衣任务,展示了应对复杂长程任务的卓越能力[27] 行业影响与竞争优势 - X-VLA为具身智能领域提供了性能强劲、完全开源的新基线与技术范式,有望推动行业技术发展[2] - 该模型在IROS-2025 AGIBOT World Challenge中从全球23个国家431支顶尖战队中脱颖而出,获得全球第一名[4][5] - 基于高质量预训练基座,X-VLA在后训练阶段展现出极高数据效率与稳定性,只需中小规模场景专属数据微调即可达到SOTA性能[23]
地平线HSD的确值得留意
自动驾驶之心· 2025-10-29 03:30
地平线HSD技术体验评估 - 2025年10月在杭州西湖对A车型地平线HSD工程车进行了1.5小时试驾,辅助驾驶能力相当不错,明显优于理想L7 VLA截至2025年10月的量产版本[5] - 试驾过程中除1次三点掉头外实现0次接管,在安心感、舒适感、丝滑度、时延及堵车连续启停舒适度方面均表现良好,全程几乎没有调整速度的欲望[6] - 地平线HSD技术架构为车端视觉信息输入、输出轨迹的VA式端到端,激光雷达定位为安全冗余,云端有语言介入,认为VA式端到端还有很大潜力可挖[5] 理想汽车VLA技术对比 - 2025年8月在北京顺义体验的理想i8 VLA工程车能力明显强于当时成都L7 VLA与北京i6 VLA的量产版本[5] - 无法明确判断2025年10月杭州体验的HSD工程车与2025年8月北京体验的理想i8 VLA工程车哪个体验更好[5] - 对VLA技术的观点是认为大量时候不需要语言,且串联式VLA对算力和带宽要求过高[5] 地平线团队合作与产品差异 - 接触的三个地平线智驾团队成员诚实度很高,主动详细说明系统在极端天气、非标场景、复杂博弈下的局限性[7] - 地平线HSD在不同车型上表现差异显著,A车型工程车辅助驾驶能力很不错,而B车型则很一般,差异原因包括芯片算力不同及与车企配合度有关[6] - 地平线与主机厂合作中,车机与智驾适配需高度尊重主机厂意见,导致SR界面布局和导航操作逻辑存在不符合直觉的问题[7] 行业技术发展现状 - 地平线团队成员评估HSD目前可能有FSD V13版本约60%的水平,但属于非严谨论证[7] - HUD和车机界面构成智驾体验重要部分,SR界面应放在左边而非右边,更改导航目的地按钮的设计也需要优化[7] - 行业中存在VA式端到端与VLA两种技术路径的探讨,VA式端到端被认为还有很大潜力[5]
ICCV 2025「端到端自动驾驶」冠军方案分享!
自动驾驶之心· 2025-10-29 00:04
赛事成就与排名 - 浪潮信息AI团队在ICCV 2025自动驾驶国际挑战赛的端到端自动驾驶赛道中夺得冠军,EPDMS综合得分为53.06 [2] - 该团队提出的创新框架"SimpleVSF"在榜单中排名第一,得分显著领先于第二名(51.31)和第三名(51.08) [3] - 此次夺冠是公司继2022年、2023年登顶nuScenes榜单以及2024年在CVPR自动驾驶挑战赛夺冠后的又一重要成果 [13] 技术框架与核心创新 - SimpleVSF框架创新地构建了以鸟瞰视图感知轨迹预测为核心、视觉-语言多模态大模型辅助判断的融合方案 [2] - 框架引入VLM增强打分机制,通过将前视图像与车辆状态输入VLM生成认知指令,使轨迹评估融入对交通意图与场景语义的理解 [8] - VLM增强打分机制为单一模型带来2%的性能提升,在融合决策中提升幅度达到6% [8] - 框架采用双重融合决策机制,包括权重融合器和基于VLM的选择融合器,融合后的结果相比单一模型性能提升达10% [10][11] - 框架采用扩散模型生成高质量候选轨迹,运用ViT-L等先进视觉骨干网络进行特征提取,并引入Qwen2.5VL系列视觉语言模型 [13] 行业挑战与赛题设置 - 端到端自动驾驶当前主要问题在于难以理解如礼让行人、拥堵跟车等高层次语义与场景常识,限制了其在真实开放道路中的可靠性与泛化能力 [5] - 赛题旨在提升模型在复杂动态环境中高效可靠决策的能力,比赛分为两阶段,第二阶段基于真实场景通过Gaussian Splatting技术生成合成场景以测试模型泛化能力 [6] - 比赛引入"反应式背景交通参与者",要求模型具备交互式预测与意图理解能力,而非简单的轨迹外推 [6] - 比赛以NAVSIM v2数据驱动仿真框架作为评估平台,考验纯视觉环视相机输入的轨迹预测与行为规划能力,并优化九项关键指标 [4] 技术影响与行业意义 - SimpleVSF框架有效弥合了传统轨迹规划与视觉语言模型语义理解之间的关键鸿沟,推动自动驾驶决策从"纯几何式"向"认知式"转变 [7] - 该技术为高动态、高交互交通环境下的智能决策提供了全新思路,突破了现有端到端自动驾驶模型在复杂交通场景"难以自主判断"的局限 [2] - 端到端自动驾驶通过端到端优化有效减少了传统模块化方法中各组件间的误差累积与信息损失,被广泛认为是实现智能驾驶的重要发展方向 [5]
Dream4Drive:一个能够提升下游感知性能的世界模型生成框架
自动驾驶之心· 2025-10-29 00:04
文章核心观点 - 提出了一种名为Dream4Drive的全新3D感知合成数据生成框架,旨在解决现有自动驾驶世界模型在评估合成数据有效性时存在的公平性问题,并显著提升下游感知任务的性能 [1][5][6] - 该框架通过将输入视频分解为3D感知引导图、渲染3D资产并微调世界模型,能够灵活生成大规模多视角极端场景视频,仅需添加不足2%的合成样本即可在相同训练轮次下超越纯真实数据训练的效果 [1][6][27] - 研究构建了大规模3D资产数据集DriveObj3D以支持多样化编辑,并通过大量实验证明该方法在不同训练轮次和分辨率下均能有效提升3D目标检测与跟踪等关键感知任务的性能 [2][27][29][30] 背景回顾 - 自动驾驶感知模型的性能高度依赖大规模人工标注数据,但收集长尾场景数据耗时费力,现有基于扩散模型或ControlNet的世界模型对单个目标的位姿和外观控制能力有限,难以生成多样化合成数据 [4] - 现有合成数据增强方法通常采用“合成数据预训练+真实数据微调”的策略,导致总训练轮次是基准模型的两倍,在训练轮次相同时,混合数据集相比纯真实数据训练并无优势,甚至性能更差 [5] - 视频编辑方法和基于NeRF/3DGS的重建类方法分别存在单视角局限性以及伪影、渲染不完整和视觉不一致等问题,限制了其在环视BEV感知任务中的应用 [4] Dream4Drive算法详解 - 框架核心流程包括将输入视频分解为深度图、法向量图、边缘图等3D感知引导图,将3D资产渲染到引导图上,并通过微调世界模型生成编辑后的多视角真实感视频 [5][8][16] - 采用密集型3D感知引导图而非稀疏空间控制(如BEV地图),结合多条件融合适配器和空间视角注意力机制,确保实例级空间对齐、时间一致性和跨视角连贯性 [8][19] - 训练目标结合了简化的扩散损失、前景掩码损失和LPIPS损失,无需昂贵3D标注,仅依赖RGB视频及可通过现成工具生成的引导图,大幅降低训练成本 [20][21] DriveObj3D资产 - 为支持多样化3D感知视频编辑,设计了一套高效3D资产生成流程,包括使用GroundedSAM进行目标分割、Qwen-Image生成多视角一致图像、Hunyuan3D进行3D网格重建 [22][25] - 构建了大规模3D资产数据集DriveObj3D,涵盖驾驶场景典型类别,其资产生成方法相比Text-to-3D和单视角方法能生成更完整、高保真且风格一致的资产 [9][25] 实验结果分析 - 在下游3D检测任务中,仅添加420个合成样本(<2%真实数据量),在1倍训练轮次下mAP从34.5提升至36.1,NDS从46.9提升至47.8;在2倍轮次下mAP从38.4提升至38.7,NDS从50.4提升至50.6 [27][28] - 在下游跟踪任务中,同等条件下AMOTA从30.1提升至31.2(1倍轮次)以及从34.1提升至34.4(2倍轮次)[27][28] - 在高分辨率(512×768)设置下,性能提升更为显著,mAP提升4.6个百分点(相对提升12.7%),NDS提升4.1个百分点(相对提升8.6%)[29] 消融实验 - 插入位置影响性能,左侧插入优于右侧(mAP提升0.4个百分点,NDS提升0.9个百分点),远距离插入效果优于近距离,因近距离插入可能造成严重遮挡 [37][38] - 3D资产来源影响合成数据质量,使用与数据集风格一致的资产(本文方法)相比Trellis或Hunyuan3D能产生更优的下游任务性能(mAP 40.7 vs 39.8/40.2)[39][41] - 与直接投影的“朴素插入”方法相比,Dream4Drive的生成式方法因能合成阴影、反射等真实感细节,在各项指标上均表现更优 [33][35]
RL训练中,为什么熵减往往意味着训练收敛?
自动驾驶之心· 2025-10-29 00:04
文章核心观点 - 文章从理论层面分析了在强化学习训练中,策略的熵值减小与训练收敛之间的内在联系 [1][4] - 核心观点指出,熵减导致收敛的现象主要是由softmax策略参数化方式特有的曲率性质造成的 [17] 理论分析:熵减与策略梯度衰减 - 对于softmax策略,状态s处关于logits的策略梯度范数的期望值直接等于1-exp{-H₂},其中H₂为Renyi-2熵 [6] - Renyi-2熵越小(例如接近0),期望的策略梯度范数也越接近0,而一般讨论的信息熵是Renyi-1熵,且Renyi熵在order上存在单调性,Renyi-1熵大于Renyi-2熵 [6] - 该现象背后的原理是:高概率动作的策略梯度范数更小,而熵越低越容易产生高概率动作,从而导致期望的梯度范数衰减 [7] 理论分析:熵减与策略更新幅度衰减 - 假设基础策略经过算法更新后得到新策略,状态s处更新前后logits向量的差为Δₛ,则新旧策略在状态s处的反向KL散度存在一个上界 [8] - 该上界与动作空间大小|𝒜|、logits变化的最大幅度‖Δₛ‖∞²以及(1-exp(-ℋ))成正比,其中ℋ为策略的熵 [8] - 当熵ℋ越接近0时,(1-exp(-ℋ))也越接近0,从而导致新旧策略在状态s处的KL移动幅度越接近0 [16] 结论与改进方向 - 熵减导致的学习衰退现象完全是由于softmax参数化的特殊曲率导致的 [17] - 在之前的RL研究中,使用牛顿法(如NPG)或更换其他参数化方式(如Hadamard参数化的PG)能够在一定程度上克服此问题,避免陷入局部最优 [17] - 文章指出,LLM与RL结合的研究仍有改进softmax参数化导致特殊学习动态的机会 [17]
博世Dino-Diffusion:端到端泊车无惧天气影响,解决跨域鸿沟
自动驾驶之心· 2025-10-29 00:04
文章核心观点 - 提出一种名为Dino-Diffusion Parking(DDP)的模块化自动驾驶停车系统,该系统结合视觉基础模型(DINOv2)与扩散模型进行轨迹建模,旨在解决端到端停车模型因天气等视觉变化导致的跨域失效问题 [8] - 该系统在CARLA跨域基准测试中显著优于现有方法,并在3D高斯喷溅(3DGS)环境中验证了其从仿真到现实的迁移潜力,成功率稳超90% [8][33] 自动驾驶停车领域现状与挑战 - 全球近60%的新车已配备某种形式的自动驾驶功能,但停车相关事故占美国所有车辆事故的20%,其中91%发生在倒车过程中,凸显精确感知、规划和控制的重要性 [6] - 自动停车面临空间受限、频繁转向、低速复杂路径规划等独特挑战 [6] - 端到端方法对训练与测试分布的一致性要求高,视觉变化(如天气、光照)会导致策略失效,在跨域迁移时表现不佳 [6] Dino-Diffusion Parking系统方法 - 系统采用模块化、级联设计,解耦感知、规划与控制,避免过拟合 [8][10] - 使用预训练的DINOv2模型提取图像特征并转换为鸟瞰图表示,利用其强大的跨域泛化能力为规划提供稳定输入 [9] - 提出后见目标重标注策略,在训练中对目标位姿进行扰动并重新生成分割图,以提升模型对目标位姿的鲁棒性 [12] - 使用FiLM结构将目标位姿信息融合到BEV特征中,避免梯度传播不稳定 [13] - 将轨迹规划建模为扩散过程,在SE(2)空间中建模以降低误差累积,并使用Stanley控制器进行精准轨迹跟踪 [14][15][18] 实验验证与结果 - 在CARLA模拟器中训练,使用800条专家轨迹,测试环境包括与训练环境一致、轻度域偏移(如云层、降水)和重度域偏移(如低光照、大雾)三种天气设置 [20][21] - DINOv2提取的特征在不同域下保持一致,而传统模型(如EfficientNet)对视觉变化敏感,定量结果显示该方法在多个特征层上误差显著降低 [23] - 通过引入重标注数据,模型能稳定识别目标车位,在视觉变化下保持一致性 [26] - 扩散模型与Stanley控制器结合,在大域偏移下成功率提升16%,轨迹误差更小 [27] - 在由真实停车场重建的3DGS环境中进行零样本测试,系统能部分成功完成停车任务,展现出一定的仿真到现实迁移能力 [31] 未来工作方向 - 引入视频世界模型进一步缩小仿真与现实的差距 [35] - 在3DGS环境中收集人类演示数据进行训练 [35] - 在真实车辆上部署系统,验证其在多样化场景下的表现 [35]
给自动驾驶业内新人的一些建议
自动驾驶之心· 2025-10-29 00:04
社区概况与定位 - 社区名称为“自动驾驶之心知识星球”,是一个集视频、图文、学习路线、问答、求职交流为一体的综合类自动驾驶社区 [1][3] - 社区已运营三年,当前成员规模超过4000人,并计划在未来2年内发展到近万人规模 [1][3] - 社区旨在为初学者和进阶者提供技术分享与交流平台,解决行业壁垒高、试错成本高、缺乏完整学习体系等问题 [1][3] 社区资源与技术覆盖 - 社区内部梳理了超过40个自动驾驶技术方向的学习路线,涵盖感知、规划控制、仿真、端到端驾驶等多个领域 [5][6][14][15] - 资源形式包括近40个开源项目汇总、近60个自动驾驶相关数据集、行业主流仿真平台以及各类技术学习路线 [14] - 提供原创直播课程,内容覆盖感知融合、多传感器标定、SLAM与高精地图、决策规划、数据工程、自动驾驶仿真及端到端与大模型技术等9大系列 [9] 成员构成与合作伙伴 - 社区成员来自上海交大、北京大学、CMU、清华大学等国内外知名高校实验室,以及蔚小理、地平线、华为、英伟达、百度等自动驾驶头部公司 [14] - 社区与多家自动驾驶公司建立了岗位内推机制,可帮助成员简历直达心仪公司 [10] - 社区定期邀请学术界与工业界大佬进行直播分享,目前已举办超过一百场专业技术直播 [84] 具体技术内容与问答 - 社区日常讨论问题包括端到端自动驾驶入门、VLA学习路线、多模态大模型数据集、多传感器融合就业前景、3DGS与闭环仿真结合等前沿话题 [7][18] - 技术资料库详细梳理了3D目标检测、BEV感知、扩散模型、世界模型、视觉语言模型、自动驾驶VLA等热点领域的最新综述、方法汇总与开源数据集 [20][37][39][43][45] - 提供“自动驾驶100问”系列实战资料,涵盖TensorRT模型部署、毫米波雷达融合、车道线检测、规划控制、BEV感知、相机标定等工程化主题 [8]
今年CVPR,自动驾驶还能冲什么方向?
自动驾驶之心· 2025-10-28 00:03
行业趋势与市场定位 - CVPR 2026投稿量已超2000篇,预计将超过ICLR投稿量[1] - 行业研究趋势显示,CVPR 2026主旋律可能是世界模型,紧跟2024多模态和2025视频生成的趋势[1] - 公司专注于自动驾驶、具身智能、机器人等交叉学科,深耕多年并拥有顶尖学术资源[3] 公司服务与产品核心 - 提供论文辅导服务,内容包括掌握技术脉络、复现模型、产出论文初稿及投稿指导,目标冲击高区或顶会[2] - 拥有300多名专职老师,来自全球QS排名前100,发表过多篇顶会/子刊/A会/B会论文,近3年辅导学员超400名,中稿率高达96%[5] - 服务流程包括个性化论文指导、导师实时互动、录播回看及课后答疑,提供从选题到中稿的一站式科研服务[13] 目标客户与学员成果 - 目标客户包括有科研需求、从事人工智能领域工作、考研申博留学等群体[14] - 学员案例显示,辅导周期2-4个月可达成SCI、CCF A/B、顶会等成果,例如某学员在3个月内完成CCF B类论文并投稿emnlp顶会[6] - 学员要求自带简历并有一定PyTorch基础,主要方向涵盖三维重建、SLAM、点云处理、计算机视觉等[10] 服务优势与附加价值 - 解决导师放养、知识零散、缺乏科研体系等问题,帮助建立科研思维并熟悉流程[7] - 优秀学员可获得清北/MIT等名校推荐信,或内推至阿里达摩院、华为诺亚方舟等企业研发岗[19] - 提供精准匹配系统,根据学员研究方向、目标期刊和基础水平筛选3-5位导师,并支持试听和退款承诺[18][19]