自动驾驶之心
搜索文档
自动驾驶之心招募合伙人啦!4D标注/世界模型/模型部署等方向
自动驾驶之心· 2025-10-04 04:04
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 重点技术方向 - 招募方向聚焦于大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他关键技术领域包括具身交互、联合预测、SLAM、3D目标检测 [3] - 世界模型、闭环仿真3DGS、大模型部署与量化感知推理也是重点方向 [3] 合伙人资质要求 - 候选人需毕业于QS200以内高校并拥有硕士及以上学历 [4] - 拥有顶级学术会议成果的候选人将获得优先考虑 [4] 合伙人待遇与资源 - 提供自动驾驶领域的资源共享,包括求职、读博、出国留学推荐等 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
自动驾驶之心双节活动进行中(课程/星球/硬件优惠)
自动驾驶之心· 2025-10-04 04:04
社区核心定位 - 专注于自动驾驶技术领域的最前沿社区 [5] - 社区技术方向涵盖视觉语言自动驾驶、世界模型、闭环仿真、扩散模型、鸟瞰图感知等超过40个学习路线 [5] - 社区旨在保持技术活力并推动持续学习 [5] 技术交流与资源 - 提供与学术界及工业界顶尖专家面对面交流的机会 [5] - 交流议题包括视觉语言自动驾驶与规划代理的路线之争、自动驾驶未来发展方向、世界模型内涵及端到端技术讨论 [5] - 社区资源包括七门精品课程,内容覆盖世界模型、轨迹预测、大模型、相机标定、毫米波雷达、点云3D检测、Transformer等技术领域 [5] - 社区内容设计面向初学者,注重核心能力培养 [5] 会员与活动推广 - 为新会员提供星球七折优惠,续费会员可享五折优惠 [4] - 平台课程提供八折优惠券及七折超级折扣卡 [3]
纵向端到端是自动驾驶技术的一道分水岭
自动驾驶之心· 2025-10-04 04:04
行业技术发展现状 - 端到端技术已成为自动驾驶行业普遍宣称但实际实现程度参差不齐的技术方向 [2] - VLA和世界模型成为行业新的热门词汇和竞相追逐的焦点 [2] - 横向端到端(模型驱动的横向规划)已被多家头部智驾团队实现 [3] - 纵向端到端仍是自动驾驶技术的一道分水岭,真正实现的系统极少 [3] 纵向端到端的必要性 - 单纯依赖规则或优化方法难以保证纵向控制的拟人丝滑 [3] - 老司机与新司机的关键区别在于对减速的控制能力 [3] - 防御性驾驶的核心是合理的纵向决策控制加减速 [4] - 真正的防御性减速需要根据必要性在安全和效率间进行权衡取舍 [4] 纵向端到端技术难点 - 纵向控制目标与沿着导航路径高效通行的核心目标存在矛盾 [15] - 人类纵向驾驶数据相比横向数据更为"嘈杂",速度控制存在随机波动 [16] - 模仿学习难以区分有意识的纵向控速和无意义的降速波动 [16] - 横向控制与导航目标正交,而纵向控制与效率目标直接冲突 [15] 技术解决方案方向 - 需要大量数据清洗减少纵向数据噪声对模型训练的影响 [17] - 引入语言因果逻辑推理筛选有逻辑的加减速操作 [17] - 结合强化学习避免模仿学习假设人类数据永远是最优策略的局限 [17] 实际场景表现对比 - 在路口盲区场景中,FSD在自车未探出路口前就将速度降至11km/h,而其他系统在车头明显探出后才减速至12km/h [6][8] - 窄路会车场景中,FSD主动减速靠右让行,通过对向车后立即加速,而其他系统选择继续前行导致双方车辆都降至极低车速 [10][11] - FSD的纵向控制能够实现根据盲区消失及时恢复速度,完全符合人类驾驶预期 [8][14]
模仿学习无法真正端到端!DriveDPO:Safety DPO打破模仿学习固有缺陷(中科院最新)
自动驾驶之心· 2025-10-03 03:32
文章核心观点 - 中科院团队提出DriveDPO框架,旨在解决端到端自动驾驶模仿学习中的安全性问题,通过统一策略蒸馏和安全直接偏好优化,在NAVSIM基准上实现90.0的最新最优PDMS,比纯模仿学习提升1.9,比基于分数的最优方法提升2.0 [1][7][8][12][22] 端到端自动驾驶模仿学习的局限性 - 模仿学习仅关注预测轨迹与人类轨迹的几何相似度,但几何距离不等于安全距离,即使轨迹相似,安全性可能差异巨大 [5][11] - 模仿学习使用对称损失函数,对超越或滞后于人类轨迹的偏差给予同等惩罚,但不同方向的偏差对安全影响极不对称,例如紧急刹车时滞后通常更安全,但对称损失无法反映这种风险不对称性 [5][11] DriveDPO框架的技术创新 - 提出统一策略蒸馏方法,将人类模仿相似度与基于规则的安全分数融合为单一监督信号,直接优化所有锚定轨迹的策略分布,而非像基于分数的方法仅为每个候选轨迹独立学习评分函数 [7][17] - 引入迭代式安全直接偏好优化,将监督信号重构为轨迹级别的偏好对齐任务,优先选择既符合人类驾驶习惯又安全的轨迹,抑制看似合理但存在风险的轨迹 [7][8][18] - 设计了两种拒绝轨迹选择策略来构建偏好对,基于模仿的选择策略效果更优,用于识别空间上接近人类参考轨迹但安全性差的轨迹 [19][20][21][24] 实验验证与性能表现 - 在NAVSIM基准数据集上,DriveDPO完整模型在无责任碰撞、可行驶区域合规性、自车进度、碰撞时间等关键安全指标上均取得最佳或次佳表现,最终PDMS达到90.0 [22] - 消融实验表明,采用基于模仿的拒绝轨迹选择策略的模型PDMS为90.0,优于基于距离的选择策略和朴素选择方法 [24] - 模型输入包含多视图相机图像、激光雷达点云、自车状态与导航指令,输出为预定义离散候选轨迹上的概率分布,采用Transfuser作为感知骨干网络进行多模态融合 [14][15][16] 技术局限与未来方向 - 方法依赖PDMS这一预定义的加权复合指标进行安全评估,可能无法完全捕捉复杂驾驶场景中的所有潜在风险因素 [27] - 规则化监督依赖高保真仿真器提供评估分数,受限于规则设计和仿真器精度,且高保真仿真器获取难度大,制约了数据规模与多样性 [27]
Sim2Real,解不了具身智能的数据困境。
自动驾驶之心· 2025-10-03 03:32
核心观点 - 具身智能领域正面临仿真数据、真实数据与世界模型三种技术路线的选择与融合,行业专家普遍认为仿真数据在当前及可预见的未来具有不可替代的作用,尤其是在模型训练、测试和安全验证方面,而世界模型作为新兴方向,在长期规划和数据生成方面展现出潜力,但其发展仍受限于奖励机制设计、计算资源等因素 [4][19][27] 对Sim-to-Real Gap的理解 - Sim-to-Real Gap的核心在于仿真环境对真实世界模拟不完全,存在视觉细节(如物体摩擦力、光影效果)和物理细节还原不足的问题,导致模型泛化能力弱、仅适配特定场景 [8] - 缩小差距需围绕数据优化展开,包括结合模型需求设计虚拟与真实数据配比、借助AIGC生成丰富数据以兼顾体量与真实性等 [8] - 以阴影问题为例,不同光源位置会形成不同阴影,可作为判断模型对真实世界理解程度的有效依据 [8] - 解决数据问题的一种方案是借助AIGC强大的生成能力,通过替换桌面纹理、光照、物体摆放等方式,兼顾数据丰富性与真实性 [11] 仿真数据与真实数据的价值与应用 - 在自动驾驶等领域,仿真测试已被验证更快速、省时省力且安全,训练用真机更务实,测试用仿真更合适是核心观点之一 [19] - 从学术角度看,若真机数据能极大丰富,同等数量下其训练效果优于仿真数据,但现实是具身智能领域真实数据体量远不及自动驾驶,且机器人本体不易统一,行业期待高,导致真实数据缺口巨大 [20] - 仿真数据在当前阶段的关键作用在于基础模型迭代和测试,没有机构会训完模型不做仿真测试就直接上真机,可避免真机实验中烧电机、损坏关节等难以估量的损失 [21] - 仿真在强化学习规模化上价值更大,若仿真器构建良好,可通过大规模并行训练让模型学习到真实数据中难获取的场景(如物体被碰倒后如何处理) [24] - 仿真数据的核心优势包括代码复用性强(更换机器人时仿真代码基本无需改动)以及在教育领域的显著价值,能降低授课与学习门槛 [26] - 长期来看,仿真数据是更有效的解决方案,只有在仿真无法满足需求时才考虑使用真实数据进行补充 [26] 世界模型的未来研究方向与价值 - 世界模型应用于自动驾驶、具身智能的方向正确,但存在核心问题待解决,如“小世界模型”路径是否可行(即能否基于其直接生成轨迹或策略),以及奖励设计与下游任务衔接问题 [29] - 世界模型并非新概念,与过往相关模型概念相通,该领域研究无需大量计算资源,学术界应聚焦用小资源就能探索的学术问题 [29] - 引入力、触觉等新模态是值得关注的研究方向,可聚焦世界模型中物理规律的相关问题,在有限计算资源下开展尝试 [30] - 在未来12-18个月内,最重要的科学问题是如何在世界模型中引入reward,因为action和observation已有较好发展,而操作领域仍处于混沌状态,适合科研探索 [31] - Genie 3虽能渲染视频且三维一致性较好,但在面向机器人等场景时,当前动作维度(如六维、七维)不足,仍需数据引擎构建对应场景来生成高维度动作数据 [32] - 世界模型的研究对于通用视觉、长期规划和记忆功能等方面展现出潜力,但如何设计合适的奖励机制以及如何应用于更多场景是关键待解问题 [32] 对波士顿动力机器人技术的分析 - 波士顿动力机器人的技术实力体现在其执行任务的“丝滑”性,这不仅涉及单纯的抓取操作,还涉及全身运动,其遥操作部分技术难度很高,需要出色的运动控制作为支撑 [33][35] - 该系统的模型设计若不复杂,但结合出色的底层能力实现了好效果,比设计复杂模型更令人震惊,目前在遥操作素材采集上就落后于该系统 [35] - 具身智能领域的关键不在于算法,而在于数据和硬件,波士顿动力的硬件技术方案与教育界常用方案差异显著,其高度拟人化设计代表了正确发展方向,但核心问题在于其硬件产品并不对外出售 [37] - 实现丝滑效果的另一关键因素是推理层面的架构经过大量调整优化,“避免阻塞”这一问题即便有专门研究,开源方案仍有很大改进空间 [37] - 运动控制(运控)水平的差异是表现差异的重要原因,传统控制的相关技术值得被结合、借鉴到现代具身智能中,以提升机器人动作的流畅性 [38][39]
最新世界模型!WorldSplat:用于自动驾驶的高斯中心前馈4D场景生成(小米&南开)
自动驾驶之心· 2025-10-02 03:04
核心观点 - WorldSplat是一种前馈式4D生成框架,将生成式扩散与显式3D重建相融合,用于自动驾驶场景合成[6] - 该方法通过4D感知潜在扩散模型生成像素对齐的4D高斯分布,再通过增强型扩散模型优化新视角视频,实现高保真、具备时空一致性的多轨迹驾驶视频生成[4][6] - 在基准数据集上的实验表明,WorldSplat在FVDmulti指标上达到16.57,FIDmulti指标达到4.14,显著优于现有方法[31] 技术框架 - 框架包含三个关键模块:4D感知潜在扩散模型、潜在高斯解码器和增强型扩散模型[10] - 4D感知潜在扩散模型以边界框、道路草图、文本描述及自车轨迹为条件,生成多模态潜变量[14][16] - 潜在高斯解码器从潜变量中预测像素对齐的3D高斯分布,并聚合为4D高斯表示[20][22] - 增强型扩散模型对基于高斯分布渲染的视频进行优化,提升细节真实感和时间连贯性[24][27] 算法创新 - 提出动态感知高斯解码器,能直接从多模态潜变量推断精确的3D高斯分布,支持多达48个输入视角[12][21] - 采用静-动态分解方案,将高斯分布划分为静态背景与动态目标,实现4D场景重建[20][22] - 引入混合条件策略,融合退化视角与高质量视角,提升生成保真度与可控性[27] 性能表现 - 在主实验对比中,WorldSplat在FVDmulti指标上达到16.57,较DriveDreamer-2的55.70提升约70%[31] - 在新视角合成任务中,横向偏移±4m时FID T指标为13.38,显著优于Street Gaussian的67.44和OmniRe的67.36[32] - 在下游任务评估中,方法在mIoU指标上达到38.49,较MagicDrive-V2的20.40提升约89%[35] 应用价值 - 支持丰富条件输入包括道路草图、文本描述、动态目标放置与自车轨迹,成为高可控性驾驶模拟器[6] - 生成的合成数据能提升下游感知模型性能,使mAP指标从34.5提升至38.5,相对提升11.6%[35] - 框架无需逐场景优化,可直接沿任意用户定义相机轨迹渲染新视角视频,支持灵活闭环评估[6][23]
业务合伙人招募!4D标注/世界模型/VLA/模型部署等方向
自动驾驶之心· 2025-10-02 03:04
业务合伙人招募计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发以及硬件研发 [2] 主要技术方向 - 招募方向聚焦于大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶 [3] - 其他重点方向包括具身交互、联合预测、SLAM、3D目标检测、世界模型 [3] - 同时关注闭环仿真3DGS、大模型部署与量化感知推理等前沿领域 [3] 岗位要求 - 候选人需毕业于QS200以内高校,并拥有硕士及以上学历 [4] - 拥有顶级学术会议发表成果的候选人将获得优先考虑 [4] 合伙人待遇 - 提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 提供创业项目合作与推荐机会 [5]
BEVTraj:一个端到端的无地图轨迹预测新框架
自动驾驶之心· 2025-10-02 03:04
研究背景与行业痛点 - 高精地图为自动驾驶车辆轨迹预测提供了丰富的结构化信息,是提升预测精度的关键[3] - 高精地图存在制作和维护成本高昂、覆盖范围有限、无法实时更新以应对道路施工或交通事故等动态变化的缺点,成为自动驾驶技术规模化应用的主要瓶颈[1][3] 技术方案与创新 - BEVTraj框架完全无需高精地图,直接在鸟瞰图空间中处理实时原始传感器数据,实现端到端的轨迹预测[1][4] - 该框架采用场景上下文编码器和迭代式可变形解码器两部分,核心创新是引入可变形注意力机制,智能关注BEV特征图中的关键采样点,高效聚合与预测任务最相关的场景上下文特征[7][11] - 稀疏目标候选提案模块直接根据车辆动态和场景上下文预测少量高质量的目标候选点,使预测过程更高效且无需复杂后处理[13] - 解码器包含迭代式轨迹细化过程,利用可变形注意力沿预测轨迹查询BEV特征图,逐步修正和完善轨迹[14] 性能表现与行业影响 - 在minADE10指标上,BEVTraj达到0.9438,优于Autobot的1.1649、MTR的1.0446、Wayformer的0.9877和DeMo的1.0424 [18] - 在minFDE10指标上,BEVTraj为2.0527,优于对比模型[18] - 在另一组数据中,BEVTraj的minADE10为0.6249,与Wayformer的0.5583和DeMo的0.6524表现相当[20] - 该研究验证了无地图方案的可行性,性能可媲美甚至超越依赖高精地图的先进模型,为自动驾驶系统在更广泛区域部署扫除了障碍[22][26] - 框架的高效端到端架构和代码开源为业界提供了有价值的设计范式,将促进无地图感知预测方向的研究[26]
华人团队之光!CoRL2025最佳论文(北京通用人工智能研究院&宇树等)
自动驾驶之心· 2025-09-30 16:04
CoRL 2025会议获奖论文 - 最佳论文奖由北京通用人工智能研究院、宇树科技、北京邮电大学等团队获得,研究内容为力/位混合控制模型[2][10] - 最佳学生论文奖由加州大学伯克利分校团队获得,研究内容涉及跨具身智能体的运动控制[5][10] - 会议最终入围论文涵盖双臂规划控制、人机交互、生成模型与强化学习结合、VLA基础模型等多个前沿研究方向[10] 机器人学习技术前沿 - LocoFormer研究通用运动控制通过长上下文适应技术,参与机构包括Skild AI[10] - Fabrica研究双臂组装通用多部件对象的集成规划与学习,参与机构包括MIT、ETH、Autodesk、德州农工大学[10] - DexUMI研究使用人手作为通用操作界面实现灵巧操作,参与机构包括斯坦福大学、哥伦比亚大学、JP摩根、卡内基梅隆大学、英伟达[10] - 声音学习仿真研究多模态Sim-to-Real机器人策略与生成音频,参与机构为加州大学伯克利分校[10] - Pi 0.5研究具有开放世界泛化能力的视觉-语言-动作基础模型,由物理智能Pi公司开发[10] - 潜在空间强化学习引导扩散策略研究生成模型与强化学习结合,参与机构为加州大学伯克利分校[10] 自动驾驶技术社区生态 - 自动驾驶之心公众号建立了近百个技术交流群,覆盖大模型、VLA、端到端、数据闭环等30多个技术方向[12] - 知识星球社区拥有近4000名成员,近300家自动驾驶公司与科研机构加入,提供30多个技术栈学习路线[14] - 专业课程覆盖端到端自动驾驶、大模型、VLA、仿真测试、BEV感知、轨迹预测等众多技术方向[16]
纯血VLA综述来啦!从VLM到扩散,再到强化学习方案
自动驾驶之心· 2025-09-30 16:04
文章核心观点 - 视觉-语言-动作模型代表了机器人学和具身智能领域的重要演进方向,旨在通过统一框架整合感知、语言理解和动作生成,以克服传统机器人系统在动态和非结构化环境中泛化能力不足的局限性 [1][10] - 该综述系统性地总结了纯VLA方法的研究现状,提出了基于动作生成策略的清晰分类体系,包括自回归、扩散、强化学习以及混合与特定领域方法四大范式,并梳理了相关的数据集、仿真平台和硬件资源 [7][9] - VLA模型的发展高度依赖高质量、大规模的多模态数据集和逼真的仿真器,资源如Open X-Embodiment整合了来自21个机构的22个机器人数据集,涵盖超过160,000个任务,显著加速了该领域的研究进程 [15] - 尽管VLA模型展现出通向通用具身智能的巨大潜力,但在可扩展性、泛化性、推理速度、安全性以及现实部署方面仍面临一系列关键挑战,未来的研究方向需要聚焦于数据局限性、效率优化和鲁棒性提升 [16][31][46] 背景介绍 - 传统机器人系统依赖于预编程指令、人工设计的控制策略或任务特定的强化学习方法,在受限环境中表现良好,但难以适应动态和非结构化环境 [10] - 从单模态建模到多模态整合是技术发展的自然轨迹,视觉Transformer和大语言模型等基础模型的突破为VLA模型的出现奠定了方法学和工程基础 [11][12] - VLA模型通过提供一个统一框架,将语言与感知相结合并直接映射为可执行的动作序列,从而闭合感知-语言-动作的循环,是迈向通用具身智能的重要一步 [10][13] - 通用具身智能的实现不仅依赖于认知处理,还需要物理身体、环境感知与反馈机制的协同,VLA模型正朝着这一愿景演进,并展现出在多样化机器人平台上执行广泛任务的潜力 [16] VLA方法分类:自回归范式 - 自回归范式是VLA研究中经典而有效的序列生成方法,通过将动作序列视为时间相关过程,在给定上下文条件下逐步生成动作token,其代表性模型包括Gato、RT-1/RT-2和PaLM-E等 [18][21] - 该类方法的关键创新方向包括通用型智能体构建、与大语言模型结合的语义规划与推理能力增强、轨迹生成与视觉对齐建模,以及旨在提升实时控制效率的结构优化与高效推理机制 [21][23][26][29] - 自回归模型通过在可扩展的Transformer架构中统一多模态感知、语言推理与序列化动作生成,推动了通用智能体的发展,但其局限性在于误差累积、推理时延以及对大规模计算和数据资源的高需求 [31] VLA方法分类:扩散范式 - 扩散模型将机器人控制重新表述为概率生成问题,通过条件去噪过程生成多样化的合理动作轨迹,在几何一致性、多任务泛化和自然语言接口方面展现出优势 [32][36] - 该范式的核心维度包括基础的动作生成建模、与Transformer结合的多模态架构融合,以及面向实际应用场景的优化与部署策略,代表性工作有Diffusion Policy、Dita和TinyVLA等 [34][37][39] - 扩散式VLA的研究正从实验室原型向真实世界部署过渡,趋势是结合轻量化设计、认知启发式架构和运行时鲁棒性机制,以平衡性能、效率与安全性,但其在动态环境中保持时间一致性方面仍较脆弱 [39][43][46] VLA方法分类:强化学习范式 - 基于强化学习的VLA方法通过引入视觉与语言信号来生成可迁移的奖励代理,并结合离线与在线学习策略以稳定策略优化,提升了在交互式动态环境中的决策能力 [48][51] - 该类方法已成功应用于机械臂操作、四足机器人导航、人形机器人全身控制以及自动驾驶等多个领域,例如SafeVLA引入了安全约束机制,NaVILA和LeVERB则针对特定机器人形态进行了适配 [49][50][52] - 强化学习微调策略增强了VLA模型的泛化能力和安全性,但其挑战在于奖励工程可能依赖噪声信号、训练稳定性问题以及在高维真实环境中部署时的高计算开销 [53] VLA方法分类:混合与特定领域方法 - 混合架构通过策略性地结合自回归、扩散和强化学习等多种范式,以发挥各自在连续动作生成、离散推理和环境适应性方面的互补优势,例如HybridVLA统一了扩散轨迹生成和自回归推理 [56][57] - 高级多模态融合研究从简单的特征拼接转向显式建模几何约束、空间关系和物体可供性,例如CLIPort和3D-VLA等工作显著提升了VLA模型在复杂3D场景中的空间落地性和动作生成可靠性 [58][59] - VLA框架展现出强大的领域适配性,已被扩展至自动驾驶、人形机器人控制、图形用户界面交互乃至安全关键系统等特定场景,这验证了其核心原则的普适性,但也带来了过拟合和领域特定挑战 [60][61][67] 数据集与基准测试 - VLA模型的发展极度依赖于高质量、大规模的多模态数据集,这些资源可分为真实世界采集和仿真环境生成两大类,例如Open X-Embodiment数据集整合了超过100万条轨迹,覆盖160,266项技能 [70][71] - 真实世界数据集如BridgeData、RT-1和RH20T等,提供了多模态观测与语言指令对齐的交互数据,但由于采集成本高昂,其规模性和任务多样性仍面临限制 [72][74] - 仿真平台如MuJoCo、Isaac Gym和CARLA等,提供了可扩展的虚拟环境,能够生成包含动作轨迹、物体状态和自然语言指令的多模态标注数据,有效缓解了真实机器人数据稀缺性问题,加速了模型训练与评估 [15][71]