Workflow
自动驾驶之心
icon
搜索文档
自动驾驶基础模型应该以能力为导向,而不仅是局限于方法本身
自动驾驶之心· 2025-09-16 23:33
基础模型在自动驾驶感知领域的革命性变革 - 基础模型正将自动驾驶感知从特定任务深度学习模型转变为海量多样化数据集训练的多功能通用架构 [2] - 这些模型通过自监督或无监督学习策略在大规模数据集上预训练 基于Transformer等架构构建 能有效建模数据中的复杂交互关系 [4] - 基础模型展现出广泛泛化能力、高效迁移学习能力和对特定任务标注数据集依赖降低等显著优势 [4] 全新分类框架与核心能力 - 提出围绕动态驾驶环境中稳健性能需求的四项核心能力分类框架:通用知识、空间理解、多传感器鲁棒性和时序推理 [5] - 与传统"基于方法"的综述不同 该框架优先关注概念设计原则 提供"以能力为导向"的模型开发指导 [6] - 框架更清晰地揭示了基础模型的核心特性 为研究人员识别和解决特定缺陷提供系统性指导 [6] 通用知识能力 - 通用知识使模型能适应广泛驾驶场景 包括罕见或未见情况 并能合理推断可能结果和对未知智能体进行逻辑推理 [5] - 通过特征级蒸馏、伪标签监督和直接集成三种核心机制将基础模型集成到自动驾驶技术栈中 [37] - 视觉基础模型(VFMs)可直接集成到2D图像流水线 也能扩展至3D感知流水线 提供高层语义理解 [40] 空间理解能力 - 空间理解让自动驾驶车辆构建环境的连贯3D表示 捕捉物体身份、几何形状与上下文关系 [63] - 体积模型通过将传感器输入解读为3D场景的投影 构建密集、整体的环境表示 [65] - 3D掩码自动编码器通过"掩码输入-重建输出"策略 迫使模型学习场景级结构、物体边界和空间关系 [73] 多传感器鲁棒性 - 多传感器鲁棒性指系统在环境变化、传感器噪声或硬件性能下降时仍能保持感知精度与稳定性的能力 [80] - 跨模态对比学习构建统一表示空间 整合相机、激光雷达、毫米波雷达等不同传感器类型的互补信息 [82] - 多模态掩码自动编码器扩展至处理多模态输入 通过自监督重建任务让模型捕捉互补线索 [97] 时序推理能力 - 时序理解是对场景随时间演变过程进行推理 包括捕捉物体运动、跟踪遮挡物以及预测未来事件 [109] - 时序一致的4D预测模型从传感器观测序列中预测复杂动态环境的演变过程 [113] - 扩散概率模型能够表示复杂的多模态概率分布 成为解决未来场景不确定性问题的理想方案 [115] 技术实现与方法创新 - 知识蒸馏通过训练学生模型模仿教师模型的输出或内部行为 实现三类实现方式:输出级蒸馏、特征级蒸馏和关系级蒸馏 [17] - 神经辐射场(NeRF)采用隐式表示将场景建模为连续函数 通过可微体素渲染方程实现照片级真实感渲染 [24] - 3D高斯溅射(3DGS)采用显式表示将场景建模为一组3D高斯椭球体集合 通过可微前向光栅化器大幅提升渲染速度 [25] 模型对比与特性分析 - 基础模型相较于传统深度学习模型 在自动驾驶感知中的核心优势在于更优的泛化性和适应性 [36] - 视觉语言模型(VLMs)融合视觉基础模型与大语言模型的优势 实现视觉内容与文本语义对齐的联合表征 [35] - 大语言模型(LLMs)基于Transformer架构在海量文本语料上训练 具备强大的抽象、推理与指令遵循能力 [51] 当前挑战与未来方向 - 域间隙问题是核心挑战之一 需弥合基础模型预训练通用知识与自动驾驶感知特定需求之间的间隙 [59] - 幻觉风险带来严重安全风险 需深入探究故障根源并开发主动缓解策略 [60] - 延迟与效率问题与自动驾驶实时处理需求存在直接冲突 需通过模型优化技术构建更小、更高效的模型变体 [61]
3D/4D World Model(WM)近期发展的总结和思考
自动驾驶之心· 2025-09-16 23:33
作者 | 明仔 matrix 来源 | 机智流 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 说在前面的话 有关具身智能,在今年前三季度的大部分工作和思考仍旧集中在 数据的收集和数据的利用 上——即 如何高效的利用视频的示例数据去训练 一个性能表现都不错的基础模型的研究。这个上半年一直持续挖掘的工作,似乎也没有激起很多的水花。大家在分析和总结前期遇到的问题的 时候,不免会对一些无法清晰回溯的内容进行质疑, 即在数据采集上是否有大问题,我们对于数据的利用上的思考是否还存在很大的不足。 于是,在对数据分析的过程中, 3D/4D的世界模型 开始重新回归大家的思考。即针对所采集的数据合理性和丰富性进行进一步拓展优化的研 究思路。 从目前行业发展来看,最近的3D/4D的世界模型也开始走成了两派的思路即 隐式 和 显式 的两种研究主张: 一个金色头发的老头正在参观一个中式的客厅 从实际的应用上看感觉两者的局限性在一开始就暴露得清晰无疑,然后我们对于这些局限性似乎也没有很好的一个 ...
面对已读乱回的AI,到底要如何分辨真假?哈工大&华为大模型幻觉综述!
自动驾驶之心· 2025-09-16 23:33
大模型幻觉定义与分类 - 大模型幻觉指大语言模型在回复中出现的常见错误,包括事实矛盾、事实编造、指令不一致、内容不一致和逻辑不一致 [2][8][9][10][11] - 事实型幻觉分为事实矛盾(实体错误和关系错误)和事实编造(不可验证和夸大幻觉) [8] - 忠实型幻觉分为指令不一致、内容不一致和逻辑不一致 [9][10][11] 大模型训练与幻觉原因 - 大模型训练包括预训练、监督微调(SFT)和从人类反馈中强化学习(RLHF)三个阶段 [7] - 数据部分导致幻觉的原因包括错误数据、社会偏见、知识边界和低质量未校准数据 [17][18][19][21][23] - 训练部分导致幻觉的原因包括预训练阶段模型结构限制、微调阶段过拟合和RLHF阶段谄媚现象 [26][30][32] 幻觉检测方法 - 事实检测分为事实提取和事实验证(外部检索和内部检查) [42] - 不确定性估计方法包括LLM内部状态(标记概率、熵、自我评估)和LLM行为(直接查询、间接查询、多agent视角) [42][43][44] - 忠实性幻觉检测指标包括基于事实、分类、问答、不确定性和LLM评判的方法 [47][48][49][50][51] 幻觉基准 - 幻觉评估基准量化LLM产生幻觉的倾向,重点关注长尾知识和易引起捏造虚假的问题 [53] - 幻觉检测基准评估现有幻觉检测方法性能,针对特定任务如数据生成文本和机器翻译 [54] - 现有基准包括TruthfulQA(817条数据)、REALTIMEOA(动态数据)、HaluEval(30,000条通用数据)等 [55] 幻觉缓解策略 - 通过数据减少幻觉的方法包括数据过滤、模型编辑(定位-编辑和元学习)和检索增强生成(RAG) [57][58][61] - 减少训练产生幻觉的方法包括优化模型结构、训练方式以及避免SFT和RLHF阶段数据冲突 [62] - 减少推理产生幻觉的方法包括事实增强解码和忠诚增强解码(上下文一致性和逻辑一致性) [64][65] 检索增强生成中的幻觉 - 检索失败原因包括用户查询制定(盲目检索、模糊查询、复杂查询)、检索数据源可靠性和检索器性能 [68][69][71][72] - 生成瓶颈涉及上下文感知(嘈杂检索、上下文冲突、未充分利用上下文)和上下文对齐(来源归属和忠实解码) [74][75]
国内首个自动驾驶VLA实战课程来了(模块化/一体化/推理增强VLA)
自动驾驶之心· 2025-09-16 10:49
技术趋势转变 - 智能驾驶从规则驱动转向数据驱动 端到端和VLM技术标志着根本性转变 [1] - 端到端技术提供打通上下游视角的能力 但在复杂困难场景中仍受限 [1] - VLA技术取消传统端到端的复杂3D感知任务 借鉴VLM的通用泛化能力 提供解决corner case的可能性 [1] 技术发展现状 - 自动驾驶VLA技术栈尚未收敛 多种算法如雨后春笋般出现 [2] - 学习路径涉及视觉感知 语言模块 动作模块 配套大模型前沿技术包括RAG CoT 强化学习 MoE等技术栈 [2] - 领域面临论文数量繁多 知识碎片化 缺乏高质量文档等入门挑战 [2] 课程设计特点 - 基于Just-in-Time Learning理念 通过通俗语言和案例帮助快速掌握核心技术栈 [3] - 梳理自动驾驶VLA研究发展脉络 帮助形成个人研究体系和工作经验 [4] - 配备实战环节 完成从理论到实践的完整闭环 [5] 课程内容体系 - 涵盖VLA算法发展历史 开源BenchMark和评测指标 [14][15] - 包含Vision Language Action三大模块基础知识和开源大模型部署实践 [17] - 专题讲解VLM作为自动驾驶解释器的经典和最新算法包括DriveGPT4 TS-VLM DynRsl-VLM SENNA [19] - 深入解析模块化VLA的多阶段pipeline和一体化VLA的端到端映射技术 [21] - 配套ReCogDrive实战代码 包含预训练 模仿学习 强化学习GRPO 扩散模型轨迹输出等技术栈 [22] - 聚焦推理增强VLA子领域 讲解Chain-of-Thought 记忆体 工具调用等推理模块 [24] - 配套Impromptu VLA实战代码 基于Qwen2.5 VL进行数据集制作 训练和推理 [24] - 大作业基于ms-swift框架 自定义数据集和加载模型 提供V-L-A各部分代码解读 [26] 技术覆盖范围 - 涵盖OpenDriveVLA DriveMoE DiffVLA S4-Driver ORION FutureSightDrive AutoVLA Drive-R1等前沿算法 [29][30] - 涉及视觉感知 多模态大模型 强化学习等关键人工智能技术 [31] - 要求学员掌握transformer大模型 强化学习 BEV感知等基础概念 [31] 教学安排 - 课程周期两个半月 从10月20日开始分章节解锁 [32] - 教学方式包括离线视频教学 vip群答疑和三次线上答疑 [32]
BEVTraj:一个端到端的无地图轨迹预测新框架
自动驾驶之心· 2025-09-16 07:22
研究背景与问题 - 高精地图依赖成为自动驾驶规模化应用的主要瓶颈 其制作和维护成本高昂 覆盖范围有限 且无法应对道路动态变化[1][3] - 学术界和工业界探索两种解决方案:在线建图方案仍依赖建图模块 无图方案彻底放弃地图直接从原始传感器数据学习[4][6] BEVTraj框架核心架构 - 采用纯鸟瞰图空间端到端框架 包含场景上下文编码器和迭代式可变形解码器两部分[7] - 场景上下文编码器通过传感器融合模块生成BEV特征图 并采用可变形注意力机制高效聚合关键场景特征[11] - 迭代式可变形解码器创新性地使用稀疏目标候选提案模块 仅生成少量高质量目标候选点 大幅提升计算效率[13] - 通过迭代式轨迹细化过程 利用可变形注意力沿预测轨迹查询BEV特征 逐步修正完善轨迹预测[14] 性能表现与实验结果 - 在minADE10指标上达到0.9438 优于对比的SOTA模型如MTR(1.0446)和Wayformer(0.9877)[18] - 在minFDE10指标上取得2.0527 表现优于Autobot(2.3294)和MTR(2.2840)[18] - 在miss rate指标上达到0.3082 优于所有对比模型包括MTR(0.4240)和Wayformer(0.3868)[18] - 在无地图设置下 minADE10为0.6249 与有地图模型性能相当 验证了无地图方案的可行性[20] 技术价值与行业影响 - 首次验证无地图轨迹预测方案的可行性 性能达到甚至超越依赖高精地图的SOTA模型[26] - 通过摆脱高精地图依赖 为自动驾驶系统在更广泛区域部署扫清障碍 提升系统灵活性与可扩展性[26] - 提供高效的端到端架构设计范式 结合可变形注意力和稀疏目标提案等创新技术[26] - 代码开源将促进无地图感知预测研究方向的发展 推动行业技术进步[26]
中国具身智能的技术一号位们
自动驾驶之心· 2025-09-16 03:34
文章核心观点 - 具身智能行业正从实验室走向商业化落地 硬件与算法突破推动场景拓展 国内外团队在该赛道展开激烈竞争[4] - 通用具身智能体与场景自适应学习成为全球下一代技术突破关键领域 技术架构革新将重塑研发资源分配和市场竞争格局[4] - 技术领袖的战略决策直接决定团队能否在行业转型期抢占先机 领军人物正通过不同技术路径推动行业发展[4][54][55] 宇树科技 - 王兴兴创立宇树科技并担任CEO/CTO 主导研发Laikago、AlienGo、A1等多款四足机器人及Z1机械臂[8] - 公司拥有机器人相关专利100余项 获国家高新技术认证和国家级专精特新"小巨人"企业认定[8] - 2025年2月参与共建上海宝山上大通用智能机器人研究院 具备从0到100的研发与商业化落地能力[8] 星海图团队 - 赵行提出全球首个量产自动驾驶大模型DriveVLM-Dual 应用于理想汽车 其双系统方案成为Figure机器人Helix控制架构参考框架[12][13] - 许华哲系统性研究视觉深度强化学习与模仿学习 解决数据效率低和泛化能力弱问题 发表顶级期刊/会议论文60余篇[15] - 团队聚焦具身智能空间感知 通过自研三维建模与实时交互算法实现复杂场景精准定位[54] 银河通用 - 王鹤创立公司并开发VLA大模型 推动具身智能与大模型融合 积累亿级真实场景数据及百亿级合成仿真数据[18] - 首代产品Galbot为轮式双臂通用具身机器人 公司同时运营北大-银河通用具身智能联合实验室[17][18] 智元机器人 - 罗剑岚主导开发SERL/HIL系统 实现机器人真机强化学习任务成功率100% 仅需20分钟学会精密装配[23] - 联合斯坦福、谷歌等机构构建全球最大跨场景机器人开源数据集Open X-Embodiment 加速技术资源共享[23] 自变量机器人 - 王昊主导研发端到端具身大模型WALL-A 为2024年10月全球最大参数规模具身智能通用操作模型[27] - 开源具身智能大模型Wall-OSS并公开训练代码 支持开发者自有机器人微调应用[27] 逐际动力 - 张巍聚焦全尺寸通用人形机器人 首款四轮足商用机器人W1已上市 人形机器人将于2025年下半年公开销售[29][30] - 推动具身大模型技术研发及IDS生态平台建设 通过仿真数据和互联网视频数据降低数据成本[30] 星尘智能 - 来杰团队采用"绳驱"传动方案 第一代AI机器人Astribot S1实现AI智能与操作能力深度耦合[32] - 在具身智能数据获取上取得关键突破 致力于打造家用AI机器人[32] 云深处 - 朱秋国团队坚持全栈自研 从核心零部件到运动控制算法 拥有授权专利100多项[35] - 承担国家重点项目10余项 发表学术论文40余篇 参与研制"赤兔""绝影"等四足机器人[35] 千寻智能 - 韩峰涛主导研发国内首款高性能全身力控人形机器人Moz1 负载自重比达1:1[38] - 公司成立1年4个月累计融资超10亿元 通过大模型与机器人控制深度融合解决"大脑难造"痛点[38] Physical Intelligence - Sergey Levine团队开发代表VLA落地最高水平的模型 公司成立一个月获7000万美元融资[40] - 2024年11月完成4亿美元新一轮融资 投后估值约24亿美元 致力于创建通用机器人系统AI模型[40] Figure AI - Brett Adcock推出Figure 01和Figure 02人形机器人 后者部署至宝马斯帕坦堡工厂测试[44] - 2025年2月发布Helix模型 可同时操控两台机器人共脑合作 并实现自然人形行走[44] - 认为人形机器人是AGI终极形态 预计5年内创造价值数十亿美元产业[45] 学术研究机构 - 李飞飞发明ImageNet数据集 对深度学习和AI发展做出重要贡献 现任斯坦福大学HAI研究院联合主任[47][48] - Deepak Pathak开发"人工好奇心"技术 论文获超4000次引用 其团队构建可适应不同硬件的机器人基础模型Skild Brain[52]
蚂蚁集团大模型数据智能算法工程师招聘(可内推)
自动驾驶之心· 2025-09-15 23:33
职位描述 大模型数据认知方向,负责设计和开发先进的算法,解决大模型数据生产中的关键问题,包括但不限于数据知识体系生成、语料自动分类、智能数据标注、权威评测集 建设以及基于评测的语料质量评估与合成。你的工作将直接影响蚂蚁大模型的训练效果和性能表现。工作将涉及以下一个或多个方向: 1、数据知识体系生成:研究基于LLM的自动知识图谱生成技术,设计并实现自动化算法,构建高效、可扩展的大模型数据知识体系; 2、语料自动分类:基于数据知识体系,研究和开发语料分类算法,指导大模型数据的拓展方向; 3、权威评测集建设:研究业界现有评测集的缺陷,构建标准化、多样化的权威评测集,用于评估大模型的性能;与跨职能团队合作,确保评测集覆盖全面且具有代表 性; 4、语料质量评估与合成:建立大模型训练的数据驱动体系,开发语料质量评估算法,识别低质量或噪声数据。研究数据驱动的语料合成技术,基于模型的评测效果,针 对性合成能够改进模型效果的训练语料,提升模型迭代效率; 5、智能标注链路研发:基于大模型数据的标注需求,研发辅助打标算法;设计构建 AI辅助的标注质量检验与标注提效的算法链路,提升人工标注的质检效率与标注质 量; 6、技术创新与优化 ...
VLA空间理解的能力还远未被挖掘!OccVLA的新尝试(上海期智&清华&上交等)
自动驾驶之心· 2025-09-15 23:33
核心观点 - 多模态大语言模型在自动驾驶领域缺乏鲁棒的3D空间理解能力,主要受限于3D表示构建难度和细粒度空间细节丢失问题 [3][5] - OccVLA框架通过将3D占用率表示整合为预测输出和监督信号,使模型直接从2D视觉输入学习细粒度空间结构,无需额外计算开销 [3][9] - 该模型在nuScenes基准的轨迹规划任务中取得SOTA结果(平均L2距离0.28米),在3D视觉问答任务中准确率达59.5%,为自动驾驶提供可扩展的纯视觉解决方案 [3][38][42] 技术框架创新 - 采用隐式3D占用监督机制,将占用率令牌作为隐式推理过程,通过交叉注意力从VLM中间层接收视觉特征 [9][21] - 设计潜在空间占用率预测(下采样率r=16)解决原始占用网格内存占用高问题,使用VQ-VAE解码器还原高分辨率3D占用预测 [23] - 引入元动作预测机制(速度动作3类+方向动作6类),通过思维链监督实现自然语言推理与运动语义保留 [26][30] - 规划头采用轻量级MLP架构,输入元动作嵌入/速度/视觉token,输出未来3秒轨迹坐标(MSE损失监督) [29][33] 性能表现 - 运动规划任务平均L2距离0.28米,超越依赖激光雷达的OmniDrive(0.33米)和需要3D标注的EMMA(0.32米) [38] - 3D视觉问答任务整体准确率59.5%,超越7B参数的LLaVA(47.4%)和LiDAR-LLM(48.6%),接近8B参数OccLLaMA3.1(54.5%) [42] - 占用预测任务mIoU达10%,虽受限单帧输入但在关键元素(车道/车辆/行人)预测表现突出 [43] - 模型参数量仅3B,性能超越7B参数模型,显示更高计算效率 [38][42] 训练方法论 - 三阶段训练流程:自动驾驶场景预训练(使用OmniDrive数据)、占用率-语言联合训练(损失函数含λ因子平衡文本与占用任务)、规划头专项训练 [31][32][33] - 采用适配器微调Transformer块,保持原有VLM能力同时注入3D感知能力 [22][32] - 全自动数据构建流程生成元动作标签,20%数据经人工优化确保标注一致性 [27] 行业应用价值 - 突破2D感知与3D感知间差距,使纯视觉方案具备高精度3D理解能力(仅需相机输入) [4][10] - 支持占用率表示灵活解码,生成可解释且可定量评估的输出,增强自动驾驶系统透明度 [10][11] - 推理阶段可跳过占用预测,无额外计算开销,解决现有3D VLM因参数庞大导致的延迟问题 [3][48]
论文解读之港科PLUTO:首次超越Rule-Based的规划器!
自动驾驶之心· 2025-09-15 23:33
在端到端自动驾驶领域,这篇文章是一个典型的"两段式网络架构"中的Planner模型,而且它不是基于BEV feature map进行下游控制任务的,而是直接对于感知输出 的结构化的信息(bbox,lanes等等)进行编码,并作为sequence token输入到decoder中,今天就为大家分享一下。二段式端到端非常适合新人练手: 为了帮助大家理解,网络架构图上我们做了详细的模块注释: 我们先整体上看一下PLUTO有哪些关键点: PLUTO主要有三个损失,主任务的损失包含回归损失和分类损失,共同组成模仿学习的损失。而Agent轨迹预测的损失如下图所示: 同时,PLUTO也添加了几个辅助的损失帮助模型收敛: 1)直击痛点,快速入门 本课程基于Just-in-Time Learning理念,通过通俗易懂的语言和案例,帮助学员短时间内掌握核心技术栈。理解关键概念后,拓展特定领域知识将变得更加轻松。 2)构建领域框架,提升研究能力 本文均出自平台最新推出的 『端到端与VLA自动驾驶小班课』 ,我们联合国内TOP主机厂算法专家共同打造! 技术专家带你深入端到端与VLA算法原理与技术开 发,目前已经正式开课! 技术栈多? ...
关于大模型和自动驾驶的一切
自动驾驶之心· 2025-09-15 23:33
大模型技术社区定位 - 平台专注于大模型RAG、大模型AI Agent、多模态大模型(预训练、微调、强化学习)和大模型部署推理优化等技术方向 [1] - 社区致力于构建国内最大的大模型技术社区 持续为行业和个人输送人才及产业学术信息 [1] - 社区定位为培养未来领袖的地方 强调内容质量和人才培养 [2] 社区发展目标 - 快速搭建相关技术模块 吸引对大模型技术感兴趣的人群加入 [1] - 通过知识星球形式深化学习 提供进一步技术交流平台 [1] - 借助自动驾驶VLA等热点技术趋势推动大模型技术普及 [1]