自动驾驶之心

搜索文档
转行自动驾驶算法之路 - 学习篇
自动驾驶之心· 2025-09-10 23:33
开学季促销活动 - 推出299元超级折扣卡 一年有效期内购买全平台课程享受七折优惠 [3] - 自动驾驶之心知识星球立减88元 [3] - 课程消费满1000元赠送2门带读课程 八选二 [3] - 自动驾驶论文辅导1000元最高抵扣10000元 [3] - 自动驾驶1v6小班课限时立减1000元 [3] - 全平台硬件优惠包括全栈教研平台黑武士001 足式强化学习科研平台TRON1 四足机械狗加机械臂科研平台 桌面级机械臂科研平台 数采夹爪单臂双臂方案 [3] 自动驾驶技术课程体系 - 端到端与VLA自动驾驶课程覆盖多模态大模型 BEV感知 强化学习 视觉Transformer 扩散模型等技术方向 [6][7] - 自动驾驶4D标注算法小班课聚焦自动化4D标注技术 解决动静态元素 OCC和轨迹标注等复杂需求 [11] - 多模态大模型与自动驾驶实战课程涵盖通用多模态大模型 大模型微调 端到端自动驾驶多模态大模型 [15][16] - BEV感知全栈系列教程包含毫米波雷达视觉融合 激光雷达视觉融合 3D4D毫米波雷达 车道线检测 Occupancy占用网络等技术模块 [19] - 多传感器标定融合课程提供标定技术方案 [20] - 模型部署课程包含CUDA与TensorRT部署实战 BEV模型部署实战 [21] - 规划控制与预测课程涵盖规划控制理论实战 轨迹预测理论与实战 [21] - 自动驾驶仿真与开发课程提供Carla-Autoware联合仿真 面向量产的C++实战教程 [22] - 科研辅导课程包括自动驾驶与CV领域通用论文辅导 NeRF与自动驾驶论文带读 [22] 教学服务特色 - 课程配备专属VIP交流群 主讲老师每日群内交流 不定期线上直播答疑 [29] - 小班课聚焦实际工作需求 解决量产痛点 分享面试亮点 [23][24] - 提供简历辅导和面试辅导环节 针对秋招社招需求 [24][25] - 课程学员可获岗位推荐 对接理想 地平线 百度 上海人工智能实验室 蔚来 小鹏 华为车BU 大疆等企业 [41] 硬件与开发支持 - 硬件平台支持包括全栈教研平台黑武士001 足式强化学习科研平台TRON1 四足机械狗加机械臂平台 桌面级机械臂平台 数采夹爪方案 [3] - 开发环境要求本地电脑配备GPU 显存至少12GB 支持CUDA加速 [36] - 提供Ubuntu开发环境支持 课程代码规范基于Apollo等工业级框架 [36]
2025年,盘一盘中国智驾的自动驾驶一号位都有谁?
自动驾驶之心· 2025-09-10 23:33
行业技术趋势 - 2023年起自动驾驶领域迎来以端到端为主导的技术转向 2024年成为行业公认的新一代量产主流方案 2025年VLA和世界模型成为下一代量产突破方向[1] - 技术架构迭代伴随研发路径 人才结构与竞争格局重新洗牌 领军人物技术判断决定团队在重构期能否站稳脚跟甚至超车领先[1] - 端到端架构正逐步成为智能驾驶新基座 大模型 世界模型 VLM方案等技术加速从学术界走向工业界[53] 理想汽车 - 郎咸朋2018年加入理想汽车担任自动驾驶负责人 职位从自动驾驶业务总经理转变为自动驾驶副总裁[5] - 2023年年底全场景NOA推送标志理想辅助驾驶从高速向城市场景延展 2024年7月15日推送无图NOA功能首次实现对先验信息依赖突破[5] - 去年E2E+VLM双系统成为业界智驾方案标杆 今年主攻VLA司机大模型已量产[5] 小米汽车 - 叶航军2021年初被雷军点将主持小米自动驾驶业务 小米SU7爆火后智能技术能力快速提升[7][8] - 1000万Clips版小米端到端辅助驾驶系统出厂即搭载 学术界推出VLA 强化学习 世界模型 3DGS等前沿工作[9] - 小米不惜代价做好辅助驾驶 正努力跻身智驾第一梯度[9] 蔚来汽车 - 任少卿2020年8月加入蔚来担任智能驾驶研发副总裁 曾担任Momenta研发总监兼联合创始人[11] - 大力推动蔚来智能驾驶技术发展 特别在城区NOA规模铺开和全域领航辅助NOP+功能发布做出重要贡献[11] - 今年主推世界行为WA自动驾驶路线 核心思路是海量使用云端仿真数据让大模型理解世界而学会驾驶[11] 小鹏汽车 - 李力耘2019年6月加入小鹏汽车 2023年8月2日接班吴新宙成为小鹏智驾总负责人[14][15] - 负责小鹏汽车高速和城市自主导航辅助驾驶系统NGP研发 是国内为数不多纯视觉方案拥簇[14][15] - 算力算法数据域控制器线控底盘全链路布局 传感器以外采为主坚持纯视觉方案[15] - 近期小鹏G7 Ultra将迎来OTA升级 AI智能辅助驾驶系统融入全场景VLA大模型[16] 比亚迪 - 杨冬生现任比亚迪副总裁兼产品规划及汽车新技术研究院院长 2005年加入比亚迪[18] - 作为DM-i超级混动系统总设计师 主导研发技术助力比亚迪新能源销量自2022年起多次夺取月度销量冠军[18] - 2024年比亚迪全系车型都将搭载天神之眼高阶智驾系统 开启全民智驾新时代[20] 地平线 - 苏箐2022年加入地平线担任高阶智能驾驶项目总负责人 曾任华为汽车BU智能驾驶产品线总裁[22] - 地平线端到端HSD方案搭载J6P量产上车 自研芯片+智驾方案双管齐下[22] - 大众汽车与地平线成立合资企业 苏箐担任CTO[22] Momenta - 曹旭东2016年创办Momenta 提出一个飞轮两条腿战略 飞轮是数据驱动 两条腿是量产自动驾驶L2和完全无人驾驶L4[25] - 战略核心理念是通过L2量产车收集数据反哺L4技术迭代 形成数据→算法→产品→数据正向循环[25] - 技术路线选择端到端大模型和无图方案 2025年已跻身智驾第一梯队成为全球品牌共同选择[26] - R6飞轮大模型频繁现身公众视野 2019年把核心精力投入数据领域布局进入成果初现阶段[26] 大疆车载(卓驭) - 沈劭劼担任大疆车载总负责人 香港科技大学电子和计算机工程系副教授 科大-DJI联合创新实验室主任[30] - 截至2025年5月卓驭已与9家主流车企达成合作 包括大众汽车 上汽通用五菱 比亚迪等[31] - 已有20余款车型量产 还有30多款车型即将量产落地 预计2025年有200万台车型搭载大疆车载智驾系统上路[31] 英伟达 - 吴新宙2023年加入英伟达现任自动驾驶团队总负责人 曾担任小鹏汽车自动驾驶副总裁[35][36] - 在小鹏汽车期间带领团队完成高速NGP和城市NGP量产落地 推动小鹏汽车在智能驾驶领域发展[35] - 英伟达自动驾驶推出覆盖从数据 感知到大模型智能体的全栈技术[36] 百度 - 王亮现任百度智能驾驶事业群组首席研发架构师 IDG技术委员会主席 阿波罗智能技术董事[40] - 2024年主导VTA基础大模型和纯视觉智驾路线在极越01车型实现量产应用[40] - 带领团队推出支持全国300城覆盖的领航辅助驾驶方案[40] 博世中国 - 吴永桥2024年1月出任博世智能驾驶与控制系统事业部中国区总裁 推动博世城市NOA产品落地[42] - 2024年5月发布首款城市NOA产品并计划年底覆盖24个城市[42] - 主张主机厂聚焦用户体验而供应商承担标准配置开发 提出智能驾驶技术趋同 特斯拉算法领先等观点[42] - 博世坚定推进一段式端到端技术 与文远知行联合基于英伟达Orin Y打造一段式端到端方案8月底在奇瑞高端车型量产[43] 小马智行 - 楼天城小马智行联合创始人兼首席技术官 中国公认大学生计算机编程第一人 算法领域卓越成就[45] - 主导开发世界模型技术 使小马智行在L4级自动驾驶领域建立独特技术优势[45] 元戎启行 - 周光2021年正式任职元戎启行CEO 公司完成阿里巴巴战略领投3亿美元B轮融资[48] - 近日发布最新一代搭载VLA模型的辅助驾驶平台DeepRoute IO 2.0[49]
港科&理想最新!OmniReason: 时序引导的VLA决策新框架
自动驾驶之心· 2025-09-10 23:33
核心观点 - 香港科技大学(广州)与理想汽车团队提出OmniReason框架 一种新型视觉-语言-动作(VLA)框架 通过联合建模动态3D环境及决策过程构建时空推理能力 解决现有自动驾驶视觉语言模型忽略时间维度的问题 [2][6][7] - 框架包含大规模数据集OmniReason-Data(含OmniReason-nuScenes和OmniReason-Bench2Drive)和OmniReason-Agent架构 通过幻觉抑制自动标注流程提供密集时空标注和自然语言解释 确保物理合理性和时间连贯性 [2][6][8] - 在开环规划和视觉问答基准实验中达到最先进性能 平均L2误差0.34米 碰撞率0.40% 违规率3.18% 在CIDEr指标实现37.6%提升 BLEU-1提升100.1% 显著缩小自动驾驶系统与人类驾驶员差距 [3][25][26] 数据集构建 - OmniReason-Data基于nuScenes和Bench2Drive框架 包含高质量视觉问答对 涵盖静态与动态描述及四维域内因果推理和动作信息 通过多模态大语言模型理解时空信息和因果推理 [6][13] - 采用统一场景感知标注流程 结合人类先验知识、任务分解和大语言模型推理 从多视角视频流和目标级空间标注生成语言-动作对 通过Qwen2.5VL 72B模型生成多步因果链 阐释代理行为、环境上下文和交通规则相互作用 [14][15] - 标注框架基于结构化场景分析 自动生成高质量可解释语言-动作对 减少幻觉现象 提供丰富多模态推理信息 确保数据集捕捉时间动态和因果关系 严格对齐现实驾驶场景 [8][15] 架构设计 - OmniReason-Agent为端到端VLA架构 集成稀疏时间记忆模块和解释生成器 通过知识蒸馏将专家决策模式和自然语言推理注入模型 实现上下文感知且高度可解释的自动驾驶行为 [2][7][8] - 稀疏时间记忆模块通过运动补偿、记忆感知特征传播和多模态融合实现时序一致感知 几何对齐补偿自车运动 记忆条件归一化传播对象状态 查询传播保持跨帧身份一致 在复杂场景下保持目标轨迹稳定 [18][20] - 采用复合损失函数对3D目标检测与结构化场景理解联合优化 包含目标类别识别、空间定位、车道及道路结构分析 通过加权损失平衡不同任务 [21][22] 性能表现 - 开环轨迹规划任务中平均L2误差0.34米 与ORION持平 优于BEV-Planner的0.55米和DriveVLM的0.40米 碰撞率0.40% 违规率3.18% 创最优纪录 优于BEV-Planner的4.26%和VAD-Base的3.82% [25] - 驾驶视觉问答任务在OmniReason-nuScenes基准上CIDEr指标提升37.6% BLEU-1提升100.1% BLEU-4提升224.0% 在OmniReason-Bench2Drive基准上CIDEr提升9.0% BLEU-1提升53.6% BLEU-4提升210.8% ROUGE-L指标持续领先 [26] - 消融研究显示环境描述使BLEU-1得分提升7.6% 动态对象描述将碰撞率降至0.37% 时序记忆模块使L2距离从0.38降至0.34 碰撞率从0.44降至0.40 交互率从3.65降至3.18 [27][28][29] 技术优势 - 框架独特支持零样本端到端规划能力 突破刺激-响应映射局限 实现对因果-时间推理原则显式落地 填补现有系统在建模动态环境刺激与车辆响应间因果关系的空白 [12] - 通过多模态监督和自然语言推理提升自动驾驶基准真实性、可解释性和覆盖度 为场景理解和动作生成研究奠定坚实基础 树立可解释性与真实性新标杆 [6][8] - 在安全性、舒适性和可解释性指标达到最先进水平 决策质量和解释能力显著提升 增强真实场景下自动驾驶可靠性和理解能力 [7][8]
传统的感知被嫌弃,VLA逐渐成为新秀...
自动驾驶之心· 2025-09-10 23:33
自动驾驶技术演进 - 自动驾驶技术从传统模块化架构向端到端VLA模型演进 解决错误累积和信息损失问题[2] - 传统模块化架构存在错误累积效应 上游模块微小误差会逐级传递放大[2] - 纯视觉端到端模型存在黑箱问题和因果混淆 可能学到虚假关联而非真正因果关系[2] - VLA模型通过引入语言作为中间表征 赋予模型推理解释和交互能力[2][3] - VLA模型可利用LLM预训练的世界知识 理解复杂交通场景并做出符合逻辑决策[3] VLA技术优势 - VLA模型提升可解释性与可信赖性 能用自然语言解释决策依据[3] - VLA模型增强泛化与处理长尾场景能力 通过语言抽象和推理能力泛化到未见场景[3] - VLA实现自然人机交互 用户可通过自然语言向车辆下达高级指令[3] - VLA范式打造感知认知决策一体化智能体 不仅是会开车更能理解世界与人沟通的AI驾驶员[3] 论文辅导课程内容 - 课程系统讲解VLA自动驾驶重点理论知识 帮助形成清晰知识体系[4] - 课程将模型理论与代码实践结合 协助开发设计新模型[4] - 课程提供论文写作方法论和投稿建议 解决文章不会写不会投问题[4] - 课程时长12周在线小组科研加2周论文指导和10周论文维护期[5][12] - 课程提供经典论文前沿论文和代码实现 包括创新点baseline数据集[5][10] 课程收获 - 学员可获得对典型论文分析方法 理解重点算法与原理清晰不同算法优劣势[5][12] - 导师为每位学员提供研究idea 即使自己没想到合适idea也能进行后续研究[5][12] - 学员coding能力增强 在老师准备baseline代码和数据集上高效展开研究[5][12] - 学员获得论文写作自查修改方法论 以及投稿建议[5][13] - 学员可能产出一篇论文初稿 通过完全投入课程学习与实践[13] 课程大纲 - 课程覆盖传统端到端自动驾驶 VLA端到端自动驾驶模块化VLA模型等内容[6][8][19] - 具体包括传统端到端介绍 VLA端到端介绍 模块化VLA模型 统一端到端VLA模型等[6][8][24] - 课程包含论文写作方法论和课题汇报与投稿意见[8][25] - 每周课时1-1.5小时 共14周课程[24][25] - 课程采用2+1式师资 主导师由名校教授行业导师担任 副导师由博士硕士担任[21] 招生要求 - 学员需具备深度学习基础 对自动驾驶算法有简单了解[14] - 学员需熟悉掌握python语法和PyTorch使用[14] - 学员需完成在线1v1面试[14] - 硬件要求最好具备8张4090显卡或以上设备 最低不少于4张4090显卡[17] - 学习要求每周上课前阅读资料完成作业 课上积极参与讨论 应该全勤[17] 服务支持 - 课程提供公开数据集 如nuScenes Waymo Argoverse等自动驾驶数据集[21] - 课程提供baseline代码 包括基于模仿学习扩散模型和VLA的端到端自动驾驶代码[22] - 课程提供必读论文 包括A Survey on Vision-Language-Action Models等5篇核心论文[23] - 上课平台为腾讯会议直播加小鹅通回放[26] - 答疑周期为6个月 授课周期为3.5-4个月[27]
研三了,找工作的时候卡在了论文上......
自动驾驶之心· 2025-09-10 12:00
又到了秋招季,大厂放出来的提前批基本上都要求项目经历或者研究成果比较强、背景比较好的同学。 不少同学因为成果普通找工作屡屡受挫,想申博来缓解就业压力,问题是在硕士阶段基本就决定了你能不 能读博(包括院校和成果,申请制)。 对普通研究生来说,无论是申博还是就业都需要 亮眼的成绩来证明 自己的科研或者实战能力。 —— 即尽可能多的高质量科研论文 假如再读一次研,一定要早早多发论文! 但论文也不是自己想发就能发出来的,特别是区位较高、难度较 大的会议期刊。 如果你现在面临导师放养,在论文写作过程中,你时常陷入选题迷茫、框架混乱、论证无力的困境,迟迟 无法产出满意的论文,不妨考虑寻求专业助力, 自动驾驶之心 服务大家的论文辅导正式推出了。 有位研二学员,毕业要求发小论文,但自己导师散养,找到了我们指导,3个月顺利完成一篇SCI 论文。 扫码咨询区位价格~ 为什么选我们? 自动驾驶之心作为国内最大的AI类技术自媒体平台,IP包含自动驾驶之心/具身智能之心/3D视觉之心等平 台, 拥有 国内最顶 尖的学术资源。 深耕自动驾驶、具身智能、机器人 方向多年。我们深刻理解这些交叉 学科的挑战与机遇,更明白一篇高质量论文对于学生 ...
阿里AgentScope发布,掀翻了国产Agent的餐桌
自动驾驶之心· 2025-09-09 23:33
行业背景与趋势 - 人工智能正从单一模型向多模态、从AI Agent向Agentic AI过渡 形成由智能体驱动的新生态 [1] - 大语言模型快速发展推动智能体将内在知识与动态工具使用相结合 大幅提升处理现实任务的能力 [3] AgentScope 1.0框架定位 - 阿里通义实验室推出的企业级智能体开发框架 对标LangGraph [1] - 集成了阿里在Mobile-Agent、Qwen-Agent和Qwen-code等智能体框架方面的经验 是全面稳定的企业级解决方案 [2] - 深度融合消息驱动与分层架构 提供开箱即用、可扩展且易维护的企业级应用方案 [1] 核心架构设计 - 基于ReAct范式构建智能体行为 具备三大核心功能:Reply(推理行动生成响应)、Observe(处理外部信息更新状态)、Handle Interrupt(处理中断支持人机协作) [9] - 提供三大关键特性:实时控制(通过asyncio取消机制暂停循环)、并行工具调用与动态工具供应(单步骤生成多并行调用)、状态持久化与非侵入式定制(基于StateModule) [9] - 系统化异步设计提供高级智能体层基础设施 丰富人机交互与智能体间交互模式 提升执行效率 [3] 内置智能体能力 - 包含三类场景化智能体:深度研究智能体(集成Tavily搜索MCP 支持查询扩展分层反思过程总结)、浏览型智能体(集成Playwright MCP 支持视觉文本融合多标签浏览)、元规划智能体(支持分层任务分解动态实例化) [9] - 支持多智能体协作两种范式:"智能体作为工具"(主智能体调用专业智能体处理子任务)、"智能体对话"(通过Pipeline封装交互模式 MsgHub实现消息广播) [9] 开发者支持体系 - 提供分层评估模块:Task(单个评估单元)、SolutionOutput(标准化输出)、Metric(分类数值指标)、Benchmark(聚合任务suite) [9] - 包含两类评估器:GeneralEvaluator(单进程顺序执行适合调试)、RayEvaluator(基于Ray分布式适合大规模评估) 支持结果持久化与中断续跑 [9] - Studio可视化平台提供聊天机器人式对话追踪、评估结果可视化(性能分布图表置信区间)、内置副驾驶Friday(检索技术资源展示高级功能) [9] - Runtime运行时系统采用双核心架构:Engine(部署为FastAPI服务支持A2A协议)、Sandbox(提供隔离环境统一接口) 简化部署保障安全 [9] 典型应用场景 - 用户-助手对话:通过ReAct智能体与UserAgent构建 支持OpenAI、DashScope等多模型提供商 [9] - 多智能体对话:用MsgHub管理参与者 SequentialPipeline控制发言顺序 支持动态移除参与者 [9] - 深度研究智能体:自动分解研究任务补充知识缺口 生成结构化分析报告适用于学术市场研究 [9] - 浏览型智能体:集成Playwright处理网页快照分块长网页 响应查询股票价格等自动化指令 [9] - 元规划智能体:支持复杂任务分解(如Meta股票分析报告)和工作智能体动态管理 具备状态持久化能力适合多步骤工作流 [9]
自动驾驶VLA再升级!博世IRL-VLA:打造全新闭环强化学习框架
自动驾驶之心· 2025-09-09 23:33
核心技术创新 - 提出IRL-VLA闭环强化学习框架 通过逆向强化学习构建轻量级奖励世界模型(RWM) 取代高计算成本的仿真器奖励计算[3][9][15] - 采用三阶段训练范式:模仿学习预训练VLA策略、逆向强化学习构建RWM、RWM引导的PPO强化学习微调策略[3][15][26] - 在NAVSIM v2基准测试达到SOTA性能 EPDMS得分74.9 并在CVPR2025自动驾驶大奖赛以45.0 EPDMS获得亚军[3][15][48] 模型架构设计 - VLA模型包含语义推理模块(基于Senna-VLM的多图像编码)、3D推理模块(BEV编码器+向量化token)、统一扩散规划器(多模态轨迹生成)[18] - 扩散规划器采用分层去噪机制 整合BEV特征、地图标记和检测标记 确保轨迹符合环境约束[19] - 奖励世界模型以多视角图像和预测轨迹为输入 输出EPDMS综合评分 包含9项子指标加权计算[21][22][23] 性能表现对比 - 预训练模型(IRL-VLA-PT)在Navhard基准测试EPDMS达74.4 优于DiffusionDrive(63.2)、WOTE(66.7)和GTRS-Aug(74.3)[44] - 在安全指标(NC 98.3)接近GTRS-Aug(98.9)同时 显著提升舒适性指标(EC 76.0 vs 54.2)和进度指标(EP 83.9 vs 76.1)[44] - 强化学习微调后(IRL-VLA-RL)EPDMS进一步提升至74.9 证明闭环训练有效性[44][47] 技术实现细节 - 使用V2-99主干网络 处理256×704分辨率多视角图像输入[36] - 模仿学习阶段采用AdamW优化器(学习率10⁻⁴ 批量32)训练100周期[36] - RWM训练结合二元交叉熵、均方误差和交叉熵损失 使用专家演示数据与模拟器反馈[36] - 强化学习阶段采用PPO算法(截断参数0.2 折扣因子0.99 GAE参数0.95)在8块A100 GPU训练[36] 消融实验验证 - 完整模型(3D+语义推理+扩散规划器)比仅3D推理模型EPDMS提升4.4(74.4 vs 70.0)[47] - 模仿学习损失权重λ=0.5时取得最佳平衡 EPDMS达74.9 过高(λ=1.0)或过低(λ=0.1)均导致性能下降[47] - 扩散规划器单独贡献3.0 EPDMS提升 语义推理模块贡献1.4提升[47]
花了很久,才整理好的自动驾驶学习路线......
自动驾驶之心· 2025-09-09 23:33
最近秋招大规模开启了,很多业内公司联系我们发布招聘岗位,也感叹满足需求需求的同学越来越少。。。 因为一直在做自驾自媒体,我们也分析了自动驾驶的从业同学,主要有几类:机械/通信出身转码(算法接触 少)、自动化/计算机/电子信息专业、传统机器人领域。自动驾驶行业发展太快了,在学校里面学的东西根本跟 不上业界的发展,培养根本跟不上。22年入学的刚接触BEV,25年毕业就都是端到端、大模型了,好多入门的 同学都是野路子。这也不怪他们,毕竟很多高校老师转向也没那么快。 根因就是没有系统的培养体系,导致这方面的高质量人才严重不足。前面我们在社区内给大家梳理了很多自动驾 驶技术子领域的学习路线,大家可以好好学习下,助力成为一个真正懂自驾的从业者。 如果您还不是我们的成 员,欢迎加入我们和近4000名星球成员一起交流。 『自动驾驶之心知识星球』目前集视频 + 图文 + 学习路线 + 问答 + 求职交流为一体,是一个综合类的自驾社 区,已经超过4000人了。 我们期望未来2年内做到近万人的规模。给大家打造一个交流+技术分享的聚集地,是 许多初学者和进阶的同学经常逛的地方。 社区内部还经常为大家解答各类实用问题:端到端如何入门? ...
超越GPT-4o!AgentThink: 清华&小米融合推理&工具调用的自动驾驶框架(EMNLP25)
自动驾驶之心· 2025-09-09 23:33
视觉语言模型在自动驾驶领域的应用突破 - 视觉语言模型(VLM)展现出简化传统自动驾驶系统中感知、预测与决策模块的潜力 但现有方法在不确定性建模、泛化性能与可解释性方面存在局限[1] - 行业突破点正从基础感知与控制层面向高阶语义场景理解与复杂拓扑关系等问题收敛 例如复杂红绿灯和标牌语义理解问题[4] - VLM模型存在严重幻觉问题 即答案格式正确但内容错误 影响自动驾驶决策可靠性[4] AgentThink框架的核心创新 - 由清华大学、小米、麦吉尔大学等团队联合提出的AgentThink框架 将动态工具调用与思维链推理深度融合 提升VLM在自动驾驶任务中的推理可靠性和泛化能力[3][5] - 框架采用动态工具调用与思维链推理融合机制 使VLM能够根据场景自主调用工具并进行推理 显著降低幻觉问题[5][8] - 创新性地构建包含视觉信息、检测、轨迹预测、占用和建图五个核心模块的工具库 为感知和预测任务提供全面环境信息[11] 数据生成与训练方法论 - 通过GPT-4o生成带工具调用的结构化推理数据 每个推理步骤包含工具选择、子问题生成、不确定性标志、猜测答案和下一个动作选择五个关键元素[13] - 引入独立LLM审核器(Expert Qwen)对数据内容准确性和逻辑一致性进行双重校验 构建高质量结构化语料库[14] - 采用结合SFT和GRPO的两阶段训练流程 第一阶段通过SFT预热模型生成推理链和工具调用能力 第二阶段通过GRPO算法进行强化学习微调[15][18] 评估体系与实验结果 - 设计针对自动驾驶工具调用的全新评估指标 涵盖工具选择恰当性、工具链连贯性和感知对齐性三个维度[20] - 基于LLM-as-judge原则使用gpt-4o-mini进行多维度评价 对比模型输出与GroundTruth数据得到工具调用准确性和合理性分数[22] - 在主实验中AgentThink在所有评估类别达到最先进性能 整体推理得分从51.77%提升至79.68%(+53.91%) 最终答案准确率从37.81%提升至71.35%(+33.54%)[23][48] - 相比最强基线DriveLMM-o1 推理能力提升5.9% 最终答案准确性提升9.0%[24] - 在零样本和单一样本设置下分别达到26.52和47.24的分数 超过GPT-4o和LLaVA-72B等基线模型[43] 技术优势与行业影响 - 动态工具调用机制使模型能够学习何时以及为何调用外部工具 实现更具适应性和上下文感知的推理 从而提升决策质量并减少幻觉[36] - 结构化奖励设计(最终答案奖励、分步推理奖励和工具使用奖励)对推理行为有显著贡献 完整模型结合所有奖励成分达到最优结果[37][41] - 框架展现出优异的零样本泛化能力 能够有效处理BDD-X、Navsim、DriveBench、DriveMLLM等基准测试上的挑战性场景[44] 未来发展方向 - 当前工具语料库包含18k条标注实例 需要更大且更多样化的数据集以覆盖更广泛真实世界场景[49] - 模型基于qwen2.5-VL-7B参数架构 未来需研究更轻量级骨干网络(如~3B参数)以减轻车载资源约束[49] - 缺乏时间上下文和3D模态数据 未来需引入视频标记、递归记忆机制以及LiDAR点云等多模态工具融合[49] - 重点发展方向包括时序上下文建模、多模态工具扩展和强化学习泛化 以提升框架在开放道路环境中的适配能力[49]
自动驾驶论文速递 | 端到端、Diffusion、VLM、OCC等方向~
自动驾驶之心· 2025-09-09 07:51
端到端自动驾驶扩散策略KDP-AD - 同济大学与北卡罗来纳大学教堂山分校提出知识驱动扩散策略KDP 在匝道合并 交叉路口和环形交叉路口场景中分别实现100% 94%和90%成功率 显著优于强化学习 规则基和模仿学习基线方法[3] - 框架将混合专家重塑为抽象驾驶知识单元 实现模块化组合式策略学习 支持跨场景知识复用与新行为生成 融合扩散建模与专家路由机制 通过条件去噪生成时序连贯多模态动作序列 保障长时域一致性[5] - 在汇入匝道场景中成功率100% 零碰撞率 平均奖励197.52 平均速度8.61米/秒 在交叉路口场景成功率94% 碰撞率6% 平均奖励121.54 在环形交叉路口场景成功率90% 碰撞率10% 平均奖励177.85[12] 3D语义占用预测SliceSemOcc - 南京航空航天大学提出垂直切片多模态3D语义占用预测框架 在nuScenes-SurroundOcc数据集上将mIoU从24.7%提升至28.2% 相对提升14.2% 尤其在小型物体类别表现显著提升[16] - 采用双尺度垂直切片策略 提取全高度范围全局切片与聚焦小目标高度区间局部切片 通过双向交叉注意力机制融合特征 设计SEAttention3D通道注意力模块保留高度轴分辨率 生成高度层专属通道权重[17][19] - 在nuScenes-SurroundOcc和nuScenes-OpenOccupancy数据集分别实现28.2%和22.9%整体mIoU 较基线模型相对提升14.2%和13.9% 小目标类别障碍物 自行车 行人等增益显著[19][22] 交互式世界生成LatticeWorld - 网易与清华大学提出基于多模态大语言模型LLaMA-2-7B与Unreal Engine 5的交互式3D世界生成框架 实现90倍以上工业级场景生成效率提升 从55天缩短至0.6天以内 支持多模态输入与高保真物理仿真[27] - 设计32×32符号矩阵作为场景布局中间表示 将空间信息编码为LLM可处理序列形式 基于LoveDA和Wild数据集构建多模态数据集 包含文本描述 视觉指令 符号布局和环境配置[29] - 在场景布局准确性和视觉保真度上优于GPT-4o Claude 3.7 Sonnet等模型 较传统人工生产流程效率提升超90倍 保持高创作质量[29][35] 视觉语言模型空间推理Ego3D-Bench - 华为科技加拿大公司与华为云提出Ego3D-Bench基准和Ego3D-VLM后训练框架 提升视觉语言模型在自我中心多视角场景中三维空间推理能力 实现多选题准确率平均提升12%和绝对距离估计RMSE平均提升56%[37] - 基于nuScenes Waymo Open Dataset Argoverse 1构建8600+高质量问答对 覆盖绝对距离测量 相对距离测量 定位 运动推理 行驶时间5类任务 提出文本认知地图提升VLMs 3D空间推理能力[38] - 在16个SOTA VLMs上实验显示Ego3D-VLM平均提升多选项QA准确率12% 绝对距离估计RMSE相对改善56% 在All-Angle Bench VSI-Bench等其他多视图基准具适应性[38][42]