自动驾驶之心
搜索文档
AI Day直播 | “像素级完美”深度感知,NeurIPS高分论文解密
自动驾驶之心· 2025-11-05 00:04
点击按钮预约直播 深度估计是机器人感知、三维重建、AR/VR 等应用的核心。然而,现有的深度估计方法普遍存在边缘飞点(Flying Pixels)问题,而这会导致机器人执行决策时候,引发错误动作;三维重建时导致物体轮廓鬼影重重等。现有方法经历边 缘飞点主要因为以下原因: 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>直播和内容获取转到 → 自动驾驶之心知识星球 本文提出 Pixel-Perfect Depth (PPD),一种 直接在像素空间进行扩散生成的单目深度估计模型 ,从根源上避免了因 VAE 压缩导致的伪影问题。然而,高分辨率像素空间的扩散建模极具挑战:模型需兼顾 全局语义的一致性 与 局部细节的精确 性 ,否则极易出现结构失真或深度跳变。为此,本文设计了语义引导的扩散 Transformer(SP-DiT),在扩散过程中引入 来自视觉基础模型的高层语义特征作为提示,有效增强了模型对全局结构的把握与细节恢复能力。同时,本文提出一种 判别式模型 (如 Depth Anything v2, Depth Pro )由于回归损失的平滑倾向,容易在深度 ...
理想智驾逆袭往事:端到端的百日冲刺
自动驾驶之心· 2025-11-05 00:04
公司战略转型与领导力 - 2024年3月,公司创始人李想在春季战略会上向自动驾驶团队下达死命令,要求必须转向端到端技术路线,否则团队将面临重组[4] - 李想自2023年起深度投入AI学习,取消其他例会只保留AI周会,并快速迭代自身AI认知,将公司愿景从“成为全球第一的智能电动车企业”变更为“成为全球领先的人工智能企业”[15][17] - 2023年5月,公司高管团队组团前往美国硅谷进行AI考察,自动驾驶业务负责人郎咸朋亲自试驾特斯拉FSD并拜访其自动驾驶团队[19][20] - 2024年底,李想宣布公司全面押注AI,这一决定与其首次体验端到端系统后的震撼密切相关[40] 端到端技术突破历程 - 2024年7月5日,公司正式发布“端到端+VLM”系统,标志着其自动驾驶发展进入分水岭[5] - 端到端项目内部代号“达摩克里斯”,于2024年4月15日以秘密招募方式启动,最初仅12人,后扩展至约100名核心成员[27] - 项目技术负责人夏中谱带领团队在不到100天内完成从研发到千人推送,算法团队规模约40人,算力配置仅2000卡[31][40][56] - 2024年10月23日,系统开启全量推送支持城市场景,2025年1月16日拓展至高速和环路,使公司成为国内唯一、全球第二家将端到端技术应用于全场景的车企[45][46] 市场表现与用户反馈 - 2024年7月,端到端系统在1000名早鸟用户中试水,反馈极佳,随后用于门店试驾车,至10月智能驾驶试驾占比达65%[6] - 搭载端到端AD Max车型的交付占比大幅提升,2024全年在30万元以上车型中占比75.4%,在40万元以上车型中占比84.6%,而同年2月该数字仅为20%[7] - 端到端功能成为用户进店体验“标配”,试驾用户比例陡升至超70%,不少消费者反馈其体验优于竞争对手华为的乾崑智驾[6][51] - 到2024年底,搭载端到端智驾系统的车型在公司整体销量中占比已超过70%,相比年初的20%实现大幅跃升[52] 技术优势与研发效率 - 公司采用“一段式端到端”技术,将感知、规控、定位、地图等模块集成到一个网络中,实现系统化设计和全局最优,突破了传统模块化方法的局限[58] - 端到端项目核心算法团队不足200人,总人数超400人,远少于竞争对手通常超过1000人的团队规模,实现了以最小投入取得行业领先成果[49] - 项目成功的关键在于前瞻性的技术应用以及团队间高效配合、信息流通和协作执行,确保了研发交付过程无任何纰漏[57][59] - 公司自2018年起搭建的数据闭环系统是决定性因素,统一的传感器布局保证了数据标准化和可比性,截至2025年8月29日,用户辅助驾驶总里程达49亿公里[64][72][73] 行业竞争格局演变 - 在端到端方案推出前,公司自动驾驶研发在四年内迭代五套技术方案,始终处于追赶行业头部(华为、小鹏)的状态[5][9] - 2023年公司曾全面学习华为的“人海战术”,自动驾驶团队从年初的五六百人迅速增长到年底超1000人,但效果未达预期[10][11] - 公司城市NOA在2023年底开通110城,但支持区域受限,推送后收获差评,促使团队将全部希望押注于无图NOA研发[11][12] - 端到端技术的成功使公司智驾水平一跃成为行业头部,实现了从长期追随到首次领先的逆转[6][46][50]
自动驾驶是否一定需要语言模型?
自动驾驶之心· 2025-11-05 00:04
自动驾驶技术路线分野 - 2025年成为自动驾驶技术架构的关键分水岭,形成WEWA与VLA两大对立技术路线 [2] - WEWA架构以华为乾崑智驾ADS 4为代表,追求“去语言化”实现高效落地 [2][4] - VLA架构以理想、小鹏等企业为代表,以语言模型为核心追求认知智能 [2][4] WEWA与VLA架构的本质区别 - WEWA核心逻辑为视觉直接映射动作,跳过语言转化环节,关键组件是云端世界引擎和车端世界动作模型 [5] - VLA核心逻辑为视觉-语言-动作三级传导,语言为核心中介,关键组件是视觉编码器加大语言模型加策略控制模块 [5] - WEWA技术核心是虚拟沙盘训练的端到端动作映射,代表指标为端到端时延降低50%,重刹率降低30% [5] - VLA技术核心是多模态对齐的语言化推理能力,优势在于复杂场景决策准确率提升和支持自然语言交互 [5] - WEWA通过云端虚拟沙盘预训练,将场景-动作映射固化到车端模型,实现“感知即决策”的高效闭环 [5] - VLA遵循“具身智能”认知逻辑,将视觉特征转化为语言Token进行语义推理,例如Wayve的LINGO-1模型能通过语言解释车辆决策 [6] VLA架构的算力挑战 - VLA训练阶段算力需求高,小鹏启动的720亿参数自动驾驶基座模型需千卡级GPU集群支持 [7] - VLA推理阶段即使使用7B-13B参数的轻量化语言模型,也需车规级高算力芯片(如Orin-X 200TOPS以上)保证实时响应 [7] - 语言模型的语义处理引入额外时延,使VLA端到端时延比WEWA高出近一倍,在毫秒级决策场景存在安全风险 [8] - VLA架构中语言模型持续运行会占用可观车端算力,可能导致感知模块帧率下降和传感器数据处理延迟 [9] VLA架构的语言模型优势 - 语言具有高度抽象能力,可将成千上万的类似场景压缩成一句话,实现巨量场景的压缩处理 [10] - 大语言模型具备跨场景知识迁移能力,能为自动驾驶注入“类人推理”能力,处理3000万个样本都无法覆盖的罕见场景 [12] - 语言作为通用语义载体,能将视觉信号、导航指令、人类语音等异构信息纳入同一推理框架,实现多模态信息统一表征 [13] - 语言模型能将抽象决策过程转化为自然语言输出,提升决策的可解释性与安全性,有助于L3及以上高阶自动驾驶商业化 [14] 技术路线的核心权衡与发展趋势 - 短期在L2-L3级辅助驾驶量产场景中,WEWA架构的低时延、低成本优势更具现实价值,通行效率可提升20% [15] - 长期在L4-L5级完全自动驾驶非结构化道路场景中,VLA的认知优势将不可替代,成为核心竞争力 [16] - 行业出现混合架构趋势,华为在WEWA中预留“语义接口”,小鹏通过“模型蒸馏”压缩大模型,取二者之长 [17] - 自动驾驶是否加入语言模块取决于语言模型的性价比,即抽象优势与算力开销的比值是否划算 [17] - 大语言模型是“高阶智能的催化剂”,在量产落地中WEWA更具效率优势,在完全自动驾驶目标中VLA的抽象能力是不可逾越阶段 [18]
英伟达一篇长达41页的自驾VLA框架!因果链推理,实车可部署算法Alpamayo-R1
自动驾驶之心· 2025-11-05 00:04
文章核心观点 - 英伟达发布名为Alpamayo-R1(AR1)的41页自动驾驶VLA框架,旨在通过将因果链推理与轨迹规划相融合,解决现有端到端模型在长尾场景中因监督信号稀疏和因果推理能力不足导致的性能差问题[1] - AR1框架包含三大核心创新:构建因果链数据集、采用模块化VLA架构、实施多阶段训练策略,其在高难度场景下的规划准确率提升高达12%,闭环仿真中偏离车道率降低35%,近距离碰撞率降低25%[2] - 该模型通过强化学习后训练,推理质量提升45%,推理-动作一致性提升37%,模型参数从0.5B扩展至7B时性能持续提升,实车测试延迟为99毫秒,为L4级自动驾驶提供了可行路径[2] 技术背景与问题定义 - 自动驾驶系统正从传统模块化架构转向端到端框架,但当前端到端方法在处理长尾场景与安全关键场景时仍存在脆弱性,与实现稳健L4级自动驾驶的需求存在显著差距[3] - 大语言模型的最新进展为填补推理差距提供了潜力,其推理时间范式使推理成为可调节资源,但现有视觉-语言-动作模型要么缺乏显式推理过程,要么采用无结构化推理,难以泛化到训练分布之外的场景[4] - 有效的自动驾驶推理必须具备因果锚定能力,且结构上与驾驶任务对齐,推理轨迹应通过因果链将场景证据与驾驶决策显式关联,并直接约束低阶轨迹生成[5] 核心架构与技术创新 - AR1采用模块化VLA架构,以Cosmos-Reason VLM作为主干网络,整合了为物理智能应用预训练的视觉-语言模型和基于扩散模型的轨迹解码器,可实现实时生成动态可行驶的规划方案[5][12] - 视觉编码方面,AR1支持单图像token化、多摄像头token化和多摄像头视频token化等多种策略,其中多摄像头tokenizer利用三平面作为3D归纳偏置,可将每幅图像的token数量减少3.9倍,满足实时推理需求[21][22] - 轨迹解码采用基于单轮车动力学模型的动作表示,通过流匹配框架将离散轨迹token解码为连续表示,提升了闭环性能和解码效率,相较于自回归解码,流匹配解码的舒适性提升至97.38%,解码速度提升1.16倍[27][121] 因果链数据集构建 - 构建了结构化的因果链标注框架,通过"自动标注+人机协同"的混合流程生成与驾驶行为对齐、以决策为核心且具备因果关联的推理轨迹,解决了现有思维链数据集中行为描述模糊、推理流于表面和因果混淆等问题[5][30][31] - 数据集定义了封闭的高阶驾驶决策集合和开放的因果因素类别,通过关键帧标注确保因果局部性,仅对包含显式驾驶决策的片段进行标注,最终生成了70万个带结构化因果链标注的视频片段[36][37][40][91] - 评估采用融合人工验证与LLM自动评估的混合策略,发现结构化CoC推理轨迹相较于自由形式推理轨迹,因果关系得分相对提升132.8%,自动标注与人工评估的对齐率达92%[59][60] 训练策略与性能优化 - 设计了三阶段训练策略:通过动作模态注入使模型能够预测车辆控制输出;利用CoC数据集进行有监督微调,教会模型生成因果锚定的解释;采用结合大型推理模型反馈的强化学习,优化推理质量、推理-动作一致性和轨迹质量[61][62] - 强化学习后训练采用GRPO算法,整合推理质量奖励、CoC-动作一致性奖励和低阶轨迹质量奖励三个互补信号,使最可能轨迹的ADE降低9.4%,推理评分提升45%,推理-动作一致性提升37%[77][78][111] - 通过高信息增益数据筛选优先选择模型隐含奖励与显式奖励存在分歧的样本进行后训练,实现了高对齐效率与稳健学习动态,性能优于基于均匀采样数据的训练[85] 实验结果与性能评估 - 开环评估显示,集成CoC推理的AR1模型在6秒时域的minADE为0.955米,较基础模型提升4.1%,在高难度场景中性能提升更为突出,minADE达0.868米,较基准提升12%[96][98] - 闭环仿真中,AR1的偏离车道率降低35%(从17%降至11%),近距离碰撞率降低25%(从4%降至3%),整体AlpaSim评分从0.38提升至0.50,证明基于推理的决策能提升动态闭环场景中的安全性[100][101] - 模型规模消融实验表明,随着参数从0.5B扩展至7B,开环性能持续提升,7B模型的minADE较0.5B基准降低11%;数据规模消融显示,200万样本模型性能最佳,minADE较10万样本提升14.0%[110][113][115]
跨行转入自动驾驶大厂的经验分享
自动驾驶之心· 2025-11-04 00:03
文章核心观点 - 文章通过分享苹果姐的职业发展案例,强调在自动驾驶行业成功需要抓住机会并持续学习转型 [1] - 自动驾驶之心知识星球是一个综合性技术社区,提供超过40个技术方向的学习资源和行业交流平台 [4][7][10] - 社区目前拥有超过4000名成员,目标在未来2年内达到近万人规模 [4] 社区资源与内容 - 社区汇总了近40+技术路线,涵盖BEV感知、端到端自动驾驶、多传感器融合等核心领域 [7][10][17] - 提供近60+自动驾驶数据集、行业主流仿真平台和各种技术学习路线 [16] - 社区内部梳理了自动驾驶100问系列,包括TensorRT模型部署、毫米波雷达融合等实用问题 [10] - 拥有超过100场专业技术直播,邀请学术界和工业界大佬分享最新研究成果 [91] 学习与课程体系 - 社区提供七大福利视频教程,涵盖世界模型、自动驾驶大模型、3D目标检测等热门方向 [89] - 原创直播课程包括感知融合、多传感器标定、SLAM与高精地图等8大系列 [11] - 为入门者提供全栈方向学习课程,适合0基础小白系统学习 [10][11] 行业连接与就业支持 - 社区成员来自上海交大、北京大学、CMU等知名高校和蔚小理、华为、英伟达等头部企业 [16] - 与多家自动驾驶公司建立内推机制,提供大模型-端到端算法工程师等热门岗位推荐 [12] - 社区定期分享行业机会挖掘、投资与项目对接信息 [21] 技术领域覆盖 - 重点技术方向包括:VLA学习路线、多模态大模型、Occupancy Network、3DGS与NeRF等 [17][38][41][48] - 详细梳理了端到端自动驾驶的一段式/二段式方案、量产方案和VLA相关算法 [38][48] - 覆盖BEV感知、3D目标检测、轨迹预测、规划控制等自动驾驶核心技术栈 [17][50][54][56]
从DriveVLA-W0出发:探讨世界模型如何放大VLA的扩展定律(中科院)
自动驾驶之心· 2025-11-04 00:03
技术挑战与解决方案 - 自动驾驶视觉-语言-动作模型面临“监督缺失”问题,其庞大模型能力仅由稀疏、低维的动作信号监督,导致大部分表征潜力未被充分利用[3] - 中科院和华为引望团队提出DriveVLA-W0训练范式,利用世界模型预测未来图像以解决监督缺失问题[3] - 针对离散视觉token的VLA模型设计自回归世界模型,针对连续视觉特征的VLA模型设计扩散世界模型[3] - 基于世界建模学习的丰富表征,引入轻量级动作专家以解决实时部署中的推理耗时问题[3] 模型性能与数据规模效应 - 在NAVSIM v1/v2基准测试和规模大680倍的内部数据集上,DriveVLA-W0显著优于BEV和VLA基线方法[5] - 该技术放大了数据Scaling Law效果,表明随着训练数据集规模增大,性能提升速度会加快[5] - 模型在7000万帧数据上真正放大了VLA的数据扩展定律[8] 技术架构与应用前景 - DriveVLA-W0通过世界模型提供稠密自监督,实现从“监督赤字”到“定律放大”的转变[9] - 该研究为构建更通用的驾驶智能提供了充满前景的道路[3] - 技术分享重点涵盖自动驾驶VLA的“监督赤字”挑战、世界模型破解稀疏监督的方法以及DriveVLA-W0的架构与性能[12]
工业界大佬带队!三个月搞定3DGS理论与实战
自动驾驶之心· 2025-11-04 00:03
3DGS技术发展与应用 - 新视角合成的核心目标是通过图像或视频构建可被计算机处理和理解的3D模型,催生了3D建模、虚拟现实和自动驾驶闭环仿真等大量应用 [2] - 早期算法如SfM和MVS受限颇多,2020年的NeRF打破了僵局,但其仍面临计算效率和可编辑性差的问题,导致2023年的3DGS一经问世便迅速火爆 [2] - 3DGS技术迭代速度极快,已衍生出静态重建3DGS、动态重建4DGS、表面重建2DGS,并进一步催生了前馈式3DGS以解决逐场景优化的不便 [4] 课程内容与结构 - 课程第一章涵盖计算机图形学基础,包括三维空间的隐式与显式表达、渲染管线、光线追踪和辐射场渲染,并介绍3DGS常用开发工具如SuperSplat、COLMAP和Gsplat [10] - 第二章深入讲解3DGS原理及核心伪代码,覆盖动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法,实战部分选用英伟达开源的3DGRUT框架 [11] - 第三章聚焦自动驾驶仿真重建,重点解析浙大Street Gaussian、上交OmniRe和浙大Hierarchy UGP三篇工作,实战选用学术界和工业界广泛使用的DriveStudio [12] - 第四章探讨3DGS重要研究方向,包括COLMAP扩展、深度估计及重光照,分析这些方向如何服务工业界及未来走势 [13] - 第五章讲解前馈式3DGS,梳理其发展历程和算法原理,并解析最新的AnySplat和WorldSplat算法工作 [14] 课程安排与目标人群 - 课程面向具备一定计算机图形学基础、了解视觉重建/NeRF/3DGS技术、拥有概率论和线性代数基础、并掌握Python和PyTorch语言基础的学习者 [19] - 课程开课时间为12月1日,预计两个半月结课,采用离线视频教学,VIP群内答疑加三次线上答疑的形式 [17] - 学习者完成课程后可掌握3DGS完善的理论知识及相关技术栈、掌握3DGS算法开发框架并训练开源模型,并能与学术界及工业界同行持续交流 [19]
和一些人交流后, 更深入的分析地平线HSD
自动驾驶之心· 2025-11-04 00:03
文章核心观点 - 地平线HSD工程版软件在特定场景下体验优异,1.5小时杭州西湖试驾表现明显优于理想L7 VLA截至2025年10月的量产版本,全程除1次三点掉头外0次接管 [3][5] - 自动驾驶技术路径存在差异,地平线采用VA式端到端,理想采用VLA式端到端,两者均为基于各自情况的最优解 [3][9][10] - 单一或几次试驾体验不足以评估辅助驾驶系统的全国泛化能力,网上正面评价可能不够全面 [3][7][8] - 20万元以上市场除华为外,主机厂需具备自研自动驾驶能力才能生存,该能力是区分点而非直接卖点 [3] 地平线人员印象及HSD试驾体验 - 接触到的3位地平线人员均表现诚实、实事求是,主动阐述系统在极端天气、非标场景及复杂博弈下的不足 [3][4] - A车型搭载的地平线HSD工程版软件在安心感、舒适感、丝滑度、时延及堵车启停舒适度方面表现不错,明显优于理想VLA量产版 [3][5] - 不同车型(A车型与B车型)的HSD体验差异显著,与芯片算力及车企配合度有关 [5] - 业内人士D认为HSD在纵向控制上相当不错 [6] 技术路径分析:VA式端到端 vs VLA式端到端 - VA式端到端(地平线采用)有特斯拉FSD作为成功标杆,潜力可挖,现阶段在部分用户体验方面有优势,是地平线基于自身基础与商业方向的最优解 [3][10][12] - VLA式端到端(理想采用)对算力、带宽需求明显更高,缺乏成熟体验参考,是理想做出的有勇气的决策,若成功可带来长期竞争优势 [3][12] - 理想面临架构转化过渡期,2025年11月版本体验或有改善,但长期需解决VLA对算力、带宽的更高需求 [3][12] 行业竞争格局观点 - 20万元以上市场,除华为外,主机厂需自研自动驾驶能力,否则将被淘汰,该能力是综合组织能力的体现 [3] - 自动驾驶本身是能力区分点,其边际成本低的特性将导致行业集中度高 [3]
人形机器人大概要进入第一轮寒冬
自动驾驶之心· 2025-11-03 08:55
行业当前面临的挑战 - 特斯拉Gen2因发热和灵巧手短命问题暂停今年量产计划,Gen3推迟至明年Q1发布[3] - 国外公司表现不及预期,如Figure03被爆出视频多次拍摄剪辑,Meta首席AI科学家LeCun认为机器人行业远未实现真正智能,Google DeepMind负责人称人形机器人进入家庭市场还需5-10年[4] - 国内行业存在虚假繁荣,订单多为左手倒右手、无需交付的框架订单或远期订单[5] - 硬件发展迅速(如宇树通过电驱技术超越波士顿动力液压系统),但过去50年仍未实现机器人大规模普及[7] 技术发展的核心瓶颈 - 当前AI技术能否让人形机器人涌现智能存在重大疑问,截至2025年底尚未出现令人惊叹的通用智能[8][9] - 现有技术(如VLA)仅在特定场景下有效,缺乏泛化能力,无法适应家庭等复杂环境[11][12] - 视频学习技术仍处于大公司预研阶段,尚未落地,例如特斯拉Optimus虽宣称能用视频学习在工厂行走,但无公司能证明通过视频学习实现灵巧手泛化操作[13][15][17] - 技术环节存在多个卡点,如强化学习的奖励函数设计、手部识别精准度、逆动力学模型准确率等,任一问题都可能成为致命伤[15][16] 潜在的超预期因素 - 特斯拉Optimus Gen3被寄予厚望,马斯克称其为“无与伦比的产品”,若明年Q1展示成功可能扭转行业预期,若翻车则可能导致行业进入寒冬[18][19][20][21] - 硬件极致化开辟新市场,宇树通过泛娱乐路线(如售价9998元的小机器人)吸引企业跟进,即使通用AI发展遇阻,泛娱乐领域的研究仍会持续[22][23] 行业长期展望 - 人形机器人当前的不及预期可能类似新能源汽车早期的蛰伏期,是技术迭代蓄力的阶段[24]
端到端和VLA,这些方向还适合搞研究
自动驾驶之心· 2025-11-03 00:04
自动驾驶技术发展路线 - 技术路线从基于规则时期转变为以理想、小鹏等新势力为代表的端到端到VLA范式时期,现阶段进入以蔚来为代表的世界模型时期[1] - 深度学习始终是技术路线的核心组成部分,行业建议学习前沿理论、底层基础理论和代码能力以应对技术快速迭代[1] 课程内容与目标 - 课程涵盖从模块化量产算法到端到端、VLA的技术演进,核心算法包括BEV感知、视觉语言模型VLM、扩散模型、强化学习、世界模型等[5] - 学习目标为掌握端到端技术框架,复现扩散模型、VLA等主流算法,学完后可达1年左右端到端自动驾驶算法工程师水平[5] 导师资质与行业资源 - 主讲导师为C9本科+QS前50 PhD背景,发表CCF-A论文2篇,现任国内TOP主机厂算法专家,主持过多项自动驾驶感知和端到端算法的量产交付[6] - 公司拥有300+专职于自动驾驶/具身智能方向的导师,来自全球QS前100高校,近3年辅导学员超400名,中稿率达96%[8][15] - 优秀学员可获得清北/MIT等名校推荐信或内推至阿里达摩院、华为诺亚方舟等企业研发岗[19] 科研辅导服务 - 辅导覆盖选题、调研、idea验证、代码实现、实验、润色、投稿全流程,目标包括CCF-A/B/C、SCI1-4区、EI会议等[15] - 服务包含班主任全程督学,针对零基础学员提供基础课程,承诺6个月可完成一篇小论文[18] - 通过精准匹配系统从300+导师中筛选3-5位方向契合者,支持试听和退款机制[18][19]