自动驾驶之心
搜索文档
认知驱动下的小米智驾,从端到端、世界模型再到VLA......
自动驾驶之心· 2025-11-24 00:03
小米汽车智能驾驶技术发展 - 智能驾驶能力发展遵循三个阶段:从1.0规则驱动到2.0数据驱动再到3.0认知驱动[7] - 技术发展路线为:2024年3月高精地图版本高速NOA → 2024年5月城区NOA → 2024年10月轻图和无图版本 → 2025年2月300万clips端到端版本 → 2025年7月1000万clips版本 → 近期世界模型版本[7] - 在安全、舒适和效率三个维度上,安全永远是第一位[4] - 泊车功能渗透率最高且用户使用最多,城区智驾投入最大且提升空间最大[8] - 2024年11月21日广州车展发布Xiaomi HAD增强版,将通过OTA冬季大版本Xiaomi HyperOS 1.11系列推送给用户[8] 世界模型技术特性 - 世界模型三大核心特性:生成的多样性(重建真实性+快速新场景生成+场景编辑)、多模态输入输出(文字/视频输入+视觉/LiDAR重建)、交互能力(闭环影响下一时刻自车行为)[9] - 世界模型更偏云端应用,通过数据生成、闭环仿真和强化学习提升模型性能,不直接参与车端Action输出[10] - 1.11版本引入世界模型和强化学习,主要解决极端corner case场景,采用重建+生成结合方式[8] VLA与端到端技术路线 - VLA(视觉语言动作模型)是认知驱动核心,为下一阶段量产目标,并非端到端的升级[7] - 端到端本质是模仿学习,VLA直接将大模型能力赋予自动驾驶,世界模型类似端到端plus[13] - VLA可与世界模型融合,学习人类高层次知识(交通规则/价值观)[13] - 小米大模型发展路线:LLM预训练 → VLM预训练 → 具身预训练 → 自驾VLA,已推出MiMo、MiMo-vl和MiMo-Embodied[13] - VLA的无损传递是相比端到端+VLM的最大提升[13] 自动驾驶技术社区资源 - 自动驾驶之心知识星球涵盖40+技术方向,包括VLA学习路线、端到端自动驾驶、世界模型等[16][27] - 社区成员来自300家机构与自驾公司,包括蔚小理、地平线、华为等头部企业[26] - 提供近40+开源项目、近60+数据集、行业主流仿真平台及各类技术学习路线[27] - 社区内部举办超过100场专业技术直播,邀请学术界和工业界大佬分享最新研究成果[99]
在地平线搞自动驾驶的这三年
自动驾驶之心· 2025-11-24 00:03
文章核心观点 - 文章系统回顾了公司在自动驾驶领域的一系列核心技术研究,这些研究构成了一个从感知到规划、再到仿真评测和基础模型的完整技术链路 [2][4][5] - 技术路径从Sparse4D系列融合感知出发,逐步拓展至SparseDrive端到端运动规划,并针对长期迭代需求开发了UniMM交通流仿真和DriveCamSim传感器仿真,最终探索了智驾基础大模型LATR [4][5][30] - 认为端到端模型是行业明确方向,但未来性能提升高度依赖于高效、准确的云端评测系统,而非完全依赖实车测试 [22][30][31] 3D融合感知(Sparse4D系列) - Sparse4D系列采用稀疏query加内外参投影采样的方式,直接从多视角图像特征得到融合感知结果,理论计算复杂度远小于BEV方案 [6][7] - Sparse4D v1核心是deformable aggregation算子,实现了纯稀疏范式的融合感知 [7] - Sparse4D v2将时序融合方式改为recurrent形式,时序复杂度从O(T)降低至O(1),并优化了算子实现,提升了训练推理速度和模型性能 [9] - Sparse4D v3通过temporal denoising、decouple attention等技术提升性能,并以简洁方式实现了联合检测与跟踪,在nuScenes camera-only detection和tracking榜单位居第一 [11] 端到端运动规划(SparseDrive) - SparseDrive在Sparse4D基础上,增加了online mapping任务并设计了运动规划器,实现了检测、跟踪、建图、预测和规划五个任务的端到端处理 [13][15] - 采用稀疏feature作为planner输入,通过大量负样本query覆盖所有可视范围,以应对非白名单物体的避障问题 [15] - 当前规划decoder结构较简单,且仅在nuScenes上进行开环评测,闭环性能有待通过仿真器进一步优化 [15] 轨迹预测与交通流仿真(EDA & UniMM) - EDA提出了动态更新的anchor概念,并采用NMS策略进行匹配,能有效建模轨迹预测的多峰分布,且可与多数预测模型即插即用 [16][17] - 轨迹预测是连接感知和决策的中间件,但其应用受感知噪声和下游使用复杂性限制 [19] - UniMM将交通流仿真的主流模型Continuous Mixture Models和GPT-Like Discrete Models进行了统一,并提出了通用算法框架 [20] - 交通流仿真通过每一步重新采样的方式绕开直接建模多车联合概率,比联合轨迹预测更能反映算法真实性能 [19][20] 传感器仿真(DriveCamSim) - DriveCamSim旨在构建高度可控的传感器仿真系统,通过显式投影约束3D-2D和时序一致性,解耦了时间和空间概念 [23][24] - 模型可生成任意帧率、任意相机内外参、任意相机数量下的图像,适应的condition包括3D bounding box、地图、自车pose等 [24] - 相比于基于3DGS的重建方案或完全依赖Attention的生成方案,该方法在可控性和一致性上具有显著优势 [23][24] 智驾基础模型(LATR) - LATR目标是通过海量数据无监督训练和大参数量,构建能理解智驾场景语义、空间和时空关系的基础模型 [26] - 采用Mask Image Modeling进行预训练,并通过精心设计的masking策略加大补全难度以提升训练效果 [26] - 设计了decoder-only的统一架构,将7个任务融合到同一框架中,新增任务仅需增加一个MLP,最大程度复用预训练参数,效果达到与SparseDrive相当的水平 [27]
端到端量产这件「小事」,做过的人才知道有多痛
自动驾驶之心· 2025-11-24 00:03
行业人才供需现状 - 端到端技术是当前汽车行业量产的核心关键词,成为各家车企的重点招聘岗位 [1] - 市场上真正的端到端量产人才极为稀缺,该岗位要求具备从模型优化、场景优化、数据优化到下游规划兜底的全栈能力 [1] - 行业出现人才供需失衡现象:一方面求职者面临巨大就业压力,另一方面企业难以招到合适人才 [1] 技术挑战与课程设计背景 - 端到端技术在工业界量产仍需攻克诸多难题,包括导航信息的引入、强化学习调优、轨迹的建模及优化等 [3] - 为应对行业实际需求,专门设计了为期三个月的端到端量产进阶课程,聚焦从实战到落地的全过程 [3] 课程核心内容体系 - 课程涵盖核心算法包括:一段式端到端、两段式端到端、导航信息的量产应用、开闭环强化学习、扩散模型+强化学习、自回归+强化学习、时空联合规划等 [5] - 第一章重点介绍感知模型一体化架构和规控learning化方案,这是各大公司的核心必备技能 [10] - 第二章深入讲解两段式端到端算法框架,包括建模方式、信息传递机制以及PLUTO算法实战 [11] - 第三章分析一段式端到端框架,探讨基于VLA和diffusion等方法,并通过VAD系列进行深入掌握 [12] - 第四章专门研究导航信息在量产中的应用,包括地图格式、编码与嵌入方式 [13] - 第五章从模仿学习过渡到强化学习,重点介绍RL算法及其训练策略以解决corner-case场景泛化问题 [14] - 第六章进行nn planner项目实战,结合模仿学习与强化学习算法 [15] - 第七章讲解量产兜底方案,包括轨迹平滑优化算法和多模态轨迹打分搜索算法 [16] - 第八章分享实际量产经验,从数据、模型、场景、规则等多视角剖析问题解决策略 [17] 课程实施与招生信息 - 课程采用离线视频教学结合VIP群答疑模式,包含三次线上答疑,总时长三个月 [20] - 课程从11月30日开始按周解锁章节,具体安排为:11月30日第一章、12月7日第二章、12月14日第三章、12月21日第四章、12月30日、1月15日、2月10日、2月24日均为第五章 [20] - 课程仅限35个招生名额,采取小班授课模式 [5][23]
简历直推 | 驭势科技招聘规划算法工程师!
自动驾驶之心· 2025-11-24 00:03
行业技术趋势 - 视觉语言动作模型成为自动驾驶行业重要发展方向 小鹏汽车已官宣VLA2 0版本[14] - 学术界与工业界存在世界模型和VLA技术路线之争 反映出技术路径尚处探索阶段[14] - 3D高斯泼溅技术在动态场景重建领域获得应用 香港中文大学联合滴滴提出UniSplat方法实现高效驾驶场景重建[14] - 端到端自动驾驶 大模型 强化学习等前沿算法已完成多项目预测和量产交付[13] 人才招聘需求 - 驭势科技招聘规划算法工程师 工作地点北京房山 要求研发复杂场景无人驾驶轨迹规划算法[3][4] - 岗位任职条件包括熟悉混合A* Lattice QP MPC等路径规划方法 了解车辆运动学动力学建模[7] - 优先考虑学历背景优秀或具智能驾驶大厂背景 有优化问题建模求解研究经历者[7] - 要求具备Linux系统下C/C++编程经验 机器人或无人驾驶规划项目经验[7] 专业社区动态 - 自动驾驶之心知识星球举办多期星友面对面活动 嘉宾来自香港高校博士 头部科技公司研发人员[13] - 社区讨论内容涵盖BEV感知 VLA 多模态RAG 3D目标检测与3DGS结合等前沿技术话题[13] - 圆桌讨论聚焦FSD v14技术分析 自动驾驶十年技术跃迁与未来路线等行业核心议题[13] - 社区提供技术资料共享 包括3DGS相关开源项目DriveStudio等资源[13]
港科广LiSTAR:自动驾驶4D LiDAR世界模型!
自动驾驶之心· 2025-11-23 02:04
研究背景与挑战 - 4D LiDAR数据的高保真、可控合成是构建可扩展自动驾驶仿真环境的核心需求[2] - 任务面临三大固有挑战:LiDAR的球形采样几何与传统笛卡尔网格不兼容导致量化失真和结构扭曲[2];点云的时间稀疏性导致动态场景时间连贯性难以维持,常出现表面闪烁或目标对齐不一致[8];现有方法依赖2D BEV布局作为条件输入,扁平化3D空间信息,无法精准控制3D场景结构和目标操纵[8] - 现有LiDAR生成方法受限于笛卡尔体素化的几何失真、时间连贯性不足和可控性薄弱等问题,难以满足自动驾驶仿真对真实性和精准性的要求[4] 核心创新设计 - 提出混合圆柱-球面坐标体素化,通过固定角分辨率的离散化保留所有距离下的几何细节,避免笛卡尔网格的稀疏性和量化误差,实现紧凑高效的4D数据编码[9] - 设计射线中心时空注意力模块,包含空间射线中心注意力和循环移位时间因果注意力两个核心组件,专门用于建模LiDAR序列的时空依赖[10][14] - 提出MaskSTART可控生成框架,通过4D点云对齐体素布局作为条件输入和迭代掩码生成机制,实现高效、高分辨率的布局引导生成,支持复杂场景结构的精细操控[12] 技术细节拆解 - HCS-based 4D VQ-VAE作为框架基础实现4D LiDAR序列的离散表征学习,编码器通过体素合并和START块提取时空特征,解码器从量化token恢复特征并重建点云[13][15] - 空间射线中心注意力将特征沿射线维度展开,通过自注意力聚合所有射线的全局上下文,精准捕捉视线方向上的遮挡关系和空间关联[14] - 循环移位时间因果注意力解决球形坐标展开后的方位角边界不连续性问题,通过严格的时间因果约束确保预测仅依赖历史和当前信息,维持动态场景的时间连贯性[14][16] 实验验证与性能表现 - 重建任务相较于OpenDWM基线,IoU相对提升32%至0.583,MMD降低60%至0.061,Chamfer距离减少41%至0.017[21][22] - 预测任务在1秒未来预测中Chamfer距离降低17%,L1中位数误差减少50%,在2秒长时域预测中仍能保持静态背景和动态目标的清晰结构[25] - 生成任务MMD大幅降低76%至9.94,不同距离范围的Chamfer距离均减少50%以上,生成的点云分布与真实数据高度一致且能严格遵循4D布局约束[28][29] 消融实验验证 - 坐标系统对比显示HCS显著优于笛卡尔和极坐标,IoU比极坐标提升16%至0.554,验证其对LiDAR几何特性的适配优势[30] - START模块有效性验证显示SRA单独使用可将IoU从0.503提升至0.554,加入CSTA后进一步优化至0.583,证明空间射线注意力和时空因果注意力的协同价值[30][31]
自动驾驶之心企业服务与咨询正式推出!
自动驾驶之心· 2025-11-23 02:04
公司业务发展 - 公司创业前两年专注C端市场,为自动驾驶与具身智能领域研发近50门课程 [1] - 公司今年初始收到大量企业业务需求,正式推出企业服务 [1] - 公司已积累近3年行业咨询与培训经验,全平台粉丝近40万 [1] 企业服务内容 - 企业服务包括品牌宣传、产业咨询、技术培训、团队升级 [5] - 服务旨在助力技术路线升级、团队人员升级并提供决策参考 [1] 行业合作与影响 - 公司已与国内多个高校、职业院校、Tier1、主机厂、具身机器人公司建立企业合作 [2] - 公司期望触达更多需要升级的企业以推动领域进步 [2]
大模型技术学习过程梳理:Agent、RAG、通用大模型等......
自动驾驶之心· 2025-11-23 02:04
社区定位与目标用户 - 社区旨在为大模型技术领域的学习者提供交流平台,解决其在学术、应用和工程上遇到的问题 [5] - 目标用户包括从刚入门的研究生到已有基础希望进一步提升的学习者,社区内容设计可帮助小白快速入门,并支持进阶者系统性学习 [2][6] - 社区已构建包含技术路线分享、直播、问答、求职、赛事等多版块的闭环生态,致力于培养行业人才并提供展示机会 [3] 社区资源与合作伙伴 - 社区嘉宾团队正在快速扩张,已邀请来自上海交通大学、清华大学、北京大学、上海人工智能实验室、香港科技大学、香港大学等顶尖高校及科研机构的专家 [5][67] - 工业界合作伙伴涵盖阿里通义千问、美团LongCat、深度求索DeepSeek、字节豆包、百度文心一言、月之暗面Kimi等头部公司 [5][67] - 社区内部已汇聚40多位学术界和工业界专家,未来计划打造为大模型前沿技术聚集地 [67] 核心技术路线覆盖 - 社区提供全面的大模型全栈学习路线图,核心领域包括RAG(检索增强生成)、AI Agent和多模态大模型 [5][6][12] - RAG技术路线细分为Graph RAG、Knowledge-Oriented RAG、多模态RAG、Reasoning RAG等子领域,并提供BenchMark、综述及开源仓库等资源 [13][19][21][22][24][26] - AI Agent技术路线涵盖前沿综述、Agent评测、强化学习、多模态Agent、Agent通讯、基座Agent汇总、自进化Agent及Multi-Agent等方向 [28][30][33][35][37][39][40][42][44] 多模态与模型优化技术 - 多模态大模型训练内容包含多模态大模型(MLLM)、视觉语言模型(VLM)、大模型微调、强化学习与RLHF、MoE(混合专家模型)等关键技术点 [46][49][51][52][53][54] - 模型部署方面提供大模型量化、推理及部署的详细技术路线,满足学习者部署自有模型的需求 [60][61][62][64] - 扩展技术领域包括VLM的提示适配器学习、LLM在3D世界中的应用以及科学大语言模型学习路线图 [55][56][58] 社区服务与未来规划 - 社区福利包括第一时间掌握学术进展与工业应用、与行业专家交流工作求职问题、获得岗位推荐及产业投资与项目对接机会 [10] - 未来计划通过不定期邀请国内外顶尖学术界和工业界专家进行直播分享,并允许内容反复观看 [66] - 社区将持续分享独家岗位招聘信息,赋能成员职业发展 [67]
国内某头部Tier1 拟投资某高阶智驾公司......
自动驾驶之心· 2025-11-23 02:04
投资合作事件 - 国内某头部Tier1公司与高阶智驾公司D达成战略投资意向,投资金额被描述为“不低”[5] - 该Tier1公司源自中欧电子,是国内领先的汽车电子系统供应商,业务涵盖智能座舱、智能驾驶和网联服务[8] - 公司D技术路线较为激进,直接锚定城区NOA,在国内较早实现无图NOA落地,并正快速推进VLA智驾方案落地[9] 投资方(Tier1公司)背景与动机 - 该Tier1公司客户覆盖理想、小鹏、蔚来、小米汽车、比亚迪等自主品牌,以及大众、奥迪、丰田、奔驰等外资品牌[8] - 公司早期以车载音响、仪表盘为主营业务,后凭借在智能座舱大屏与英伟达Xavier芯片领域的先发布局,成功搭载理想ONE、小鹏P7等车型实现量产突破[8] - 公司预估2025年营收将突破300亿元,但2021至2024年间,智能座舱和智能驾驶的毛利率持续下滑[8] - 行业竞争加剧,车企自研域控制器和算法供应商切入硬件,使该公司意识到必须加大对算法及软件层面的掌控力以提高议价权[8][9] - 该公司曾尝试重金挖角算法团队但进展有限,因此通过财务投资绑定有潜力的智驾算法商成为其第二条路径[9] 被投资方(公司D)背景与实力 - 公司D将头部智驾公司M视为主要竞争对手,在多个主机厂项目中同台竞技[9] - 公司D去年交付了首个量产定点项目,并获得某北方自主品牌头部车企1亿美元投资[9] - 公司D的城市NOA方案已获得超10款车型定点,2025年高阶智驾量产规模有望突破20万辆[9] - 公司D于10月28日完成股权变更,并于11月4日完成大幅增资,注册资本从19.59万元增至25亿元,相关变动是因“公司正搭建红筹架构”,这通常被视为海外上市的前置步骤[9] 行业趋势与影响 - 本次投资是智能驾驶产业链进入深度整合期的明确信号,产业链正从传统采购关系转向“战略+资本+技术”的深度绑定[10] - “车企+Tier1+智驾公司”的铁三角模式逐渐成为行业标配,Tier1负责硬件与系统集成,智驾公司提供算法与软件,车企获得可控供应链并以出货量托底[10] - 通过资本绑定可确保技术路线一致与利益共享,从而构建稳固的竞争壁垒[10] - 此类合作将提升行业集中度,具备技术互补与资源整合能力的头部公司将更有实力获取订单,而中小型智驾公司面临更严峻的生存压力[10] - 对主机厂而言,选择匹配的联盟将成为未来产品差异化竞争的关键[10]
基于Qwen3-VL的自动驾驶场景实测
自动驾驶之心· 2025-11-22 02:01
模型核心能力 - 在自动驾驶场景的实测中展现出稳健的基础感知能力和令人惊喜的开放式推理与动态场景理解能力,具备"老司机"潜质 [2] - 能够精准理解道路结构、交通参与者、天气状况、交通标志等场景信息 [85] - 具备深度的空间推理能力,可判断车辆相对位置、运动状态及车道关系 [85] - 展现出动态行为预测能力,能分析车辆意图并评估风险等级 [85] - 在多帧时序理解方面表现突出,能基于连续图像推断速度变化和交通流演变过程 [85] 技术测试维度 - 测试涵盖场景理解、空间推理、行为判断、风险预测等多个维度 [2] - 在场景理解任务中,模型能准确描述图片内容、判断天气状况、识别道路类型及交通参与者 [7][9][10][11][15][17][18] - 在空间推理任务中,模型可识别距离自车最近的车辆、判断前方车辆移动状态及旁边车辆的变道意图 [21][22] - 模型能够回答关于前方车辆数量、位置、自车所在车道及车道线数量等具体空间问题 [25] - 在行为决策方面,模型能基于当前情况给出加速、减速或保持速度的建议 [28] 安全与风险评估 - 模型在判断中多次强调"安全第一",体现出良好的驾驶伦理观和安全意识 [85] - 能够识别图中最大的潜在危险并进行说明 [29] - 具备按危险程度对交通参与者进行排序的能力,例如将右侧对向行驶的白色面包车列为最高风险 [38][42] - 能合理判断超车行为的安全性,在夜间、对向来车、能见度低等条件下强烈不建议超车 [48][49][50] - 可以模拟突发情况下的场景演变,如车辆突然爆胎后可能引发的连锁反应 [75][77][79] 行业应用前景 - 此次测试表明通用视觉语言模型在垂直领域落地具有更多可能性 [2] - 基于通用大模型的自动驾驶系统未来或可通过"常识推理+多模态理解"的方式实现更高效、更泛化的驾驶决策 [86] - 模型未经过专门的自动驾驶指令微调却能对复杂交通场景做出合理判断,显示出强大的基础能力 [2][86] - 尽管在极端复杂场景下的反应一致性等细节仍需优化,但模型已展现出更加智能、更具理解力的自动驾驶未来图景 [86]
世界模型能够从根本上解决VLA系统对数据的依赖,是伪命题...
自动驾驶之心· 2025-11-22 02:01
自动驾驶技术路线分析 - 2025年自动驾驶赛道分裂为两大阵营:小鹏、理想、元戎启行押注VLA路线,而华为、蔚来则力推世界行为模型路线[2] - 世界行为模型被视为能真正实现自动驾驶的终极方案,但其本质被认为是套壳的数据依赖论[2] - VLA依赖海量数据训练得到的VLM进一步扩展Action能力,工业界最得天独厚的优势就是有海量的数据[2] - 在普通场景已达到99.9%能力的情况下,长尾场景成为决定胜负的关键[2] - 世界模型采用生成式方法理论上可无限扩展corner case,但生成前提是需要海量真实数据训练物理规则认知框架[2] 技术路线数据依赖本质 - 两条技术路线都建立在"数据决定上限"的底层逻辑上[3] - VLA依赖真实场景的多模态数据训练Reasoning能力[3] - 世界模型需要"真实数据打底+仿真数据扩量"的双重buff,其泛化能力本质是对数据多样性的迁移[3] - 行业陷入混淆"数据形式"与"数据本质"的误区,世界模型想利用仿真数据减少对真实长尾数据的依赖[3] - 在真正的人工智能到来前,数据永远是自动驾驶的核心竞争力[3] 自动驾驶技术社区资源 - 自动驾驶之心知识星球已超过4000人,期望未来2年内做到近万人规模[8][9] - 社区集视频+图文+学习路线+问答+求职交流为一体,是综合类自动驾驶社区[8] - 社区内部梳理了近40+技术路线,涵盖VLA benchmark、综述和学习入门路线[9] - 社区汇总了近40+开源项目、近60+自动驾驶相关数据集、行业主流自驾仿真平台[19] - 社区成员来自上海交大、北京大学、CMU、清华大学等知名高校,以及蔚小理、地平线、华为等头部公司[18] 技术学习体系 - 社区提供自动驾驶感知学习路线、自动驾驶仿真学习路线、自动驾驶规划控制学习路线[19] - 涵盖端到端学习路线、3DGS算法原理、基于搜索的规划、VLA学习路线等技术方向[19] - 提供全栈方向学习课程,适合0基础入门学习者[12] - 社区内部会员独享七大福利视频教程,涵盖世界模型、自动驾驶大模型、Transformer等技术领域[87] - 已开展超过一百场专业技术直播,邀请行业大佬分享最新研究成果[90] 技术细分领域覆盖 - 社区详细梳理了3D目标检测、BEV感知、世界模型、闭环仿真3DGS、自动驾驶大模型等技术领域[35] - 针对端到端自动驾驶,梳理了一段式端到端、二段式端到端、量产方案、VLA相关算法等内容[39] - 涵盖视觉语言模型最新综述、开源数据集、思维链推理、量产方案等前沿领域[45] - 对自动驾驶VLA领域进行详细梳理,包括最新综述、VLA开源数据集、模块化VLA等内容[47] - 包含规划控制基础算法、决策规划框架和常用控制算法等传统规划内容[49]