自动驾驶之心
搜索文档
端到端VLA剩下的论文窗口期没多久了......
自动驾驶之心· 2025-11-11 00:00
自动驾驶技术发展路线 - 技术路线从基于规则时期转变为以理想、小鹏等新势力为代表的端到端到VLA范式时期,现阶段进入以蔚来为代表的世界模型时期[1] - 深度学习始终是技术路线的核心组成部分[1] 课程核心内容与目标 - 课程涵盖从模块化量产算法到端到端、VLA的演进,核心算法包括BEV感知、视觉语言模型VLM、扩散模型、强化学习、世界模型等[5] - 学习目标为掌握端到端技术框架,深入理解BEV感知、多模态大模型等关键技术,可复现扩散模型、VLA等主流算法框架[5] - 学完全部课程后大部分学员能达到1年左右端到端自动驾驶算法工程师水平,受益于实习、校招、社招[5] 主讲导师背景 - 导师Jason拥有C9本科和QS前50 PhD学历,已发表CCF-A论文2篇及CCF-B论文若干[6] - 现任国内TOP主机厂算法专家,从事端到端、大模型、世界模型等前沿算法预研和量产,主持完成多项自动驾驶感知和端到端算法产品量产交付[6] 论文辅导服务成果 - 近3年辅导学员超过400名,中稿率高达96%[8] - 学员成功案例覆盖SCI 2区、3区期刊及CVPR、emnlp等顶会,辅导周期通常为2-4个月[9] - 服务方向包括三维重建、SLAM、点云处理、VLA、机器人导航、计算机视觉等,学员需自带简历并具备一定pytorch基础[12] 论文辅导流程 - 全流程服务涵盖选题、文献调研、idea验证、代码实现、实验设计、写作润色、投稿及中稿[11][15] - 具体步骤包括确定选题、精读文献、复现baseline、方法论讲解、代码debug、实验设计、论文写作及审稿回复等27个环节[11] - 提供精准导师匹配系统,根据学员研究方向、目标期刊、基础水平从300+导师中筛选3-5位最契合人选[18] 附加价值与服务保障 - 优秀学员可获得清北、MIT等名校推荐信,或内推至阿里达摩院、华为诺亚方舟等企业研发岗[19] - 提供基础课程供零基础学员自主学习,承诺6个月可完成一篇小论文[18] - 支持预收定金后与名师meeting,不满意可免费更换老师或退款[19]
一场关于自动驾驶VLA和世界模型的深度讨论!下周一不见不散~
自动驾驶之心· 2025-11-11 00:00
直播活动概览 - 活动主题为自动驾驶世界模型和VLA的深度探讨 重点关注FSD v14是否包含VLA技术以及WA与VLA谁将定义下一代自动驾驶方案 [4][5] - 直播时间为11月17日晚 由自动驾驶之心运营负责人Gloria主持 [3][4] - 完整版深度内容已独家上线知识星球「自动驾驶之心」涵盖所有技术细节、QA及未公开彩蛋 [12] 主讲嘉宾背景 - 詹锟为理想汽车视觉-语言-动作团队高级总监 硕士毕业于北京航空航天大学自动化专业 2017年加入百度Apollo负责行为预测 2021年加入理想汽车从零搭建自动驾驶技术栈 领导团队实现高速NoA2022年 城市NoA2023年 端到端+VLM双系统架构2024年以及VLA框架2025年等里程碑 [1] - 许凌云为中国科学院博士 卡内基梅隆机器人研究所博士后 发表12篇机器人领域顶级期刊或会议文章 获DARPA SUBT无人车挑战赛2019年世界冠军 2019年至2024年专注智能驾驶算法开发 主导多个行车和泊车量产项目落地 现任长安汽车泊车团队负责人 [2] - 其他参与嘉宾包括博世中央研究院高级算法科学家江岸青 上海交通大学AutoLab创始人张志鹏 以及深度流光联合创始人CTO刘斯坦 [3][4] 核心讨论议题 - 探讨特斯拉FSD v14有哪些技术值得国内关注 [8] - 世界模型和VLA未来发展方向探讨 是否可能走向融合统一 [8] - 讨论数据和算力高需求导致学术界难以参与智驾游戏的情况下 学术界还有哪些机会 [8]
在地平线搞自动驾驶的这三年
自动驾驶之心· 2025-11-11 00:00
文章核心观点 - 文章系统总结了公司在自动驾驶算法系统构建方面的技术演进路径,涵盖从感知到规划、仿真评测及基础模型的完整技术栈 [2][4][5] - 技术路径呈现递进关系:首先构建端侧策略(从感知到端到端规划),随后为支持端到端模型的闭环评测与训练构建仿真系统,最终通过大数据与大参数构建智驾基础模型以激发潜能 [4] - 公司认为端到端模型主导的方案已趋成熟,下一阶段竞争焦点将集中在高效精准的评测系统以及智驾基础模型的研发上 [30] 3D融合感知框架(Sparse4D系列) - 公司提出Sparse4D系列作为BEV方案的替代,其核心采用稀疏query与内外参投影采样,直接从多视角图像特征获得融合感知结果,理论计算复杂度显著低于BEV方案 [6][7] - Sparse4D v1基础版本采用deformable aggregation算子实现纯稀疏范式融合;v2将时序融合改为recurrent形式,时序复杂度从O(T)降至O(1),并优化了算子实现以提升训练推理速度与性能 [7][9] - Sparse4D v3通过temporal denoising、decouple attention等技术进一步提升检测能力与收敛速度,并以简洁方式实现联合检测与跟踪,在nuScenes数据集camera-only detection和tracking榜单持续位居第一 [11] 端到端运动规划(SparseDrive) - SparseDrive在Sparse4D感知基础上拓展,集成在线建图与简单的运动规划器,实现了检测、跟踪、建图、预测和规划五个任务的端到端处理 [13][15] - 针对稀疏特征输入可能丢失信息的质疑,公司指出大量负样本query能覆盖所有可视范围并受规划损失影响,确保非白名单物体避障能力;当前瓶颈在于规划解码器结构简单且仅进行开环评测,闭环性能需通过仿真器进一步优化 [15] 轨迹预测与交通流仿真(EDA & UniMM) - 公司提出EDA轨迹预测方案,通过动态更新的anchor及NMS匹配策略解决轨迹预测中的正负样本分配核心问题,有效建模多峰分布并具备即插即用优势 [16][17] - 轨迹预测与交通流仿真在输入输出形式上相似,但后者需闭环rollout以建模多交通参与者相互关系;公司提出的UniMM框架统一了主流交通流仿真模型,并分析了影响性能的关键设计因素 [19][20] 传感器仿真(DriveCamSim) - 为支持端到端模型的高效精准评测,公司开发了DriveCamSim传感器仿真系统,其通过显式投影约束3D-2D和时序一致性,能生成任意帧率、相机内外参及数量下的图像,在可控性与拟真性上优于基于3DGS或纯Attention的方案 [22][23][24] - 模型可适应多种条件输入包括3D边界框、地图、自车位姿等,具备良好落地潜力但尚未充分挖掘 [24] 智驾基础大模型(LATR) - LATR项目旨在构建智驾领域基础大模型,首先通过Mask Image Modeling方式在海量数据上进行无监督预训练,使模型理解场景语义、空间及时空关系 [26] - 模型采用decoder-only架构实现多任务统一,新增任务仅需添加少量参数,已成功融合3D检测跟踪、在线建图、轨迹预测、规划等7个任务,效果达到与SparseDrive相当水平,证明了架构有效性 [27]
一汽或成零跑汽车最大股东,分步收购方案已获批!
自动驾驶之心· 2025-11-10 08:12
收购传闻与战略合作 - 中国经济网报道称,一汽集团将通过定向增发收购零跑汽车股权,并最终成为其第一大股东,该方案据称已获批准并计划于11月17日官宣,但零跑汽车官方明确表示消息不实 [2] - 此前市场曾传闻中国一汽计划初步要约收购零跑汽车约10%股份,当时零跑汽车表示“不予置评”,中国一汽也表示此为“不实信息” [4] - 中国一汽与零跑汽车已于今年3月3日签署《战略合作谅解备忘录》,双方计划在新能源乘用车联合开发及零部件合作,并探讨深化资本合作的可行性,但该协议未涉及股权合作 [6] 公司财务与运营表现 - 2025年上半年,零跑汽车营业收入为242.50亿元,同比增长174.1%,权益持有人应占净利润为0.3亿元,相比去年同期净亏损22.1亿元,首次实现半年度净利转正 [7] - 2025年上半年公司毛利为34.26亿元,相比去年同期的1.00亿元大幅增长,毛利率显著改善 [8] - 2025年上半年零跑汽车累计交付22.17万辆,同比增长155.68%,公司年内销量目标为50-60万辆,并力争实现全年盈利 [7] 近期销量与市场地位 - 今年前10月,零跑汽车累计销量为46.58万辆,同比增长120.72%,其中10月交付7.03万辆,同比增长84.11%,刷新了造车新势力单月交付最高纪录 [8] - 零跑汽车已连续8个月领跑新势力交付榜,显示出强劲的市场增长势头 [8] - 公司产品线已布局零跑C11、零跑T03、零跑C16、零跑C10、零跑C01、零跑B10、零跑B01等多款车型 [8]
关于理想VLA未来发展的一些信息
自动驾驶之心· 2025-11-10 03:36
理想VLA技术发展路线 - 短期目标:致力于打造训练的强化闭环,预计2025年底完成搭建,2026年初将展现出良好表现,使车辆具备持续成长的能力[2] - 中期目标:强化闭环完善后,可能在中国市场超越特斯拉,主要优势在于拥有比特斯拉更便利的闭环迭代环境[3] - 长期规划:VLA技术有望实现L4级别自动驾驶,但未来仍需新技术支持[4] - 业务流程变革:VLA结合强化学习不仅是技术变革,更是业务大变革,预计需要1-2年迭代周期,2027年行业将发生重大变化[3] 理想VLA技术实现路径 - 当前限制:由于安全考虑和潜在舆情风险,系统设置了较多安全限制,尚未实现训练的强化闭环[4] - 未来机制:强化闭环系统可自动识别问题(如用户接管、驾驶顿挫、急刹车),自动收集数据并回传进行强化训练,完成迭代后上线[4] - 技术倾向:认为驾驶所需智能程度相对较低[5];业务流程改革完成后,车端算力与模型参数需求不会要求过大[5] - 具体锚点:车端算力1000或2000TOPS,云端模型32B参数,认为将320B模型蒸馏成4B很不合适[6] 理想自动驾驶组织架构调整 - 组织变革:智驾部门调整为11个二级部门,负责人均具备业务背景而非纯管理出身[12] - 部门拆分:原模型算法团队拆分为基础模型部、VLA模型部和模型工程部;原量产研发团队拆分为量产交付部、软件研发部和主动安全部;原数据闭环团队拆分为数据平台部和数据标注部[12] - 管理理念:智驾核心管理者从内部培养,Research/算法研究可从外部引进[12] - 取消封闭开发:因不再是追赶者且收益降低,同时体现员工关怀[12] 理想领导层与团队建设 - 李想参与:2025年2月底提出加快交付VLA,认为模仿学习本质不具备人类智能[11];每月与校招生沟通一次[11] - 团队传承:第一代骨干完成0到1突破后部分离职,目前第三代以詹锟、湛逸飞为主,加上9个二级部门负责人[13] - 领导作用:在资源投入、持续保障以及对AI技术路线的关键判断方面发挥核心作用[13] - 精力分配:50%精力用于日常管理,30%用于中长期战略规划,20%关注技术和业务进展[18] 行业竞争与技术观点 - 对VLA态度:认为友商反对VLA恰恰证明该技术方向的正确性[14] - 技术对标:非常关注FSD V14进展,团队将在美国进行实车体验;认为与Ashok在ICCV 2025演讲理念高度一致[18] - 模型对比:任少卿提到的世界模型与理想VLA模型属同一层级,华为的W Engine类似理想所说的世界模型[18] - 数据挑战:即使有大量数据也无法穷尽所有场景,需要系统具备人类思维推理能力而非简单泛化[18] 资源配置与发展规划 - 算力规划:推理算力与训练算力各占一半较为合理;2024年云端算力达8 EFLOPS,价值约10亿人民币[18] - 模型开发:正在研发42B云端模型,希望参数量不要过大[18] - 芯片策略:自研芯片若单颗效果不佳将采用两颗方案[18] - 团队规模:2023年公司主基调为扩招,但认为团队规模只需比特斯拉稍多即可[18] - 指标预期:2027年可能不再使用MPI指标,因接管率将普遍较低[18]
合作了一款高性价比3D扫描仪!
自动驾驶之心· 2025-11-10 03:36
产品核心定位与价值主张 - 产品定位为面向工业场景和教研场景的超高性价比3D激光扫描仪,旨在降低开发门槛 [2] - 核心价值在于轻量化设计、一键启动的高效实用三维解决方案,以多模态传感器融合算法实现厘米级精度的实时重构 [2] - 宣称是国内目前最强性价比的实景三维激光扫描仪 [2] 核心性能参数 - 点云采集速度达到每秒20万点,最远测量距离为70米,支持360°水平视角全覆盖 [2][30] - 相对精度优于3厘米,绝对精度优于5厘米,在70米距离处精度控制为±1.5厘米 [23][30] - 支持超过20万平方米的大场景扫描,建图支持实时解算 [2][23][31] - 设备功率25W,续航时间约3至4小时,重量为1.3公斤(不含电池)或1.9公斤(含电池) [23] 技术特点与系统集成 - 采用多传感器融合技术,集成激光雷达、双广角相机、深度相机、9自由度IMU及RTK模块 [14][23][35] - 实现微秒级数据同步,采用硬件IO同步触发,同步精度达微秒级,频率最高800Hz [24][35][36] - 系统基于Ubuntu 20.04,支持ROS,配备Intel N5095四核处理器(主频2.0GHz,睿频2.9GHz)及16G内存 [23] - 支持跨平台集成,可适配无人机、无人车、机械狗及人形机器人等多种负载平台 [45] 产品配置与版本 - 提供基础版本、深度相机版本、3DGS在线版本、3DGS离线版本四种配置 [58] - 基础版本首发价为19800元起,深度相机版本为23800元,3DGS在线版本为39800元 [10][58] - 设备尺寸为14.2厘米 × 9.5厘米 × 45厘米,外壳采用航空铝材质,配备5.5寸触控屏 [23] - 支持彩色点云输出,导出数据格式包括pcd、las、plv等多种通用格式 [23] 应用场景 - 可广泛应用于写字楼、停车场、工业园区、各类隧道、森林、矿场等复杂室内外场景 [39][47] - 具体应用案例包括大型园区、花园场景、老旧街道、环形花园、坡道场景及市政道路 [40][50] - 适用于地理信息数据采集、城市规划、文昌监测等领域,并为文化遗产修复研究、虚拟开发提供支持 [53][55]
模仿学习之外,端到端轨迹如何优化?轻舟一篇刷榜的工作......
自动驾驶之心· 2025-11-10 03:36
文章核心观点 - 北交、轻舟、燕山大学、澳洲昆士兰大学的团队提出了一种名为CATG的新型端到端自动驾驶轨迹生成框架,该框架基于Constrained flow matching技术,旨在解决现有方法在行为多样性和安全约束集成方面的局限性[1][3][4] - CATG框架的核心创新在于彻底摒弃模仿学习,显式建模flow matching过程以缓解模式崩溃,并支持在生成过程中灵活注入多种条件信号和显式约束,从而实现对轨迹风格和安全性的精准调控[1][4][7] - 在ICCV NAVSIM V2端到端驾驶挑战赛中,CATG以51.31的EPDMS得分获得亚军,并荣获创新奖,证明了其在规划精度和对分布外数据的稳健泛化能力[1][4][22] 技术背景与问题定义 - 端到端多模态规划是自动驾驶系统的关键方法,在模糊或高度交互的驾驶场景中尤为重要,但大多数现有方法依赖模仿学习框架,导致预测结果同质化,缺乏行为多样性[3] - 现有生成式方法如扩散模型虽能捕捉更广泛的轨迹分布,但存在模式崩溃风险,且难以将硬约束集成到生成过程中,影响了生成轨迹的安全性和可解释性[3][6] 方法论创新 - 提出基于flow matching的多模态轨迹生成器CATG,无需依赖模仿学习,支持多样化、灵活的条件控制[7] - 通过渐进式机制将可行性约束和安全约束显式集成到生成过程,利用先验感知锚点设计构建约束引导的概率流,并通过基于能量的引导将轨迹导向可行区域[7][13][17] - 将环境奖励信号作为条件输入,在推理阶段实现激进驾驶风格与保守驾驶风格之间的可控权衡[7][13] 技术实现细节 - 采用Transfuser作为感知骨干网络,从标准高斯分布中采样起点,并将目标轨迹归一化到特定区间[8] - 通过多层交叉注意力机制融合智能体查询向量、自车查询向量以及鸟瞰图特征[10][12] - 在推理阶段引入三类条件控制信号:轨迹锚点、目标点和驾驶指令,以实现对生成轨迹的灵活控制[13][16] 约束集成策略 - 约束速度场:利用预计算的速度场修正模型预测的可能存在偏差的速度场,提出"合成速度场"概念[17] - 约束中间变量:通过修正流的起点,将初始高斯随机样本替换为满足约束的锚点,间接控制最终生成结果[17] - 约束感知训练:在训练阶段通过能量函数编码约束,采用能量匹配框架进行模型训练[17] 实验设置与结果 - 模型训练分为两个阶段:第一阶段训练flow matching过程、感知模块与地图分割模块,批大小设为64,学习率未明确,共训练90轮;第二阶段仅对流传匹配过程进行微调,共训练10轮[14][18] - 在NAVSIM V2挑战赛中,CATG在多项关键指标上表现优异,例如第一阶段可驾驶区域合规性达100%,交通信号灯合规性达100%,第二阶段可驾驶区域合规性达95.4416%[19] - 最终以51.3116的扩展PDM综合得分获得亚军[19]
世界模型和VLA正在逐渐走向融合统一
自动驾驶之心· 2025-11-10 03:36
技术趋势:VLA与WM的融合 - 视觉语言模型VLA和世界模型WM正逐渐走向融合统一,而非互相排斥的技术路线[2] - 中科院与引望团队在10月份推出的DriveVLA-W0工作证明VLA与WM结合可行[2] - 小米陈龙老师公开讨论VLA+WM融合,认为语言预测和未来预测是具身智能都需要的能力[3] - 语言模型负责抽象推理,引入互联网海量知识,处理高级逻辑和常识推理[3] - 世界模型负责物理和运动规律,通过预测未来像素或状态,涌现语义理解、深度感知等低级能力[3] - 学术界已探索多种融合方案:VLA-RFT在WM中强化学习微调VLA、WorldVLA三模态统一模型、Unified Vision-Language-Action Model离散化三模态[3] - 未来L4级自动驾驶训练链路将是VLA、强化学习RL和WM三者结合,缺一不可[4] - Tesla在ICCV的分享预示国内厂商将陆续跟进VLA+WA结合的技术路线[6] 自动驾驶之心知识星球资源 - 社区已运营三年,集视频、图文、学习路线、问答、求职交流为一体,目前成员超过4000人[9] - 目标在未来2年内达到近万人规模,打造交流与技术分享的聚集地[9] - 社区汇总近40个技术方向学习路线,包括VLA、端到端自动驾驶、世界模型、BEV感知等[11][14][23] - 提供近60个自动驾驶数据集资源,涵盖多模态大模型预训练、VLA微调、强化学习等专用数据集[11][41] - 社区成员来自上海交大、北京大学、CMU、清华大学等高校,以及蔚小理、华为、大疆、百度等近300家机构与企业[22] - 社区内部梳理了自动驾驶领域国内外知名高校实验室和公司资源,供学术深造和职业发展参考[33][35] - 提供与多家自动驾驶公司建立的岗位内推机制,帮助成员简历直达心仪企业[17] 技术学习体系与课程 - 社区原创直播课程覆盖感知融合、多传感器标定、SLAM与高精地图、决策规划等核心模块[17] - 具体课程包括:自动驾驶数据工程系列涉及自动标注与4D标注、2D/3D目标跟踪系列、自动驾驶仿真系列、端到端及大模型技术专题等[17] - 针对小白用户提供全栈方向学习课程,涵盖数学基础、计算机视觉、深度学习、编程等入门资料[16] - 技术专题深度覆盖:3D目标检测环视与多模态方法、BEV感知量产方案、Occupancy网络、扩散模型与自动驾驶结合等[23][57][55][47] - 实战内容重点包括:模型压缩与部署优化、CUDA加速、TensorRT及毫米波雷达融合等工程化主题[16][74][76] - 定期举办行业大佬直播分享,目前已累计超过一百场专业技术直播,内容可回看[94]
招募4D标注和世界模型方向的合伙人!
自动驾驶之心· 2025-11-08 16:03
文章核心观点 - 自动驾驶之心公众号正在积极拓展业务范围 从内容平台向企业培训 求职辅导和技术服务等领域延伸[2][4] - 公司面向全球招募自动驾驶领域从业者进行合作 合作方向涵盖产品经理 4D标注 世界模型等多个前沿技术领域[4][5] - 合作模式主要包括B端企业高校培训 C端学生求职辅导 课程开发和原创内容创作[4][6] 业务拓展方向 - 企业培训需求多样化 包括技术进展梳理 发布会方案解读和行业发展总结[2] - 求职辅导需求集中在简历优化和项目经验补充方面[3] - 合作领域覆盖自动驾驶产品经理 4D标注/数据闭环 世界模型 VLA 自动驾驶大模型 强化学习和端到端等方向[5] 合作模式与资源 - 合作岗位主要面向自动驾驶培训合作 B端服务企业和高校研究院所 C端服务学生和求职人群[6] - 合作形式包括课程开发和原创文章创作[6] - 公司将提供高额酬金与丰富行业资源吸引合作伙伴[5]
英伟达内向黄仁勋汇报的36人
自动驾驶之心· 2025-11-08 16:03
黄仁勋的直接汇报团队架构 - 英伟达CEO黄仁勋有36名直接下属,分属战略、硬件、软件、AI、公关、网络及一位执行助理七个职能板块[2][4] 硬件业务的战略地位 - 硬件是公司基石,直接下属中有9位负责硬件相关业务,包括GPU、电信、DGX整机系统等,人数占比达三分之一[7][8] - AI、具身智能与自动驾驶等前沿技术正成为商业版图中的"第二根支柱"[9] AI与前沿技术布局 - AI、自动驾驶等新兴领域配置了7名大将,包括吴新宙,体现公司向"零亿美元市场"扩张的决心[10][11][12] 公关职能的特殊性 - 直属高管中有三位负责公关,远超马斯克(零公关主管),因公司需处理全球企业、研究机构、政府项目与投资人等复杂产业链关系[13][14][15][16] - 公司需建立系统化对外沟通机制,平衡华尔街、开发者生态、客户及政策协调等多方需求[17][18] 核心高管团队构成 - **Jonah Alben**:GPU工程高级副总裁,司龄28年,管理约一千多人团队,持有34项专利,是GPU架构灵魂人物[24][25][26][31] - **Dwight Diercks**:软件工程执行副总裁,司龄31年,统领庞大软件团队,负责所有产品线核心系统软件开发[33][34][38] - **Bill Dally**:首席科学家,原斯坦福教授,推动GPU从图形处理转向并行计算,为AI硬件架构奠定基础[41][44][48] - **吴新宙**:唯一华人直接下属,汽车业务副总裁,主导自动驾驶技术栈升级,其加入后汽车业务收入从2.81亿美元飙升至5.67亿美元(2024-2025财年)[57][58][72][73] 扁平化管理模式演变 - 黄仁勋推崇扁平化体系,曾拥有55名直接下属,强调短决策链与信息透明,通过每周数万封员工邮件保持一线洞察[79][81][84][93] - 公司规模扩张(员工数从2.96万增至3.6万,同比升21.62%)导致管理压力增大,直接下属缩减至36人,暗示组织结构向垂直化调整[75][101][115][116] 企业文化与领导风格 - 公司倡导高压文化,办公设施简约,强调工作效率,黄仁勋以严苛管理著称但极少裁员[109][113][123][124] - 1999年IPO后黄仁勋立即发内部信强调"不惜一切代价完成任务",延续危机感驱动模式[119][121]