Workflow
自动驾驶之心
icon
搜索文档
YOLO26不是第26代,而是“破局者”!颠覆性端到端架构重塑实时检测
自动驾驶之心· 2025-10-08 23:33
模型核心定位与设计原则 - YOLO26是YOLO系列实时目标检测器的最新演进版本,专为边缘和低功耗设备从头设计[5] - 模型引入一套简化设计,去除不必要复杂性,集成针对性创新,以实现更快、更轻量、更易于部署的模型[5] - 架构由简洁性核心原则驱动,是一个原生端到端模型,直接输出预测结果,无需非极大值抑制(NMS)[6] 关键技术创新 - 完全移除分布焦点损失(DFL)模块,简化推理并扩大对边缘和低功耗设备的硬件兼容性[10] - 采用原生端到端无NMS推理,取消独立后处理步骤,减少延迟,使生产系统集成更快、更轻、更可靠[11] - 引入改进的损失函数ProgLoss + STAL,显著提升检测精度,尤其在小目标识别方面有重大改进[12] - 采用新型混合优化器MuSGD,将SGD与Muon相结合,灵感来自Moonshot AI的Kimi K2,带来更稳定训练和更快收敛[13] 性能提升与优化效果 - 模型针对边缘计算专门优化,在CPU上推理速度最多提升43%,为无GPU设备提供近实时性能[7][14] - 模型家族在小目标上拥有更高精度,部署无缝,成为资源受限环境下最实用、最易部署的YOLO模型之一[7] 多任务支持能力 - YOLO26被设计为一个多任务模型家族,扩展了在不同计算机视觉挑战中的适用性[15] - 统一框架支持实时检测、实例分割、分类、姿态估计和定向目标检测,发布时均支持训练、验证、推理与导出[15][21] 目标检测性能指标(早期预览) - YOLO26n模型在640像素输入尺寸下,mAP 50-95(端到端)为39.8,参数量2.4百万,FLOPs 5.4十亿,CPU ONNX推理速度38.90毫秒[18] - YOLO26s模型mAP 50-95(端到端)为47.2,参数量9.5百万,FLOPs 20.7十亿,CPU ONNX推理速度87.16毫秒[18] - YOLO26m模型mAP 50-95(端到端)为51.5,参数量20.4百万,FLOPs 68.2十亿,CPU ONNX推理速度220.0毫秒[18] - YOLO26l模型mAP 50-95(端到端)为53.0,参数量24.8百万,FLOPs 86.4十亿,CPU ONNX推理速度286.17毫秒[18]
自动驾驶之心双节活动即将截止(课程/星球/硬件优惠)
自动驾驶之心· 2025-10-08 23:33
社区核心定位 - 专注于最前沿的自动驾驶技术,打造技术社区 [5] - 社区覆盖近40多个学习路线,包括自动驾驶VLA、世界模型、闭环仿真、扩散模型、BEV感知等关键技术领域 [5] - 旨在保持技术活力,推动持续学习 [5] 技术交流与资源 - 提供与学术界和工业界顶尖专家面对面交流的机会 [5] - 讨论行业前沿议题,如VLA和WA的路线之争、未来自驾发展方向、世界模型本质及端到端技术探讨 [5] - 社区资源包括顶会作者亲临、直播互动以及Impromptu VLA、NavigScene、LangCoop、DriveBench、ZeroGS、Diffusion planner等具体项目交流 [5] 课程与培训体系 - 平台提供七门精品课程,内容涵盖世界模型、轨迹预测、大模型、相机标定、毫米波、点云3D检测、Transformer等核心主题 [5] - 课程体系面向初学者,注重核心能力的系统性培养 [5] - 提供平台课程八折优惠券及超级折扣卡,课程可享受七折优惠 [3]
模仿学习无法真正端到端?
自动驾驶之心· 2025-10-08 23:33
模仿学习的核心问题与局限性 - 模仿学习的基本假设是专家数据提供了最优行为真值,但在驾驶这种多模态场景中不存在唯一完美驾驶行为 [2] - 训练数据来源于风格、技术和礼让程度各异的真人驾驶,这些数据缺乏一致性且难以称为最优,导致模型学不到清晰正确的驾驶逻辑 [3] - 纯粹基于模仿学习的模型难以学到具有强逻辑和因果关系的拟人驾驶策略,反而表现出极强的随机性和不确定性 [4] 模仿学习在决策权重上的缺陷 - 模仿学习将人驾数据中每个时刻的真值正确性视为等权重,无法区分关键场景决策与普通场景决策的重要性 [5] - 由于训练阶段没有对不同的场景决策区别对待,模型在关键时刻容易犯下致命错误,导致输出不可完全信赖 [5] - 自动驾驶领域充满关键场景,纯粹模仿学习系统在一般场景可能表现良好,但在关键场景(如旁车紧急切入)则难以输出符合安全要求的轨迹 [7] 模仿学习的累积误差与分布外问题 - 开环模仿学习会因Policy与最优解之间的微小误差累积,导致自车进入训练数据分布之外的驾驶状态 [8] - 当模型进入人驾数据中罕见的驾驶状态时,其行为难以预判,造成性能显著下降 [8][12] - 实车表现上,模型可能因非最优行为导致迟迟不能变道,而很晚变道的现象在人驾数据中少见,最终在关键时刻容易放弃并导致接管 [13] 技术研发的关键方向 - 技术研发的核心在于识别关键路线和瓶颈,而非紧追技术潮流 [14] - 随着端到端技术方案实践经验的增长,行业意识到问题在于寻找模仿学习训练范式之外的新方法来解决其技术瓶颈 [14]
Less is More!Max-V1:面向自动驾驶精巧而强大的视觉-语言模型(复旦&中科院)
自动驾驶之心· 2025-10-08 09:04
文章核心观点 - 提出一种名为Max-V1的全新一阶段端到端自动驾驶框架,将自动驾驶重新概念化为广义语言任务,将轨迹规划形式化为“下一个waypoint预测”[2] - 该方法利用视觉语言模型的生成能力,仅输入前视相机即可端到端预测轨迹,在nuScenes数据集上取得SOTA性能,相较基线模型整体提升超过30%[2][3] - 该框架摒弃了传统的鸟瞰图特征空间和复杂的中间表示,采用单次前向生成范式,结合统计建模原则性监督策略,具备强大的跨域泛化能力[9][10][30] 背景回顾与主要贡献 - 将人类驾驶视为序列化决策过程,与自然语言生成高度相似,从而可将视觉语言模型视为强大的策略网络,将规划转化为可处理的自回归序列建模任务[5] - 当前端到端自动驾驶研究主要分为两大方向:开发专用架构并在大规模领域数据上训练,或适配大型预训练视觉语言模型以利用其世界知识与推理能力[5] - 专用架构受限于高质量标注数据依赖和鸟瞰图表示的脆弱性,而基于视觉语言模型的框架则面临计算效率低下及对连续控制不适配的挑战[8][9] 模型简介与技术创新 - 将“下一词预测”重构为“下一waypoint预测”,在自回归框架内将其视为回归问题,使用特殊令牌对连续坐标值占位符进行建模,避免了将坐标直接文本化带来的离散性不匹配问题[14][17] - 提出针对waypoint回归的特定任务损失,使用物理距离损失监督预测坐标与真实值,替代标准的交叉熵损失,该损失源于对waypoint表示统计基础模型的推导,等价于L2损失[16][24][25] - 框架设计具有深刻简洁性,无需依赖额外的思维链注释或多轮对话,是单次端到端方法,直接生成整个轨迹,且仅需前视摄像头单帧图像,无需额外自车状态信息[27] 实验结果与性能表现 - 在nuScenes数据集评估中,模型在轨迹规划项目上位移误差指标整体降低超过30%,其中MiMo-VL-7B-RL版本在3秒预测时的平均L2误差为0.27米,最大L2误差为0.49米[28][30] - 模型展现出强大的零样本泛化能力,在截然不同的场景和由完全不同的车辆采集的数据集上仍能表现合格驾驶行为,显示跨车辆部署潜力[3][10] - 初步探索了第一人称视角下的LiDAR-图像融合,发现明显的性能权衡,仅使用相机输入时3秒平均L2误差为0.34米,加入LiDAR后升至0.68米[28] 局限性与未来方向 - 推理延迟仍是实时部署的挑战,未来可探索知识蒸馏、量化等高效推理技术及定制芯片开发[32] - 端到端黑盒架构缺乏直接可解释性,未来可开发混合架构或事后分析方法弥合此差距[32] - 当前模型基于模仿学习,受限于专家演示,未来可通过引入强化学习使模型能从交互中学习并发现更优驾驶策略[31][32]
清华教研团队!两个月从零搭建一套自己的自动驾驶VLA模型
自动驾驶之心· 2025-10-08 09:04
自动驾驶VLA技术趋势 - 端到端技术后,学术界和工业界聚焦于VLA,其提供类人思考能力,通过思维链展现车辆决策过程,以实现更可靠安全的自动驾驶[1] - 自动驾驶VLA可分为模块化VLA、一体化VLA和推理增强VLA三个子领域[1] - 该技术是各家企业急需攻克的方案,主流自动驾驶企业及车企均在发力自研[4] 课程核心内容与结构 - 课程由清华大学教研团队联合推出,包含自动驾驶VLA三个子领域前沿算法讲解,并配备两个实战及一个课程大作业[6] - 课程大纲涵盖六章:VLA算法介绍、算法基础、VLM作为解释器、模块化&一体化VLA、推理增强VLA以及大作业[9][11][13][14][15][16][19] - 课程进度安排为10月20日开课,预计两个半月结课,采用离线视频教学结合VIP群答疑及三次线上答疑的形式[22] 技术覆盖与实战重点 - 课程核心内容包括视觉感知、大语言模型、Action建模、大模型部署及数据集制作,涉及CoT、MoE、RAG、强化学习等前沿算法[6][13] - 模块化VLA强调多阶段pipeline,一体化VLA实现感知到控制的端到端映射[15] - 推理增强VLA新增推理模块,支持长时序规划、因果解释及多模态交互,重点讲解ORION、OpenDriveVLA、DriveMoE等算法[16][17][22] - 实战部分选取ReCogDrive和Impromptu VLA,涵盖预训练、模仿学习、强化学习及基于Qwen2.5 VL的数据集制作与训练[15][18] 讲师背景与学员要求 - 讲师团队包括清华大学硕士生及QS30高校博士,在ICCV、IROS、EMNLP等顶级会议发表多篇论文,并拥有自动驾驶与大模型研发实战经验[7][8] - 学员需自备GPU,推荐算力在4090及以上,并具备自动驾驶领域基础、Transformer大模型及Python/PyTorch语言基础[23] - 课程目标为使学员彻底理解自动驾驶VLA当前进展,掌握三大子领域核心技术,并能够复现主流算法以应用于科研及工程落地[21][23]
NeurIPS'25!AutoPrune:即插即用的自适应大模型剪枝框架
自动驾驶之心· 2025-10-07 07:46
文章核心观点 - 上海交通大学与中国科学院团队提出了一种名为AutoPrune的、无需训练的复杂度自适应视觉token剪枝框架,旨在解决视觉语言模型因高分辨率图像产生大量视觉token而带来的计算与延迟瓶颈 [2][3][4] - 该方法的核心创新在于根据输入样本(图像与问题)的复杂度,动态地为解码器每一层分配token剪枝比例,而非采用固定策略,从而在严格满足全局计算预算约束下,实现更高的模型精度保留率和计算效率 [2][3][6] - 实验表明,AutoPrune在多个主流视觉语言模型及自动驾驶VLA模型上均取得显著效果,例如在LLaVA-1.5-7B模型上,剪去89%视觉token并降低76.8% FLOPs的同时,仍能保留96.7%的原始精度 [3][14] 背景与问题 - 视觉语言模型是多模态系统的核心,但高分辨率图像或视频会产生大量视觉token,导致显著的显存与延迟瓶颈,这在自动驾驶等实时场景中尤为关键 [4] - 现有token剪枝方法通常采用固定的层间分配策略,缺乏全局计算预算约束,且需要手工调参,难以适应不同难度样本(简单或复杂问题与场景)的动态推理需求 [2][4][6] - 分析发现,简单样本的跨模态注意力在模型浅层即可快速收敛,而复杂样本则需要更深的网络层进行探索和注意力迁移,这要求剪枝策略具备动态自适应性 [6][13] 方法原理 - **复杂度度量**:通过计算解码器浅层视觉token与文本token注意力图之间的互信息,来量化输入样本与任务的复杂度,互信息高表示任务简单,互信息低表示任务复杂 [6][10][13] - **预算约束保留曲线**:将计算出的互信息映射为一个Logistic函数(S型曲线),该曲线的斜率和拐点由互信息线性决定,然后通过解析积分和重标定,确保曲线下面积严格等于预设的全局token或FLOPs计算预算 [7][10][13] - **动态策略生成**:对于简单样本(互信息高),生成的Logistic曲线在浅层快速下降,实现早期激进剪枝;对于复杂样本(互信息低),曲线在前期保持平缓,将快速剪枝延迟到更深层,以避免过早丢失关键信息 [6][13] - **联合优化框架**:将视觉token剪枝建模为一个带全局预算约束的优化问题,联合优化层间token分配策略、token选择策略和token恢复策略 [9][11] 实验效果 - **在LLaVA-1.5-7B模型上**:当仅保留64个视觉token时,模型性能仍保持原始精度的96.7%,FLOPs降至原来的23.2%(即降低76.8%),相比PDrop方法提升9.1% [3][14] - **在LLaVA-NeXT-7B模型上**:在640、320、160三种token预算设置下,AutoPrune性能均优于对比方法(FastV, Sparse VLM, VisionZip, FasterVLM)[15] - 在640 token预算下,性能达到原始模型的99.7% [16] - 在320 token预算下,性能达到原始模型的98.2% [16] - 在160 token预算下,性能仍保留原始模型的94.9% [15][16] - **在自动驾驶VLA规划任务上**:在Senna和nuScenes数据集上,在不同token保留率(20%至40%)下,AutoPrune均优于基线方法,某些情况下甚至超过未剪枝的原始模型,表明剪除噪声token可能带来正向效应 [16][17] - 例如,在保留25% token(32/128)时,性能达到原始模型的111.23% [17] 优势与意义 - **无需训练**:该框架是即插即用的,无需对预训练模型进行微调即可应用,降低了部署成本 [3][10] - **通用性强**:方法适用于多种视觉语言模型以及自动驾驶领域的视觉语言动作模型,并展现出跨数据集的稳定优势 [3][10][18] - **计算开销低**:额外的复杂度估计与策略生成开销时间复杂度约为O(N log N),相对于整体推理代价可以忽略,具备工程可行性 [13] - **启发于认知科学**:方法设计灵感来源于人类观察思考的特点,即简单任务快速收敛,复杂任务需要维持多种假设并多次探索 [6][13][18]
Lidar注定失败(doomed)?
自动驾驶之心· 2025-10-07 07:46
激光雷达技术发展历程 - 激光雷达技术可追溯至1960年代,最初用于军事航空测绘[3] - 2004年DARPA挑战赛推动激光雷达在自动驾驶领域应用,2005年斯坦福团队使用5个工业激光雷达获胜,2007年卡耐基梅隆团队使用64线Velodyne激光雷达成为技术标杆[3] - 2009年谷歌自动驾驶项目(Waymo)主要依赖Velodyne旋转式激光雷达,2017年Waymo自研激光雷达成本从Velodyne的75000美元大幅降低至7500美元[3] - 激光雷达产业蓬勃发展,Quanergy、Luminar、Innoviz、禾赛、速腾、大疆、华为等公司发展固态/半固态和4D激光雷达技术并致力于降低成本[4] 激光雷达与纯视觉技术路线对比 - 传统机器视觉算法测距困难,双目测距精度有限且受噪声干扰,而激光雷达通过发射近红外激光计算时间差实现厘米级精度测距[11][12] - 激光雷达在障碍物检测精度上远高于传统算法,但存在分辨率低、帧率低、无颜色等缺点,信息量仅为相机0.1-0.5百万像素,信息密度相差10-100倍[16] - 激光雷达点云无法反映物理世界关键信息,如水坑光影、危险坑洞、消防栓水柱、行人朝向等,限制了环境理解能力[22] - 相机成熟度远高于激光雷达,激光雷达内部机械部件耐久性差,失效率显著高于相机[20] 特斯拉纯视觉方案技术突破 - 2016年特斯拉开始自研自动驾驶并提出FSD概念,早期邀请OpenAI算法专家参与评估,前特斯拉视觉团队负责人Andrej Karpathy推动神经网络方案取代传统机器视觉[23] - 2018年Karpathy首次将Transformer应用于BEV多相机融合,使自动驾驶与大语言模型技术同源,后续融入端到端、强化学习、世界模型等大模型技术[23] - 特斯拉在去除毫米波雷达后视觉能力大幅提升,接近甚至超越毫米波雷达的测距和测速精度[24] - 马斯克认为自动驾驶是物理世界AGI问题,解决方案关键在于AI而非传感器,激光雷达注定失败是基于技术需求的预见[24][25] 端到端自动驾驶技术挑战 - 训练端到端神经网络需要海量相机视频数据与驾驶员操作数据配对,但难以从数千万像素中准确提取因果关系[27] - 激光雷达数据会干扰网络在视觉与控制信号间寻找因果关系,导致过拟合,因为激光雷达信号更简单明确但与人眼视觉世界差异过大[26][28][32] - 纯视觉端到端方案需要数据闭环基础设施、强大算力和量产车队支持,特斯拉拥有5万张H100显卡和700万辆量产车每年20亿英里数据形成的门槛[28] - 神经网络目标是学习人类眼睛到驾驶行为的因果过程而非相关性,激光雷达点云不具备理解物理世界的能力[33] 行业技术路径依赖现状 - 早期投入激光雷达的企业如Waymo已形成技术路径依赖,规则式代码积累庞大且已实现Robotaxi应用[30] - 激光雷达与高精地图结合可让车企快速获得自动驾驶入场券,解决有无问题,但类似游戏世界作弊[30] - 消费者已被市场教育形成激光雷达代表高安全性的认知,缺乏激光雷达的车型可能被视为低端产品[30] - 除特斯拉外几乎没有纯视觉方案车企,因纯视觉技术难度大且需要大规模数据与算力支撑[30]
提供最专业的平台和运营团队!我们正在招募运营的同学~
自动驾驶之心· 2025-10-07 07:46
公司业务与团队发展 - 公司业务从初始阶段发展为具备技术深度和广度的平台,业务线日益增多 [1] - 团队在2年多时间内孵化了具身智能之心、自动驾驶之心、3D视觉之心、大模型之心Tech四个IP [1] - 公司内容矩阵在全网覆盖近36万人,运营平台包括公众号、视频号、知识星球、哔哩哔哩、知乎、小鹅通等 [1] 招聘岗位与职责 - 招聘全职及兼职的自媒体运营和销售岗位 [2] - 自媒体运营核心职责包括管理课程进度、多平台运营提升用户规模、策划商业化项目、进行行业选题与原创内容撰写 [4] - 销售岗位核心职责包括制作产品宣传材料、对接硬件厂家与客户、推广在线教育产品 [5][6] 岗位要求 - 自媒体运营岗位要求强大的执行力与沟通意识,计算机或AI相关专业本科及以上学历优先,熟悉多平台运营并具备文字功底 [4] - 销售岗位要求具备执行力、沟通意识和抗压能力,计算机或AI相关专业本科及以上学历优先,有自媒体销售经验并能接受出差 [12] 工作地点与职业发展 - 工作地点位于杭州和上海 [7] - 员工将接触顶级运营团队,学习运营技巧与销售策略,获得快速成长机会 [7] - 员工将接触到自动驾驶、具身智能、3D视觉、大模型等最新AI领域内容,同时对接工业界与学术界以拓宽视野 [8] - 公司提供读研、读博等个人提升机会 [9]
算法小垃圾跳槽日记 2024&2025版
自动驾驶之心· 2025-10-06 04:05
行业技术趋势 - 计算机视觉领域传统算法需求锐减,检测、分割等已被归类为传统算法,类似SVM、SIFT的地位 [8] - 市场需求高度集中于大模型、多模态、文生图/视频以及自动驾驶端到端大模型等前沿方向 [8] - 自动驾驶公司的感知岗位是计算机视觉领域内少数仍有需求的领域 [8] 企业招聘动态 - 2024年求职机会相比2021年显著增多,各大厂及知名中小厂均能提供较多面试机会 [8] - 面试流程密集,存在单日进行多达8场面试的情况,反映出招聘活动活跃 [4] - 企业招聘考核标准趋严,几乎所有公司都要求手写LeetCode代码题,高频题目包括实现NMS、MultiHeadSelfAttention、MLP的前向和反向、岛屿数量等 [9][11] 业务部门价值 - 公司中台部门业务价值受到质疑,缺乏自有业务,主要承接其他部门已深度优化的算法任务,难以形成系统性业务积累 [6] - 行业出现去中台化趋势,中台部门对求职者吸引力较低 [6] - 相比中台,拥有稳定业务的部门(如内容安全)更具吸引力 [6]
突然发现,新势力在集中IPO......
自动驾驶之心· 2025-10-06 04:05
行业动态与资源整合 - 国庆期间观察到多家新势力公司启动IPO进程,国内外行业正进行新一轮资源整合[1] - 9月22日国家市场监管总局公示中国第一汽车股份有限公司收购深圳市卓驭科技有限公司股权案,同日英国自动驾驶初创公司Wayve与英伟达签署意向书计划在下一轮融资中投资5亿美元(约合人民币36亿元)[1] - 9月27日魔视智能科技(上海)股份有限公司向港交所提交上市申请书,9月30日博泰车联网科技(上海)股份有限公司在港交所上市敲钟,同日北京四维图新科技股份有限公司宣布完成对鉴智机器人母公司PhiGent Robotics Limited的战略投资,10月2日岚图汽车向港交所递交招股书[1] - 自动驾驶领域技术栈趋于收敛,量产方案趋同,行业出现VLA/WA路线之争[1] 社区资源与服务体系 - 自动驾驶之心知识星球社区已运营三年,集视频、图文、学习路线、问答、求职交流为一体,目前成员超过4000人,目标未来2年内达到近万人规模[3] - 社区联合学术界和工业界专家,梳理近40+技术路线,涵盖VLA benchmark、综述和学习入门路线[4] - 社区提供40+自动驾驶技术方向资源,包括国内外高校著名自动驾驶团队整理、算法进阶、规划控制等分类内容[10] - 社区内部提供全栈方向学习课程,包括自动驾驶数据工程系列、2D/3D目标跟踪系列、多传感器标定系列等9大视频教程体系[12] - 社区与近300家机构与自动驾驶公司建立联系,提供岗位内推机制,成员来自上海交大、北京大学、CMU、清华大学及蔚小理、地平线、华为等头部企业[19] 技术领域覆盖范围 - 社区技术资源覆盖自动驾驶感知学习路线、仿真学习路线、规划控制学习路线三大方向[19] - 具体技术板块包括端到端学习路线、3DGS算法原理、VLA学习路线、多模态大模型、占用网络、BEV感知、扩散模型、世界模型等40多个细分领域[19] - 专业分类包含3D目标感知最新综述、激光点云方法汇总、单目3D检测方法汇总、多模态3D检测方法汇总等28个技术模块[28] - 重点技术方向包括自动驾驶世界模型、视觉语言模型(VLM)、自动驾驶VLA、扩散模型、BEV感知、3D目标检测等核心领域[44][46][49][53][55] 行业交流与知识共享 - 社区不定期邀请行业大佬开展直播分享,目前已超过一百场专业技术直播,内容涵盖Impomptu VLA、LangCoop、Diffusion planner等前沿技术[89] - 星球内部会员独享七大福利视频教程,涵盖世界模型、自动驾驶大模型、Transformer、3D目标检测、毫米波感知等领域[87] - 社区提供国内外自动驾驶与机器人高校汇总、自动驾驶公司汇总、开源项目汇总、自动驾驶开源数据集等产业资源[29][31][35][37] - 日常讨论话题包括端到端自动驾驶入门、VLA学习路线、多传感器融合就业前景、3DGS与闭环仿真结合等实践性问题[20]