自动驾驶之心
搜索文档
3DGS论文原理与论文源码学习,尽量无痛版
自动驾驶之心· 2025-12-06 03:04
3D高斯泼溅技术趋势与课程内容 - 3D高斯泼溅技术正逐步取代神经辐射场技术,因其技术实现相对更容易[2] - 该技术已获得广泛应用,尤其是前馈式3D高斯泼溅技术近期备受关注[3] 课程结构与学习路径 - 课程共分六章,从背景知识到前沿研究方向系统展开[6][7][8][9][10][11] - 课程采用离线视频教学,配合VIP群答疑与三次线上交流,学习周期预计两个半月[13] - 课程内容设计耗时两个月,旨在提供从理论到实战的完整学习路线图[3] 核心技术模块详解 - **第一章**:涵盖计算机图形学基础,包括三维空间表达、渲染管线及光线追踪,并介绍COLMAP、Gsplat等主流开发工具,附带基于3D Real Car的实践作业[6] - **第二章**:深入讲解3D高斯泼溅原理、核心伪代码及动态重建、表面重建等算法,实战部分使用英伟达开源的3DGRUT框架[7] - **第三章**:聚焦自动驾驶仿真重建,解析Street Gaussian、OmniRe及Hierarchy UGP等关键工作,实战选用DriveStudio框架[8] - **第四章**:探讨COLMAP扩展、深度估计及重照明等重要研究方向,并分析其工业应用与学术前景[9] - **第五章**:梳理前馈式3D高斯泼溅的发展历程与原理,讲解AnySplat和WorldSplat等最新算法[10] 讲师背景与课程特色 - 讲师Chris拥有QS前20大学硕士学位,现任某Tier1厂商算法专家,在端到端仿真、多模态大模型及三维重建领域具备丰富经验[3] - 课程提供与学术界及工业界同行持续交流的机会,旨在帮助学员掌握完整技术栈并提升就业竞争力[15] - 课程设有早鸟优惠,名额仅限20名[3][16] 目标学员与先决条件 - 课程面向希望入门或深化3D高斯泼溅技术的学习者,对实习、校招及社招均有助益[15] - 学员需自备GPU,推荐算力在RTX 4090及以上[15] - 学员需具备计算机图形学基础、对视觉重建等相关技术有一定了解,并掌握Python与PyTorch编程[15]
从SAM1到SAM3,Meta做了什么?
自动驾驶之心· 2025-12-06 03:04
Meta在视觉AI模型SAM系列的技术演进 - 公司从2023年发布SAM1开始,开创了“可提示图像分割”领域,通过简单的图像框选、点击或语义提示完成图像分割,标志着计算机视觉技术进入新时代 [1] - 2024年发布的SAM2在架构上进行了重要优化,增强了对视频分割和动态场景的支持,提升了模型的稳定性和精度,并强化了对多个实例的跟踪能力 [3] - SAM3相比于前两代实现了飞跃,不仅在精度上达到全新高度,还拥有更强大的多模态支持,能够通过语音、文本、图像等多种输入方式进行精准物体分割 [3] - SAM3通过全新的Promptable Concept Segmentation任务,在开放词汇概念分割和多物体跟踪方面达到了前所未有的精准度和灵活性,能够识别并分割任何指定的对象 [3] SAM系列模型的技术指标对比 - 模型尺寸:SAM1较小,适用于实时推理;SAM2优化了结构更高效;SAM3增强了计算能力,支持更复杂任务 [4] - 推理速度:SAM1支持实时单物体分割;SAM2提升了视频分割能力;SAM3支持实时视频与图像分割及多物体处理 [4] - 支持的提示方式:SAM1支持图像框选、点击;SAM2加强了视频跟踪功能;SAM3支持多模态提示:图像、文本、语音 [4] - 多物体跟踪:SAM1仅支持单一物体分割;SAM2支持视频中的多物体跟踪;SAM3实现更高精度的多物体跟踪与标识 [4] - 长上下文处理:SAM1限制性较强;SAM2增强了视频帧间关联;SAM3支持长上下文语义推理,提升视频场景分析能力 [4] - 开源贡献:SAM1为基础版本;SAM2加强了稳定性和效率;SAM3完全开源,涵盖更多应用场景 [4] SAM3的核心技术架构与组件 - 核心技术是Promptable Concept Segmentation,使模型不仅能分割物体,还能根据概念进行识别,例如识别所有“红色车”实例 [11] - 检测器模块是核心组件,负责生成物体的分割掩码、边界框和物体评分,接收来自图像编码器和文本编码器的输入 [16] - 文本编码器将文本输入转化为模型可理解的特征向量,示例编码器处理输入的示例图像以帮助模型理解目标物体 [18][22] - 跟踪器用于在视频连续帧之间追踪已检测到的物体,确保分割结果的一致性;记忆库存储已检测物体信息,帮助在多个帧之间保留对物体的理解 [18] - 多模态解码器负责将来自文本和图像的特征融合,通过跨模态解码操作生成分割结果,使模型在理解复杂提示和场景时更为灵活 [19] - 检测解码器通过自注意力和交叉注意力机制融合多模态信息,生成物体的边界框、分割掩码等信息;Heads模块通过迭代框体细化提高检测精度 [22] SAM3在基准测试中的性能表现 - 在实例分割任务LVIS数据集上,SAM3的cgF1得分为37.2,AP得分为48.5,显著优于OWLv2的20.1 cgF1分 [21] - 在概念分割任务SA-Co数据集上,SAM3的Gold cgF1为54.1,Silver为49.6,Bronze为42.6,pmF1为55.4,全面领先于对比模型 [21] - 在目标检测任务COCO数据集上,SAM3的AP为53.6,APo为56.4,表现优于OWLv2的AP 35.2和APo 38.2 [21] - 在语义分割任务ADE-847数据集上,SAM3的mIoU为60.8,在PC-59 Cityscapes数据集上mIoU为65.2 [21] - 在ODinW13数据集上,SAM3的APo为61.0,AP10为71.8,表现优于gDino1.5-Pro的APo 58.7和AP10 67.9 [21] - 在多模态输入评估中,SAM3的T+I模式在LVIS数据集上AP+达到63.1,在ODinW13数据集上AP+达到81.8,证明了其多模态结合的优势 [21] SAM3 Agent与大型语言模型结合的应用 - 公司将SAM3与MLLMs组合,例如使用Qwen2.5-VL、GPT-4等生成复杂文本查询来指导SAM3执行物体分割任务 [21] - SAM3 Agent在ReasonSeg数据集上,结合Qwen2.5-VL 72B时,测试集gIoU达到70.8,结合Gemini 2.5 Pro时达到74.0 [24] - 在Omnilabel数据集上,SAM3 Agent结合Gemini 2.5 Pro在val 2023集上的AP达到45.3,超越了Overall state-of-the-art的36.5 [24] - 结合MLLM后,SAM3 Agent在多个数据集上进行了零-shot测试,证明了其强大的推理能力和灵活性,在ReasonSeg和OmniLabel任务中表现出色 [29] SAM3的技术优势与行业影响 - 模型在不同数据集上均展现优越性能,特别是在零-shot学习和多模态输入上,能在没有大量标注数据的情况下进行有效的物体分割 [23] - 多模态能力强,结合文本提示和图像示例时,通过T+I模式显著提升分割效果,证明了其在多模态任务中的优势 [23] - 具备强大的跨任务适应能力,在多种不同任务和数据集上表现出色,特别是在实例分割和概念分割任务中展示了强大的泛化能力 [23] - 技术演进从SAM1打开视觉分割新纪元,到SAM2精准捕捉动态视频场景,再到SAM3穿越复杂的多模态场景,在智能家居、医疗影像、自动驾驶等领域发挥巨大影响 [25][26]
英伟达2025年技术图鉴,强的可怕......
自动驾驶之心· 2025-12-06 03:04
英伟达公司发展里程碑与战略定位 - 公司于1993年成立,已完成从图形芯片到AI巨头的演进,市值在2025年10月底达到5万亿美元,是3年前的11倍 [2] - 发展关键节点包括:1999年推出GeForce 256,2006年CUDA问世,2012年支持AlexNet,2020年开始发布高端计算GPU,2021年开始发布端侧芯片(ORIN/Thor)[2] - 公司是AI基础设施的第一巨头,但其野心不局限于硬件,2025年在自动驾驶、具身智能、大模型和世界模型等最热AI赛道上产出了多篇重量级工作 [2] Cosmos系列世界基础模型平台 - 该系列从2025年1月开始布局,是面向物理AI的世界基础模型平台,衍生出Cosmos-Transfer1、Cosmos-Reason1、Cosmos-Predict2.5等工作,为下游自动驾驶和具身智能奠定基座 [5] - **Cosmos-Predict2.5**:新一代物理AI视频世界基础模型,基于流匹配架构统一了文本、图像、视频到世界的生成能力,并引入物理AI专用VLM——Cosmos-Reason1进行文本嵌入与细粒度控制 [17] - Cosmos-Predict2.5构建了包含2亿精选视频片段的大规模训练数据集,并针对机器人、自动驾驶等五大领域进行专项数据整理 [17] - 其控制网络变体Cosmos-Transfer2.5支持多模态控制信号输入,模型规模减小3.5倍的同时实现更高生成质量,支持长达120秒的长视频连贯生成 [17] - 模型支持多摄像头同步视频生成(如自动驾驶7视角),并实现基于相机轨迹的视角重渲染 [17] - 采用基于VLM奖励模型的强化学习对生成质量进行对齐优化,并使用时步蒸馏技术将推理步数大幅减少至4步 [17] - 全面开源2B与14B规模的预训练与后训练模型,在PAI-Bench等物理AI基准测试中取得领先性能 [17] - **Cosmos-Transfer1**:基于扩散模型的多模态可控世界生成框架,通过自适应空间-时间控制权重机制,根据不同模态输入生成高质量世界仿真视频 [37] - Cosmos-Transfer1构建了面向自动驾驶的高质量数据集RDS-HQ,包含360小时的高清地图、3D检测框与LiDAR同步标注 [37] - 通过基于NVIDIA GB200 NVL72系统的并行推理策略,在64块GPU上实现5秒720p视频的实时生成 [37] - **Cosmos-Reason1**:旨在赋予多模态大语言模型“物理常识”与“具身推理”能力,通过定义层次化的物理常识本体与二维具身推理本体,采用“监督微调+强化学习”的两阶段训练范式 [32] - Cosmos-Reason1构建了包含约4M视频-文本对的训练数据集,以及包含604个问题的物理常识推理基准和涵盖6个数据集、610个问题的具身推理基准 [32] - 实验表明,经过物理AI SFT后,模型在物理常识和具身推理基准上的性能较基线VLM提升超过10%,进一步的物理AI RL训练能在多数任务上再带来超过5%的性能提升 [33] Nemotron系列AI智能体模型 - Nemotron系列是公司为代理式AI时代打造的“数字大脑”,通过提供开放、高效、精准的模型和工具,让企业能够快速构建专业AI智能体 [5] - **Nemotron Nano V2 VL**:一个高效的12B视觉语言模型,通过混合Mamba-Transformer架构、多阶段训练策略和高效推理优化,在文档理解、长视频推理等多模态任务中实现了SOTA性能 [12] - 该模型将上下文长度从16K扩展至128K,支持长视频、多页文档等复杂场景理解 [12] - 集成Efficient Video Sampling技术提升视频处理吞吐量,支持FP8与FP4量化,适用于资源受限环境 [12] - 在OCRBench v2、MMMU、ChartQA、Video-MME等45个多模态基准测试中表现优异 [12] - 公开发布包含超过800万样本的Nemotron VLM Dataset V2,以及NVPDFTex等标注工具 [12] - **Nemotron Nano 2**:面向推理任务的高效混合架构语言模型,结合Mamba-2层与自注意力层,在保持高精度的同时,实现了最高达6倍的推理吞吐量提升,并支持128k长上下文推理 [26] - 采用FP8混合精度训练配方与分阶段课程学习策略,在20T token上完成预训练 [26] - 通过基于Minitron的轻量级剪枝与蒸馏策略,将12B模型压缩至9B,使其能够在单张NVIDIA A10G GPU(22GB显存)上以128k上下文进行推理 [26] - **Nemotron-H系列**:采用创新的混合Mamba-Transformer架构,用计算和内存需求恒定的Mamba层替代绝大部分自注意力层,在保证高精度的前提下,实现了高达3倍的推理速度提升 [27][28] - 在65k输入、1k输出场景下,吞吐量达同类Transformer的2-3倍 [29] - 提出模型压缩范式MiniPuzzle,将56B模型压缩为47B模型,仅用极少量(63B)token进行蒸馏便恢复精度,并在长上下文推理中实现额外20%的加速 [31] - 为56B大模型成功实施了以FP8精度为主的层wise混合精度预训练方案,在长达20万亿token的训练中稳定 [31] - 基于该骨干网络构建的VLM模型在多项视觉语言基准(如MMMU, MathVista)上达到SOTA水平 [31] 具身智能与机器人系列 - 公司正在深入布局具身智能,主要工作包括GR00T N1和Isaac Lab,一手具身VLA,一手仿真平台 [5] - **GR00T N1**:一个面向通用人形机器人的开放式视觉-语言-动作基础模型,采用双系统架构,通过构建“数据金字塔”进行大规模预训练 [35] - 双系统VLA架构将视觉语言模型作为慢速推理模块,与基于扩散Transformer的快速动作生成模块端到端联合训练 [35] - 数据金字塔训练策略构建了从海量人类视频、仿真与神经生成数据到真实机器人轨迹的异构数据体系 [35] - 使用单一模型权重支持从单臂机械臂到双手机巧人形机器人等多种机器人形态,在低数据场景下表现出卓越的样本效率 [35] - 公开发布了GROOT-N1-2B模型检查点、训练数据集及仿真基准 [35] - **Isaac Lab**:一个GPU加速的多模态机器人学习仿真框架,集高保真物理、照片级渲染与模块化环境设计于一体 [6] - 提出了统一且可扩展的仿真范式,将GPU并行物理、实时射线追踪渲染与通用场景描述深度集成 [6] - 设计了全面的多模态传感器仿真套件,涵盖基于物理的传感器、基于渲染的相机以及基于Warp的几何传感器 [6] - 实现了从数据生成到策略部署的端到端学习工作流支持,内置了强化学习、模仿学习等多种学习范式 [6] - 通过模块化的“管理器”架构与底层Tensor API,在保持高性能GPU原生计算的同时,为研究者提供了灵活控制 [6] 自动驾驶系列 - 2025年11月发布的Alpamayo-R1在自驾行业引起轰动,是公司在自驾VLA上的重要尝试 [5] - **Alpamayo-R1**:一种融合因果推理与轨迹规划的视觉-语言-动作模型,旨在解决端到端自动驾驶在长尾安全关键场景中的性能瓶颈 [13] - 提出了Chain of Causation数据集,通过人机协同标注流程构建具有因果关联的结构化推理轨迹 [13] - 设计了模块化推理VLA架构,以物理AI预训练的Cosmos-Reason为骨干,结合基于流匹配的轨迹解码器,实现99ms延迟的实时轨迹生成 [16] - 提出了多阶段训练策略,包括动作模态注入、基于CoC的监督微调以及基于大推理模型反馈的强化学习后训练 [16] - 在闭环仿真与实车测试中,相比仅预测轨迹的基线模型,Alpamayo-R1在挑战性场景中规划准确率提升最高达12%,脱轨率降低35%,近距离接触率降低25%,推理质量与推理-动作一致性分别提升45%与37% [16] 高效训练与底层技术 - **NVFP4**:一种新型4位浮点格式的高效训练方法,通过混合精度、随机哈达玛变换、二维权重缩放与随机舍入等关键技术,成功在120亿参数模型上进行了长达10万亿token的稳定训练 [19] - 在120亿参数的混合Mamba-Transformer模型上,使用NVFP4格式完成10万亿token预训练,其验证损失与FP8基线全程紧密吻合(相对误差<1.5%),下游任务准确率可比拟 [19] - 对比实验证明,NVFP4在达到相同训练损失时,所需的训练token数比MXFP4少约36% [19] - 相关工作已在NVIDIA Blackwell GPU上通过Transformer Engine获得全面支持 [19] 数字人与动画生成 - **Audio2Face-3D**:一个基于深度学习的端到端音频驱动三维面部动画系统,能够从单一语音输入实时生成高保真、口型同步且带情感表达的全脸动画 [21] - 提出了双网络架构设计:基于回归的轻量级网络支持低延迟单帧推理;基于扩散模型的高质量网络以流式方式生成连续30帧动画,支持多身份条件生成 [21] - 构建了基于专业演员多情感语音捕获的4D面部数据集,并采用语音转换、文本转语音对齐与静默数据插入三种增强方法提升数据多样性 [21] - 开发了可重定向的混合形状求解器,可将生成的面部顶点运动转化为标准的ARKit混合形状权重,支持将动画无缝重定向至不同角色模型 [21] - 系统支持在线流式音频输入并实时生成动画,推理延迟低,并提供丰富的后处理参数面板 [21]
寻找散落在各地的自动驾驶热爱者(产品/部署/世界模型等)
自动驾驶之心· 2025-12-06 03:04
行业阶段与平台定位 - 自动驾驶行业已进入下半场 行业面临难点与痛点需要更多参与者共同突破 [2] - 平台定位为国内自动驾驶领域创作技术平台 旨在行业激流中贡献力量并创造价值 [2] 平台发展规划 - 平台计划陆续增加圆桌访谈、实战及工业级课程、咨询等多种形式的内容输出 [2] - 平台呼吁更多优秀伙伴加入以共同发展 [3] 业务聚焦方向 - 平台业务主要聚焦于自动驾驶产品经理、4D标注与数据闭环、世界模型、视觉语言动作模型、自动驾驶大模型、强化学习、端到端等多个技术方向 [4] - 平台岗位主要面向自动驾驶培训合作 包括面向企业与高校的B端培训以及面向学生与求职人群的C端培训 同时涉及课程开发与原创文章创作 [5]
驭势科技环境感知算法工程师招聘(可直推)
自动驾驶之心· 2025-12-06 03:04
公司招聘信息 - 公司正在招聘环境感知算法工程师,工作地点位于上海长宁,薪资面议 [3] - 该岗位的核心职责是开发无人驾驶的环境感知能力,包括利用机器视觉和激光雷达数据进行多传感器融合,实现目标跟踪、语义理解和道路拓扑构建等功能,以保障无人驾驶安全 [5] - 岗位要求候选人具备扎实的数学和机器学习基础,拥有基于视觉或激光雷达的目标检测、分割、识别、跟踪及BEV感知等算法的实战经验 [5] - 岗位要求候选人具备强大的工程能力,精通C/C++和Python,熟悉三维成像原理,并能开发高性能实时软件 [5] 行业技术趋势 - 环境感知能力被视为保证无人驾驶安全最关键和基础的能力 [5] - 行业技术前沿涉及多传感器数据融合、多目标跟踪、环境细粒度语义理解以及道路拓扑构建等复杂感知功能 [5] - 行业对算法工程师的技能要求广泛,需跟踪前沿技术,并涵盖从深度学习基础到具体应用算法(如场景分割、BEV感知)的实战经验 [5]
博世最新一篇长达41页的自动驾驶轨迹规划综述
自动驾驶之心· 2025-12-05 00:03
文章核心观点 - 博世发布了一篇关于基础模型在自动驾驶轨迹规划中应用的重量级综述,系统梳理了37种近期方法,提出了统一分类法,并批判性评估了其设计、优势与局限,旨在为该快速发展的领域建立结构化基础并指明未来方向 [2][11] 背景回顾 - 基础模型是利用海量数据学习表征并可适配多种下游任务的大规模模型,如大型语言模型和视觉语言模型 [4] - 研究表明,未经自动驾驶专门训练的现成基础模型已能令人惊讶地良好理解复杂驾驶场景,这使其成为构建自动驾驶专用方案的潜力基础,也是当前行业范式转变的关键驱动力 [5] - 轨迹规划是驾驶过程最核心的任务,其他能力均为其提供辅助,因此综述重点聚焦于基础模型如何助力轨迹规划模型 [8] 分层分类体系 - 利用基础模型的轨迹规划方法可分为两大主类别:为轨迹规划定制的基础模型、指导轨迹规划的基础模型 [16] - **为轨迹规划定制的基础模型**:通过微调现有预训练基础模型,直接用于自动驾驶场景,共22种方法,可进一步分为仅专注于轨迹规划的模型和具备额外能力的模型 [19][20] - **指导轨迹规划的基础模型**:不构建专用模型,而是将现成基础模型的知识转移到现有自动驾驶模型中,共15种方法,可根据知识转移发生在训练阶段或推理阶段进一步划分 [20][21][22] 为轨迹规划定制的基础模型 - **微调核心要素**:包括数据整理、模型设计和训练策略 [23] - **数据整理**:取决于模型用例,仅用于轨迹规划的数据集核心是“观测-轨迹”数据对;若需语言或动作交互能力,则需补充相应的问答对或指令-轨迹对数据 [24][28] - **模型设计**:主流思路包括直接使用现成视觉语言模型,或组合视觉编码器与大型语言模型并通过视觉适配器连接 [27][29] - **轨迹表征**:常见方式包括将轨迹作为文本生成、作为离散化的动作token、或作为数值集合通过附加的规划头单次生成 [31] - **模型训练**:通常通过单阶段或多阶段完成,例如先训练视觉适配器,再微调全部或部分参数 [29] - **仅专注于轨迹规划的模型**:根据是否使用思维链及使用方式,可细分为无思维链、文本输出作为思维链、初始轨迹预测作为思维链三类 [25][32] - **具备额外能力的模型**:除轨迹规划外,还具备语言交互和/或动作交互能力 [38] - **语言交互能力**:需要视觉问答数据对进行训练,评估采用自然语言处理领域的经典指标 [38][39][40] - **动作交互能力**:可根据用户指令规划轨迹,目前方法均在CARLA模拟器的合成数据集上训练,需具备规避误导性指令的机制 [43] 指导轨迹规划的基础模型 - **仅在训练阶段进行知识蒸馏的模型**:推理阶段无需调用基础模型,能保持效率,方法包括将CLIP表征对齐到端到端模型中,或利用GPT-4o输出元动作进行蒸馏等 [48][49][51] - **在推理阶段进行知识转移的模型**:训练和推理阶段都调用基础模型,计算成本更高,根据转移知识类型可分为转移场景描述、转移规划决策、或同时转移两者 [48][53] - **知识转移类型**:包括场景描述、元动作、轨迹等,通过不同编码方式融入到自动驾驶模型的各个层级 [53][54][55] 现有方法的数据集与代码开放性 - 开放性是推动研究进展和实际部署的关键,但无任何一种方法的所有资产均支持研究与商业双用途 [57][59] - 仅有5种方法公开了所有资产,但部分仍限制商业使用,其中4种属于“为轨迹规划定制的基础模型”,1种属于“指导模块化自动驾驶模型轨迹规划的基础模型” [59] - “指导端到端自动驾驶模型轨迹规划的基础模型”类别尚无开源实现,训练代码与模型权重是限制最严格的资产 [59] 开放问题与挑战 - **高推理成本导致部署困难**:基础模型参数庞大且自回归生成,导致推理延迟高,难以满足实际部署所需的10-30帧/秒帧率要求,例如Orion模型在A800 GPU上推理帧率仅为0.8帧/秒 [63] - **微调后的能力下降**:微调可能导致视觉语言模型丧失对轨迹规划潜在有用的能力,出现“概念遗忘”现象 [64][66] - **动作交互能力局限**:现有模型仅能处理短时域内可执行的指令,无法拆解和执行人类化的复杂多步指令 [68] - **仿真到现实的差距**:所有具备动作交互能力的模型均在合成场景中训练测试,存在域转移问题,阻碍实际部署 [69] - **性能影响因素不明**:不同方法在架构、数据、训练上差异巨大,难以厘清导致性能差异的核心因素 [70] - **缺乏推理能力评估基准**:需要建立标准基准来评估模型在复杂语言-视觉场景下的推理能力 [71]
端到端时代下的自动驾驶感知
自动驾驶之心· 2025-12-05 00:03
自动驾驶技术范式转变:从模块化到端到端 - 行业技术热点已从BEV感知迅速转向端到端自动驾驶方案 [4] - 端到端并非新技术,早期因效果不佳而让位于模块化架构,但随Transformer与BEV发展正强势回归 [9] - 主流方案正将规划模块神经网络化,形成一段式或两段式端到端架构 [9] 端到端架构下的感知范式革命 - 传统感知-规划框架中,感知需提供全量、精确的场景信息供规划使用,因模块化设计使其无法获知规划具体需求 [11] - 端到端最大意义在于实现“规划导向”的感知,即从全量感知转向可学习的按需感知 [14] - 当前多数端到端方案仍沿用传统思路,将人为定义的感知任务作为辅助监督,这被视为感知模块的“手工特征算子”,可能限制模型上限 [13][14] - 感知模块需自我革新,摒弃对人为定义感知任务的依赖,转向可学习的隐式场景理解 [14] 导航引导的稀疏场景表征 - 提出“导航引导感知”概念,模仿人类驾驶员根据导航意图关注场景不同部分,而非进行全量感知 [17] - 基于BEV特征设计场景令牌学习器模块,引入导航信息并预测BEV注意力,将场景压缩为16个场景查询 [18][19] - 规划解码器仅与这16个查询交互即可输出轨迹,实现了对感知信息的极致压缩与高效利用 [19] - 该方案使模型在训练效率和推理速度上成倍提升,并大幅超越现有方案性能 [19] 世界模型作为隐式监督新方向 - 为减少对人为定义感知任务的依赖,引入基于BEV特征的自监督世界模型,通过预测未来帧特征增强场景理解 [20] - 设计在稀疏查询上做轨迹规划,在稠密BEV上做世界模型的方案,兼顾推理效率与训练一致性 [20] - 随着世界模型研究成熟,其有望完全替代人为感知任务,成为隐式场景表征最可靠的监督方式 [21] SSR方案性能与影响 - SSR框架仅用16个自监督可学习的查询作为场景稀疏表征,替代了传统方案中成百上千个人为监督的查询 [22] - 在nuScenes数据集开环测试中,SSR的3秒平均L2误差为0.75米,平均碰撞率为0.15%,推理速度达19.6 FPS,多项指标超越对比方案 [24] - 在Carla仿真闭环测试中,SSR的驾驶得分达78.9,路线完成率达95.5%,综合得分0.83,表现优异 [26] - 消融实验表明,使用16个场景查询在性能与效率间取得最佳平衡 [27] - 可视化显示场景查询能根据不同导航指令自适应关注与驾驶意图相关的区域,证明了可学习感知模块的有效性 [28] - 该方案被视为端到端感知的“AlexNet时刻”,标志着可学习感知模块首次大幅超越人为定义感知模块,可能引导行业新方向 [29]
做自动驾驶VLA的这一年
自动驾驶之心· 2025-12-05 00:03
自动驾驶技术演进与VLA模型 - 自动驾驶技术发展经历了四个阶段:模块化流水线、端到端、视觉语言模型和视觉语言动作模型 [5] - 模块化流水线将感知、预测、规划、控制拆分为独立子系统,存在信息割裂和易出错的问题 [5] - 端到端模型直接从传感器画面生成控制信号,但存在黑箱特性,解释性差,难以处理长尾场景 [5] - 视觉语言模型让车辆具备“看”和“说”的能力,能解释驾驶行为,但无法直接“做”,存在“行动鸿沟” [5] - 视觉语言动作模型将视觉、语言和动作整合到统一框架,能理解自然语言指令并直接生成驾驶行为,实现了感知、推理和控制的一体化 [6] - VLA模型继承了大模型的语义先验,能借助常识处理少见或未见场景,例如被遮挡行人或自行车突然加速 [6] 自动驾驶之心知识星球社区概况 - 社区是一个综合类自动驾驶社区,集视频、图文、学习路线、问答和求职交流为一体 [10] - 社区成员超过4000人,目标在未来2年内达到近万人规模 [10] - 社区成员来自国内外知名高校和头部公司,高校包括上海交大、北京大学、CMU、清华大学等,公司包括蔚小理、地平线、华为、大疆等 [21] - 社区内部梳理了近40个自动驾驶技术方向的学习路线 [12][14] - 社区与多家自动驾驶公司建立了岗位内推机制 [16] - 社区内部已举办超过一百场专业技术直播分享 [95] 社区提供的学习与研究资源 - 汇总了自动驾驶领域近40个技术方向的学习路线,包括感知、仿真、规划控制、端到端、VLA、多模态大模型等 [12][21][22] - 整理了自动驾驶领域国内外高校著名团队和公司信息 [15][34][36] - 汇总了自动驾驶相关的经典书籍、课程课件和开源项目 [15][38][40] - 整理了近百个自动驾驶数据集,包括多模态大模型预训练、微调、思维链和强化学习数据集 [15][42] - 提供了“自动驾驶100问”系列专题,涵盖TensorRT模型部署、毫米波雷达融合、车道线检测、规划控制等问题 [15] - 社区内部提供七大福利视频教程,涵盖世界模型、自动驾驶大模型、Transformer、3D目标检测等内容 [92] 社区关注的技术热点与讨论 - 端到端自动驾驶的入门、学习路线及在量产中的应用 [12][26] - 自动驾驶多模态大模型与VLA的学习路线、数据集及微调方法 [12][26] - 多传感器融合技术的就业前景 [12][26] - 3D高斯泼溅与闭环仿真的结合与应用考虑因素 [12][26] - 世界模型的概念、业内应用及研究切入点 [12][26] - 规划控制向端到端VLA转型的学习路径 [12][26] - 行业内公司前景、跳槽机会及岗位内推 [12][26] - 闭环强化学习的入门方法 [12][26]
入门自动驾驶实操,全栈小车黑武士001性价比拉满了!
自动驾驶之心· 2025-12-05 00:03
产品定位与市场痛点 - 文章指出自动驾驶学习与科研领域存在市场痛点:专业级平台价格昂贵堪比小型车,而教学套件虽价格适中但功能不完整且配置复杂耗时,易消耗用户热情 [2] - 公司推出“黑武士系列001”作为解决方案,定位为“教研一体轻量级解决方案”,旨在提供高性价比、快速上手的自动驾驶全栈实操平台 [3][5] 产品核心卖点与定价 - 产品定价为36999元,公司宣称此价格“性价比直接拉满”,并随产品赠送模型部署、点云3D检测、多传感器融合三门课程 [3] - 产品支持感知、定位、融合、导航、规划等全栈功能,基于阿克曼底盘,目标用户涵盖本科生学习比赛、研究生科研与求职、高校及职业院校实验室教具等 [5] 硬件配置规格 - 传感器配置包括:Livox Mid360 3D激光雷达(探测范围0.1m-40m,FOV 360°*59°)、镭神智能M10p 2D激光雷达(最大范围25m)、奥比中光Gemini2 TOF深度相机(测量范围0.15-5m,深度精度≤2%)以及LPMS-BE2 IMU [23][32] - 计算单元采用NVIDIA Jetson Orin NX开发板,配备16GB RAM,AI算力为100 TOPS [35] - 底盘为阿克曼转向结构,车体尺寸为620mm x 400mm x 320mm(长x宽x高),自重30kg,最大载荷30kg,最大运动速度可达2m/s,续航时间大于4小时 [24][26][27] 软件功能与演示 - 软件基于ROS框架,支持C++和Python,提供一键启动和完整的开发环境 [29] - 文章展示了产品在多种场景下的功能测试效果,包括户外公园行驶、点云3D目标检测、室内外地库2D/3D激光建图、上下坡以及夜间行驶等 [7][9][11][13][15][17][19][21] - 支持的功能模块广泛,包括多种SLAM方案(如2D/3D激光SLAM、视觉惯性SLAM、多传感器融合SLAM)、点云处理、2D目标检测与分割、深度估计、车辆导航与避障等 [30] 产品使用与售后 - 产品提供详细说明书,内容涵盖硬件配置、软件环境、系统启动、各功能模块使用教程及注意事项 [31] - 售后政策为1年内支持非人为损坏的售后维修,保修期内因个人操作失误导致的损坏提供免费维修,但邮费需用户自理 [53]
五年,终于等来Transformers v5
自动驾驶之心· 2025-12-04 03:03
Transformers v5版本发布 - Hugging Face发布了其核心开源项目Transformers库的v5.0.0rc0候选版本,标志着该库结束了长达五年的v4技术周期,正式进入v5时代 [1][3] - 自2020年11月v4发布以来,该库的日下载量从2万次激增至超过300万次,总安装量突破12亿次 [3] - 该库支持的模型架构从最初的40个扩展至超过400个,社区贡献的模型权重超过75万个,覆盖文本、视觉、音频及多模态领域 [3] 核心进化维度 - v5版本确立了PyTorch为唯一核心后端,并聚焦于四大维度的进化:极致的简洁性、从微调迈向预训练、与高性能推理引擎的互操作性,以及将量化提升为核心功能 [3] 简洁性与模块化 - 团队的首要关注点是简洁性,旨在通过干净、清晰的模型集成方式带来更广泛的标准化、更强的通用性和更全面的生态支持 [5][6] - 在过去5年里,平均每周新增1-3个新模型,目标是收录所有最新模型架构,成为模型定义的唯一可信来源 [7][8] - 大力推进模块化设计,使维护更简单、集成速度更快,并促进社区协作,例如引入了AttentionInterface作为注意力机制的集中抽象层 [10][12] - 正在构建基于机器学习的模型转换工具,以自动化模型转换流程,减少手动工作并确保一致性 [13][14] 代码重构与后端聚焦 - 对建模文件和标注/处理文件进行了大规模重构,使建模代码只保留模型前向/反向传播所需的核心部分 [15] - 简化tokenization & processing文件,未来将只关注tokenizers后端,并移除Fast和Slow tokenizer的概念 [16] - 图像处理器今后将只保留依赖torchvision后端的fast版本 [17] - 将逐步停止对Flax/TensorFlow的支持,专注于PyTorch作为唯一后端,同时与JAX生态合作伙伴协作确保兼容性 [17][18] 训练能力扩展 - v5版本加大了对大规模预训练以及完整训练的支持,而不仅仅是微调 [19] - 为支持预训练,重新设计了模型初始化方式,并加入了对前向与反向传播优化算子的支持,已与torchtitan、megatron、nanotron等工具实现更广泛的兼容 [20] - 继续与Python生态系统中的所有微调工具保持紧密合作,并与JAX生态中的MaxText等工具兼容,确保良好的互操作性 [21] 推理优化与生产部署 - v5带来了多项推理范式级更新,包括专用内核、更干净的默认设置、新的API,以及优化对推理引擎的支持 [22][23] - 定位并非取代vLLM、SGLang、TensorRT-LLM等专业推理引擎,而是目标与这些引擎实现兼容 [25] - 与最流行的推理引擎紧密合作,使得添加到Transformers的模型能立即在这些引擎中可用,并充分利用其优化优势 [27] - 与ONNXRuntime、llama.cpp和MLX密切合作以确保互操作性,例如可轻松在Transformers中加载GGUF文件进行微调,或将其模型转换为GGUF文件 [27] - 推动本地推理边界,与executorch团队合作让Transformers模型能够在设备端直接运行,并快速扩展对多模态模型的支持 [28] 量化与新增功能 - 量化正迅速成为前沿模型开发的标准,许多SOTA模型以8-bit和4-bit等低精度格式发布 [29] - 引入了连续批处理和paged attention机制,这些功能已在内部开始使用 [30] - 推出了全新的transformers serve服务系统,可用于部署一个兼容OpenAI API的服务器来部署Transformers模型 [30]