Workflow
自动驾驶之心
icon
搜索文档
端到端VLA的入门进阶和求职,我们配备了完整的学习路线图!
自动驾驶之心· 2025-12-18 00:06
行业人才需求与趋势 - 近期多家行业中游厂商积极寻求端到端自动驾驶和视觉语言动作模型方向的技术人才 计划在明年投入更多资源进行技术落地 [2] - 对于经验丰富的专家级人才 行业提供的薪酬水平普遍在百万年薪起步 显示出市场对高端技术人才的强烈需求和竞争 [2] 行业培训课程概况 - 为应对工业界明确的技术需求 行业推出了多个聚焦于量产落地的实战培训课程 包括《面向量产的端到端实战小班课》、《端到端与VLA自动驾驶小班课》和《自动驾驶VLA和大模型实战课程》旨在打通从入门、进阶到求职的全链条 [4] - 课程由来自顶尖企业和学术机构的专家授课 师资背景强大 均拥有C9及QS排名前列高校的学历 并在国际顶级会议发表多篇论文 且具备将前沿算法成功量产落地的实战经验 [6][9][14][15] 端到端自动驾驶量产课程 - 该课程聚焦于端到端自动驾驶的量产落地 详细讲解导航信息应用、强化学习优化、Diffusion和自回归模型的量产经验以及时空联合规划兜底等核心模块 [4] - 课程设计了七大落地实战项目 目标人群为已经从事端到端自动驾驶相关工作并希望进阶加薪的从业者 [4] 端到端与VLA宏观技术课程 - 该课程从宏观领域梳理端到端自动驾驶 涵盖一段式/两段式方向的重点算法和理论基础 详细讲解BEV感知、大语言模型、扩散模型和强化学习 [7] - 课程包含两大实战项目 分别是基于扩散模型的Diffusion Planner和基于视觉语言动作模型的ORION算法 [7] 自动驾驶VLA与大模型实战课程 - 该课程由学术界专家带队 全面梳理视觉语言动作模型领域 涵盖从视觉语言模型作为解释器到模块化VLA、一体化VLA以及当前主流的推理增强VLA三大方向 [12] - 课程配套详细的理论基础梳理 包括视觉、语言、动作三大模块以及强化学习和扩散模型等 并设有大作业章节指导学员从零搭建自己的视觉语言动作模型及数据集 [12] - 课程对学员有明确的先决条件要求 包括需要自备算力在4090及以上的GPU、具备自动驾驶领域基础、了解Transformer大模型等技术的基本概念、拥有一定的数学和编程基础 [11]
从具身到自驾,VLA和世界模型的融合趋势已经形成......
自动驾驶之心· 2025-12-18 00:06
文章核心观点 自动驾驶领域的两大前沿技术路线——视觉-语言-行动模型与世界模型——正呈现出明显的融合趋势,旨在共同塑造一个“既会思考,又会沟通”的终极驾驶大脑,以解决传统模块化方案和早期端到端模型的局限性 [1][16][47] 技术路线解析:VLA - **定义与目标**:VLA 是“视觉-语言-行动”模型,旨在实现人车交互与可解释的端到端自动驾驶,其核心是将人类语言指令融入系统,让车辆“能听懂、会解释、直接开” [4][11] - **系统架构**:采用输入-中间层-输出的“三明治架构” [5] - **输入端**:融合多摄像头图像生成的BEV/体素表征、激光雷达/毫米波雷达数据以及人类语言指令 [5] - **中间层**:由视觉编码器、基于大语言模型的处理器和动作解码器构成,进行统一推理与决策生成 [5] - **输出端**:直接输出车辆的低层控制指令或未来数秒的行驶轨迹 [6] - **核心优势**:交互自然、可解释性强,并能利用语言常识处理复杂语义场景 [11] - **当前挑战**:面临语言与行动对齐困难、算力需求大等难题 [11] 技术路线解析:World Model - **定义与目标**:世界模型是一种生成式时空神经网络系统,旨在为自动驾驶系统构建一个可预测和仿真的内部世界,使其具备“在脑海中预演未来”的能力,从而支持更安全、前瞻的规划 [8][11] - **系统架构**:同样遵循输入-核心模型-输出的架构 [9] - **输入端**:侧重于时序的多模态传感器数据及自车状态,专注于对物理世界状态的建模 [9] - **核心层**:由编码器、记忆模块和生成式预测模块构成,负责状态编码与未来场景的生成式推演 [10] - **输出端**:生成未来场景的丰富表征,如图像序列、BEV地图或4D占据栅格,为下游规划模块提供前瞻信息,而非直接控制车辆 [10] - **核心优势**:能够预测和仿真未来,方便量化风险,并可通过仿真生成大量极端案例数据 [11] - **当前挑战**:缺乏高级语义理解、实时高保真推演的计算成本高,且本身不直接产出驾驶策略 [11] VLA与世界模型的异同 - **主要区别**:两者在目标、输入输出、核心技术及优势挑战上存在显著差异,具体对比如文章中的表格所示 [11] - **内在联系**:尽管路径不同,但二者存在多方面的共同点 [12][13][14][15] - **技术起源一致**:均源于对传统模块化流水线和早期“黑箱”端到端模型的反思 [12] - **终极目标一致**:都是为了让自动驾驶系统具备类人的认知与决策能力 [13] - **关键挑战一致**:都需要解决剩余20%的极端案例难题 [14] - **技术底层一致**:都重度依赖“预训练+微调”的深度学习范式及Transformer等核心架构 [15] 技术融合趋势与实例 行业研究显示,VLA与世界模型的融合已成为明确趋势,旨在形成“感知-推理-仿真-决策-解释”的增强闭环 [16][21][47]。近期多项研究工作体现了这一融合方向: - **3D-VLA (2024.03)**:提出了一个融合3D感知、推理和动作生成的世界模型,其关键创新在于训练扩散模型来生成执行指令后的目标图像、深度图和点云,让模型具备“想象未来”的能力。在一个包含约200万个样本的3D具身指令数据集上训练,在3D推理定位等多任务上表现超越2D模型 [20][22] - **WorldVLA (2025.06)**:将VLA模型与世界模型统一于单一框架,实现动作与图像的联合理解与生成。在LIBERO基准测试中,其动作生成成功率超过同类离散动作模型约4%,视频生成质量优于单纯世界模型约10% [25][26][27] - **IRL-VLA (2025.08)**:提出基于逆强化学习奖励世界模型的闭环强化学习框架来训练VLA策略。在NAVSIM v2闭环驾驶基准上取得领先性能,并在CVPR 2025自动驾驶大挑战中获得亚军 [30][31] - **DriveVLA-W0 (2025.10)**:通过引入未来图像预测作为密集自监督任务,解决VLA模型“监督不足”的根本瓶颈。在NAVSIM基准测试中,仅用单目前置摄像头即超越多传感器基线模型。在大规模内部数据集上的实验表明,该方法能放大数据扩展定律 [34][35][36] - **WM-MoE (2025.10)**:提出首个基于世界模型,并融合专家混合网络与大型语言模型的运动预测框架,专门针对极端案例。在多个公开数据集上的实验表明,其在整体精度和极端案例处理上均超越现有先进方法 [39][40][41] - **FutureSightDrive (2025.11)**:引入视觉时空链式思考作为中间推理步骤,让VLA模型进行“视觉思考”。该框架首先生成包含物理合理先验信息的统一未来帧,再基于此进行轨迹规划,有效弥合感知与规划间的模态鸿沟 [44][45][46] 行业动态与展望 - 工业界已开始布局相关技术,例如华为强调其世界模型能力,小鹏汽车正在研发VLA 2.0,而理想汽车也在发布会上展示了相关理解,预示着将有更多厂商进入该领域 [47] - 下一代自动驾驶的发展方向预计将沿着VLA与世界模型深度融合的思路演进,构建具备闭环智能的驾驶系统 [47]
许华哲,抓紧时间慢慢等具身的未来......
自动驾驶之心· 2025-12-18 00:06
作者丨 许华哲 编辑丨具身智能之心 本文已经得到许华哲博士的授权,未经允许,不得二次转载。 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 昨天看到了许华哲老师在社交媒体上的分享,关于数据、量产、本体和场景。类似的观点,今年IROS圆桌期间,许博也站在智能第一性原理上,将具身的未来发展 方向划分为欲望、先验和经验三个模块。 但这极快的变化速率又显得格外不协调,因为我没在任何地方看到人形机器人真正服务人类。快递分拣平均速率是1800件每小时,汽车工厂要万分之一甚至十万分 之一的失误率。达成的那一天似乎一直在一个不远不近的地方招手:隔三差五有人宣称任务已经解决,但和跳舞的同行不同,我们只能在视频里见到它。 达到实时性、准确性、5w公里接管,自驾用了10几年,而具身还需要继续努力。 就像前面说的速率上的不协调,回望2025的具身智能,我发现了好几个这样不协调的相互映照的"对子"。当然也有个人的主观臆断,所以也请担待冒失的地方。 一、两个世界的机器梦 欲望。 在做智能体的时候,无论是物理的还是虚拟的,总觉得现在机器学习没有自己的学习欲望。我们可以设想一下,能不能给机器人 ...
清华&小米DGGT:0.4秒完成4D高斯重建,性能提升50%!
自动驾驶之心· 2025-12-18 00:06
核心观点 - 清华大学与小米汽车联合推出DGGT框架,这是一个无需相机位姿标定、单次前向即可完成4D动态驾驶场景重建的模型,在速度、精度和跨数据集泛化能力上表现卓越,并具备强大的场景编辑功能,有望成为自动驾驶仿真与数据合成的核心工具 [1][6][21] 技术原理与架构 - DGGT采用Pose-Free设计,将相机位姿从输入转为模型输出,端到端预测内外参,从而打破跨数据集部署的校准壁垒 [6][8] - 模型采用ViT编码器融合DINO先验,通过多头联合预测结构,一次前向即可输出相机位姿、4D Gaussian、寿命、动态/运动、天空等完整的4D场景状态 [10][12] - 系统通过Lifespan Head建模场景随时间的外观演变,并通过单步扩散精修抑制运动插值伪影,提升时空一致性与渲染自然度 [3][12] 性能表现 - **重建速度与质量**:在Waymo数据集上,单场景推理时间约0.39秒,同时获得PSNR 27.41、SSIM 0.846的高保真重建质量,在速度与精度上优于前向与优化方法 [8][11] - **关键指标领先**:在Waymo数据集上,其深度误差(D-RMSE)为3.47,场景流估计误差(EPE3D)为0.183米,均优于对比方法 [11] - **零样本泛化能力强劲**:仅在Waymo上训练,无需微调即在nuScenes和Argoverse2数据集上实现超越SOTA的泛化性能,例如在nuScenes上LPIPS从0.394降至0.152(下降61.4%)[13][15] 核心优势与特点 - **强大的跨数据集泛化**:Pose-Free设计减少了对固定拍摄轨迹与相机配置的依赖,使模型在不同传感器布置下仍能维持良好性能,实现了跨域鲁棒性 [15] - **卓越的可扩展性**:支持任意数量的输入视角与长序列,当输入视角从4增至16时,其重建与新视角插值指标保持稳定,而对比方法性能明显下滑,更适合大规模工程化处理 [16] - **高度可编辑的4D场景生成**:模型输出包含相机姿态、深度、动态分割、3D Gaussian追踪等可编辑资产,支持在Gaussian层面直接对车辆、行人等实例进行添加、删除、移动等操作,扩散精修模块可自动补洞与平滑边界 [6][20][21] 组件功能与消融验证 - **Lifespan Head价值**:该组件负责刻画静态区域在不同时间的外观变化,消融实验显示,去除后PSNR从27.41大幅下降至24.21,证明其对维持时空一致性与真实感至关重要 [11][17] - **Motion Head作用**:负责预测像素级3D位移,将同一物体在相邻帧中对齐并插值,确保了运动物体在时间上的连续性与视觉自然度 [19] - **扩散精修效果**:虽然在定量指标上提升较小,但能有效抑制遮挡/插值产生的伪影与细节缺失,显著改善视觉效果,更适配下游任务 [11]
AI Day直播 | 自动驾驶空间检索新范式SpatialRetrievalAD
自动驾驶之心· 2025-12-17 03:18
文章核心观点 - 现有自动驾驶系统依赖实时车载传感器,在视野受限、遮挡或极端天气条件下性能受限,而人类驾驶员具备利用道路记忆的能力 [2] - 复旦大学等机构提出一种新范式,通过引入离线检索的地理图像(如谷歌地图)作为额外输入,赋予自动驾驶模型“回忆”能力,这是一种低成本、高鲁棒且即插即用的感知增强方案 [2] - 该方法在多个核心自动驾驶任务上建立了基准测试,实验表明能有效提升部分任务的性能,并将开源相关代码、数据和基准以支持后续研究 [3] 技术方案与数据构建 - 技术核心是将离线检索的地理图像作为额外输入引入自动驾驶系统,图像可从谷歌地图API或已存储的自动驾驶数据集中轻松获取,无需额外传感器 [2] - 在实验中,通过谷歌地图API检索地理图像,扩展了nuScenes数据集,并将新数据与自车轨迹进行对齐 [3] - 构建了名为“nuScenes-Geography”的离线记忆库,数据来源包括街景、卫星图和历史数据 [10] 性能提升与实验结果 - 该方法在五个核心自动驾驶任务上建立了基准:目标检测、在线建图、占用预测、端到端规划和生成式世界模型 [3] - 在线建图任务的mAP提升了13.4% [3] - 占用预测任务中,静态类的mIoU提升了2.57% [3] - 夜间端到端规划任务的碰撞率从0.55%降至0.48% [3] - 大量实验表明,该扩展模态能够提升部分任务的性能 [3] 研究影响与后续计划 - 该工作通过空间召回(Spatial Retrieval)的方式,大幅提高了感知、决策和生成式仿真性能 [10] - 研究团队将开源数据集构建代码、数据及基准测试,旨在为这一新自动驾驶范式的后续研究提供支持 [3] - 该研究被总结为“长时记忆世界模型,赋予决策系统‘回忆’能力” [7]
没有好的科研能力,别想着去业界搞自驾了......
自动驾驶之心· 2025-12-17 03:18
自动驾驶高端人才市场现状 - 市场上高端自动驾驶人才仍然非常抢手,多家新势力及头部Tier 1公司为硕士毕业生提供的年薪包已达到70万元,以争夺人才(非顶级特殊计划岗位)[2] - 许多参与过工业界预研岗位的学生在毕业前已被公司内定,反映出市场对具备实战经验人才的强烈需求[2] 企业对人才的核心能力要求 - 企业对人才的核心要求是“具备完整的科研能力”,而不仅仅是阅读论文[2] - 完整的科研能力具体指:能发现问题、定义问题、提出解决方案,并能形成方法论输出观点[2] 自动驾驶领域科研人员面临的普遍难题 - 导师不熟悉自动驾驶方向,学生需自行调研领域[7] - 不清楚领域的痛点与难点所在[7] - 缺乏真实数据、算力资源以及明确的改进方向,导致研究停滞不前[7] - 实验设计能力不足,无法取得有效结果,缺乏解决问题的能力[7] - 在论文写作方面存在困难[7] 自动驾驶之心提供的科研辅导服务概览 - 提供1对1科研辅导业务,旨在帮助学生快速提升科研能力[3] - 辅导覆盖自动驾驶多个前沿技术方向,包括端到端、VLA、世界模型、强化学习、3D目标检测、多传感器融合、BEV感知、Occupancy Network、轨迹预测、运动规划、扩散模型等[4] - 提供的服务内容包括论文选题、论文全流程指导、实验指导以及申博指导[12] - 支持不同级别的论文发表需求,涵盖自动驾驶顶会/顶刊(如CVPR、AAAI)、SCI各分区、中科院分区期刊、EI/中文核心以及毕设、比赛等[13] - 宣称其中稿率很高,已有辅导成果被CVPR、AAAI、ECCV、CoRL、ICLR等多个顶级会议或期刊收录[9] - 辅导价格根据目标论文级别不同而有所差异[10]
北交&地平线提出DIVER:扩散+强化的多模态规划新框架
自动驾驶之心· 2025-12-17 03:18
文章核心观点 - 当前主流端到端自动驾驶系统存在模仿学习范式导致的“模式坍塌”问题,即模型倾向于生成高度聚集在单一专家轨迹附近的行为,缺乏真正有意义的行为多样性,限制了在复杂场景下的决策能力 [2][7] - 研究团队提出了一种名为DIVER的新型多模态规划框架,该框架将扩散模型的多模态生成能力与强化学习的目标约束机制相结合,将轨迹生成从“单一模仿回归问题”转化为“在安全与多样性约束下的策略生成问题” [3][9] - DIVER框架在多个公开基准测试中表现优异,在显著提升轨迹多样性的同时保持了低碰撞率,展现出更强的复杂场景适应能力,为构建更灵活、更接近人类决策的自动驾驶系统提供了新的技术路径 [3][33][34] 研究背景与问题 - 端到端自动驾驶系统在真实测试中表现出行为过于保守和模式单一的问题,难以应对复杂交通场景 [5] - 问题的根源在于主流方法依赖单一专家示范的模仿学习范式,模型被迫去拟合一条“唯一正确”的专家轨迹,即使引入多模态规划,生成的候选轨迹也高度聚集在真实轨迹附近,缺乏真正的行为多样性 [2][6][7] - 人类驾驶在相同场景下会展现出减速、并线、绕行或等待等多种行为,当前模型缺乏这种在行为多样性与安全约束之间取得平衡的能力 [8] DIVER框架核心技术 - 核心思想是不再把轨迹生成当作拟合真实轨迹的回归问题,而是当作在安全与多样性约束下的策略生成问题 [11][12] - 框架构建了“扩散生成 + 强化学习优化”的完整流程,主要包括:策略感知扩散生成器、参考真实轨迹引导的多模态扩散、以及基于GRPO的强化学习优化 [11][12] - 策略感知扩散生成器是核心模块,它在扩散去噪过程中引入地图、动态物体、参考轨迹等条件信息,使生成的每条轨迹都具备清晰语义与可行性 [16][18] - 采用多参考真实轨迹引导机制,从专家轨迹中构建多个参考真实轨迹,并使用匈牙利匹配进行一对一监督,为每个预测模式明确赋予一种驾驶意图,从源头上避免模式坍塌 [20][21] - 采用分组相对策略优化强化学习方法,为生成的轨迹引入多样性、安全、轨迹一致性与车道保持等多种轨迹级奖励,确保在探索多样性的同时保持驾驶质量 [22] 性能评估与结果 - 在Bench2Drive闭环评测中,DIVER在多项关键指标上显著优于UniAD、VAD、SparseDrive、DiffusionDrive等方法 [28] - 在Turning-nuScenes数据集的评测中,DIVER的轨迹多样性显著更高,同时碰撞率最低。例如,在平均多样性指标上达到0.31,优于对比方法的0.21、0.23和0.20;平均碰撞率为0.27%,低于对比方法的0.40%、0.34%和0.32% [29][30][31] - 在nuScenes验证集的6秒长时预测任务中,DIVER在多样性上大幅领先,同时保持最低碰撞率。例如,在3秒时多样性为0.75,碰撞率为1.91%,均优于对比方法 [32] - 文章总结DIVER展示了显著更高的轨迹多样性、更低的碰撞率、更稳定的长时规划能力以及更强的复杂场景泛化能力 [33][36]
华科&小米联合提出MindDrive:首个证实在线强化学习有效性的VLA框架......
自动驾驶之心· 2025-12-17 00:03
文章核心观点 - 华科与小米团队提出了一种名为MindDrive的新型自动驾驶视觉-语言-动作框架,该框架创新性地采用在线强化学习进行训练,有效解决了传统模仿学习方法面临的分布偏移和因果混淆等挑战,并在Bench2Drive基准测试中取得了优异的性能,驾驶得分达78.04分,成功率达55.09% [2][4][8][17][34] 背景与挑战 - 当前自动驾驶视觉-语言-动作模型主要依赖模仿学习,这会导致因果混淆和分布偏移,进而在闭环驾驶中产生不可逆的误差累积 [4] - 将在线强化学习应用于自动驾驶VLA模型面临连续动作空间中探索效率低下的难题 [2] - 现有强化学习应用分为两类:在动作空间使用离线强化学习,限制了模型与环境交互探索的能力;在语言空间使用在线强化学习,但难以将驾驶决策有效映射为类人的具体驾驶轨迹 [5] MindDrive框架设计 - MindDrive的核心架构包含两个共享视觉编码器和文本分词器、但配备不同LoRA参数的大语言模型:一个作为决策专家负责场景推理和驾驶决策,另一个作为动作专家负责将语言决策动态映射为可行驶轨迹 [2][8][11] - 该框架通过将轨迹级奖励反馈至推理空间,使模型能在有限的离散语言驾驶决策集合上进行试错学习,而非直接在连续动作空间中操作,从而平衡了最优决策、类人驾驶行为与探索效率 [2][8] - 训练过程分为两个阶段:首先通过模仿学习在决策专家推断的元动作与动作专家输出的轨迹之间建立一一对应关系,为在线强化学习提供高质量候选轨迹;随后利用在线强化学习对决策专家进行优化 [8][11][18] 在线强化学习实施方案 - 基于CARLA仿真器构建了面向VLA模型的在线闭环强化学习框架,定义了明确的任务成败信号,并将过程划分为数据收集和训练两个阶段 [8] - 采用稀疏奖励函数:成功到达目的地奖励+1,触发碰撞、闯红灯等预定义惩罚事件奖励-1,其他情况奖励为0 [25][26] - 采用近端策略优化算法优化策略,并引入KL散度损失作为正则化项以缓解强化学习微调阶段的灾难性遗忘问题 [28][30][32] - 通过视觉编码器预计算场景令牌作为紧凑状态表示,降低了内存开销,支持大批量训练,并将过程表述为标准马尔可夫决策过程 [8][15] 实验结果与性能 - 在Bench2Drive基准测试中,MindDrive取得了78.04的驾驶得分和55.09%的成功率 [2][17][34] - 即使采用轻量级的Qwen2-0.5B参数模型,其驾驶得分比相同参数规模的强基线模型高出5.15分,成功率高出9.26个百分点 [2][34] - 相较于仅使用模仿学习的版本,在线强化学习使驾驶得分提升2.19分,成功率提升5.79个百分点 [34][38] - 在视觉-语言-动作范式中,MindDrive性能与使用更大规模模型的最先进模仿学习方法相当,并超越了其他离线强化学习方法 [34][38] 消融实验发现 - 逐步引入碰撞、交通灯、路线偏离、停车等惩罚事件能持续提升模型性能,最终版本相比模仿学习基准成功率提升5.79个百分点 [36] - 在线强化学习过程中,将滚动次数设为2次能取得最佳性能,过多滚动会导致灾难性遗忘和性能下降 [37] - 采用KL散度正则化的PPO算法相比基础PPO和熵正则化PPO,能更有效地稳定训练,驾驶得分分别提升3.31分和2.33分 [40] - 使用大语言模型生成的元动作作为高层指令,相比使用导航指令,驾驶得分提升7.74分;在此基础上引入在线强化学习可进一步优化元动作选择 [41] 意义与贡献 - 据研究团队所知,这是首个证实在线强化学习对自动驾驶视觉-语言-动作模型有效性的研究,也是首个在仿真器中通过在线强化学习训练的基于VLA的自动驾驶模型 [2][8][44] - 该工作为自动驾驶领域带来了新的启发,展示了通过语言接口和在线试错来提升模型因果推理与决策鲁棒性的潜力 [8][44]
厘米级精度的三维场景实时重构!这款激光扫描仪太好用了~
自动驾驶之心· 2025-12-17 00:03
以下文章来源于3D视觉之心 ,作者3D视觉之心 3D视觉之心 . 3D视觉与具身智能、机器人相关内容分享。 最强性价比3D激光扫描仪 GeoScan S1是国内目前最强性价比实景三维激光扫描仪,轻量化设计,一键启动,便可拥有高效实用的三维解决 方案。以多模态传感器融合算法为核心,实现厘米级精度的三维场景实时重构。可广泛用于多种作业领域。 每秒20万级点云成图,70米测量距离,360°全域覆盖,支持20万平米以上的大场景,扫描可选配3D高斯数据采 集模块,实现高保真实景还原。支持跨平台集成,配备高带宽网口及双USB 3.0接口,为科研实验提供灵活扩展 空间。降低开发门槛,助力开发者快速掌握研发能力,开启更多可能。 GeoScan S1设备自带手持Ubuntu系统和多种传感器设备,手柄集成了电源,可通过D-TAP转XT30母头输出至 GeoScan S1设备本体,给雷达、摄像头以及主控板提供电源。 欢迎联系小助手,进一步咨询细节 基础版重建效果一览! 使用门槛低 :操作简单直观,一键启动即可 执行扫描作业 扫描结果导出即用 :无需复杂部署和繁琐处理,扫 描结果导出即用 高效率高精度建图 :模型精度高,行走之间轻松 ...
复旦最新一篇DriveVGGT:面向自动驾驶,高效实现多相机4D重建
自动驾驶之心· 2025-12-17 00:03
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Xiaosong Jia等 编辑 | 自动驾驶之心 自动驾驶中的4D场景重建是实现环境感知与运动规划的关键环节,然而传统视觉几何模型在多相机、低重叠的自动驾驶场景中往往表现不佳。 来自上海交大、复旦等机构的研究者提出 DriveVGGT,一种专为自动驾驶设计的视觉几何Transformer,通过显式引入相机相对位姿先验,显著提升了多相机系统的几 何预测一致性与推理效率。 更多自动驾驶的行业信息、技术进展,欢迎加入自动驾驶之心知识星球获取! 背景介绍 4D重建是一项从视觉传感器预测几何信息的计算机视觉任务。与其他传感器相比,基于相机的重建因其低成本而在各个领域,尤其是在自动驾驶和机器人学中,得到 了广泛的研究和应用。通常,重建方法有两种类型。第一种是基于迭代的方法,例如。这些方法需要选择特定的场景或物体,并通过迭代重建来获得优化结果。然 而,由于泛化能力不足,当场景或物体发生变化或修改时,基于迭代的方法需要重新训练模型。第二种是前向方法。这些方法 ...