Workflow
自动驾驶之心
icon
搜索文档
清华&小米最新DGGT:0.4秒完成4D自驾高斯重建,性能提升50%!
自动驾驶之心· 2025-12-08 00:02
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 DGGT详解 DGGT 的核心思想是 :一次前向就预测出"完整的4D场景状态",并把相机位姿从前提变成结果。这使得系统无需外参标定即可从稀疏、未标定图像里恢复动态场 景,而且能自然跨数据集部署。图1展示了DGGT 的整体能力与速度-精度位置:在 0.4 秒 量级完成重建的同时,DGGT 在重建质量上超越一系列前向与优化方法,并 将 相机姿态、深度、动态分割、3D Gaussian、追踪 等输出一并给出,便于后续 实例级场景编辑 。 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Xiaoxue Chen等 编辑 | 自动驾驶之心 清华大学与小米汽车联合推出 DGGT(Driving Gaussian Grounded Transformer):一个pose-free、feed-forward的4D动态驾驶场景重建框架。 DGGT 只需未标定的稀疏图像,单次前向即可同时输出相机位姿、深度、动态实例与基于 3D Gaussian 的可编辑场景表示。模型在 Waymo 上训练,却能在 nuScen ...
入门自动驾驶实操,全栈小车黑武士001性价比拉满了!
自动驾驶之心· 2025-12-08 00:02
产品概述 - 公司推出“黑武士001”自动驾驶全栈小车,定位为教研一体轻量级解决方案,旨在解决科研级平台价格高昂与教学套件不完整、上手慢的痛点 [2][4] - 该产品核心优势在于性价比高,售价为36999元,并宣称能快速上手,支持感知、定位、融合、导航、规划等多个自动驾驶功能平台 [2][4] - 产品目标用户包括本科生学习与比赛、研究生科研与求职、高校实验室以及职业培训机构 [4] 硬件配置 - 主要传感器包括:Mid 360 3D激光雷达(探测范围0.1m-40m,FOV 360°*59°)、镭神智能2D激光雷达(最大范围25m)、奥比中光Gemini2深度相机(测量范围0.15-5m,深度精度≤2%)以及LPMS-BE2 IMU(采样率100Hz) [22][31] - 计算单元采用NVIDIA Jetson Orin NX核心开发板,配备16GB RAM,AI算力为100 TOPS [34] - 底盘采用阿克曼转向结构,车体尺寸为620mm x 400mm x 320mm(长x宽x高),自重30kg,最大载荷30kg,最大运动速度可达2m/s,续航时间大于4小时 [23][25][26] 软件与功能 - 软件基于ROS框架,支持C++和Python语言开发,提供一键启动和完整的开发环境 [28] - 支持丰富的自动驾驶功能,包括2D/3D激光SLAM、视觉惯性SLAM、多传感器融合SLAM、点云3D目标检测、2D目标检测与分割、车辆导航与避障等 [29] - 产品说明书详细列出了从系统启动、传感器驱动到各功能模块使用的完整操作流程 [30][41] 效果展示与测试 - 产品在多种场景下进行了功能测试,包括户外公园行驶、室内地库2D/3D激光建图、上下坡以及室外夜间行驶等,展示了其感知、定位、导航规划等能力的适应性 [6][8][12][14][16][18][20] - 具体功能展示包括点云3D目标检测和室外大场景3D建图 [10][18] 销售与售后 - 产品当前正式开售,购买即赠送模型部署、点云3D检测及多传感器融合三门课程 [2] - 提供1年非人为损坏保修服务,保修期内因个人操作或代码修改导致的损坏提供免费维修,但邮费需用户自理 [52]
从 LLaVA 到 Qwen3-VL:解构多模态大模型的演进之路
自动驾驶之心· 2025-12-08 00:02
作者 | 我要吃鸡腿 编辑 | 大模型之心Tech 原文链接: https://zhuanlan.zhihu.com/p/1963658684765833212 本文只做学术分享,已获转载授权 ,欢迎添加小助理微信AIDriver004做进一步咨询 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 引言:当 AI 睁开双眼,我们看到了一个怎样的未来? 曾几何时,我们对人工智能的印象还停留在那个聪慧但略显"盲目"的"数字大脑"上——它能写诗、能编程、能回答深奥的哲学问题,但这一切都局限 于冰冷的文本世界。然而,就在最近两年,一场深刻的变革正在悄然发生。 您或许已经惊叹于 GPT-5 那般流畅自如的实时图片对话,它能"看到"您房间的布局并给出整理建议;又或者,您可能对 Qwen3-VL 直接"注视"着手 机屏幕、精准地点击按钮、操作应用程序的能力感到不可思议。AI 不再仅仅是一个"只会读书"的语言模型,它正在进化成一个能听、会看、可交互 的"智能体",真正地睁开了双眼,开始感知和理解我们所处的这个五彩斑斓的物理世界。 这场从"符号"到"感知"的飞跃,背后究竟隐藏着怎样的技术密码 ...
端到端岗位求职:核心算法&实战讲解(7个project)
自动驾驶之心· 2025-12-08 00:02
行业招聘与技能需求变化 - 自动驾驶行业招聘需求正发生变化,两年前热门的感知岗位需求进一步收缩 [2] - 当前行业需求较高的方向集中在端到端、VLA(视觉语言动作模型)、世界模型等领域 [2] - 头部玩家已验证端到端技术路径可行,其他车企正跟进投入模型、场景、数据优化及规划兜底等方面的人力和资源 [2] - 市场面临人才技能与岗位需求不匹配的挑战,相关岗位技术栈广泛,但候选人往往只精通部分领域 [2] - 具体的量产经验,如导航信息引入、强化学习调优、轨迹建模与优化等,是实际落地中的关键痛点 [2] 课程核心内容与结构 - 课程名称为《面向量产的端到端实战小班课》,核心重点是聚焦量产应用 [2] - 课程设计历时三个月,内容从实战到落地层层展开 [2] - 课程涵盖核心算法包括:一段式端到端、两段式端到端、导航信息的量产应用、开闭环强化学习、扩散模型+强化学习、自回归+强化学习、时空联合规划等 [2] - 课程最终会分享实际的量产经验 [2] - 课程采用小班教学模式,仅剩20个招生名额 [2][4] - 课程面向进阶学员,建议具备自动驾驶BEV感知、视觉Transformer、端到端算法、强化学习、扩散模型理论基础,以及Python、PyTorch、mmdet3d框架等技能基础 [16] - 课程为离线视频教学,辅以VIP群答疑和三次线上答疑,开课时间为11月30日,预计三个月结课 [15][17] 技术发展趋势与课程章节详解 - **端到端任务概述**:在端到端时代,感知任务合并与规控算法学习化已成为绝对主流,如何高效合并感知任务及设计学习化规控模块是行业核心技能 [7] - **两段式端到端算法**:章节介绍两段式框架的建模方式、感知与规划控制的信息传递,分析其优缺点,并通过PLUTO算法进行实战讲解 [8] - **一段式端到端算法**:一段式框架可实现信息无损传递,性能上优于两段式方案,章节将学习基于VLA、扩散模型等多种方案,并以VAD系列进行深入教学 [9] - **导航信息的量产应用**:导航信息在自动驾驶中起引导、选路、选道作用,章节介绍主流导航地图格式、内容及其在端到端模型中的编码与嵌入方式 [10] - **自动驾驶中的强化学习算法**:纯模仿学习存在局限,需结合强化学习以学习因果关系并实现泛化,章节重点介绍强化学习算法及其训练策略 [11] - **端到端轨迹输出优化**:章节进行NN Planner项目实战,涵盖基于模仿学习的扩散模型与自回归算法,以及在监督微调后结合强化学习的实战 [12] - **兜底方案-时空联合规划**:为应对模型输出非100%准确,量产需轨迹平滑优化等后处理兜底逻辑,章节介绍多模态轨迹打分搜索及轨迹平滑算法 [13] - **端到端量产经验分享**:最终章节从数据、模型、场景、规则等多视角分享量产经验,剖析如何选用合适工具与策略以提升系统能力边界 [14] 讲师背景 - 讲师王路拥有C9本科和QS50高校博士学位,已发表若干CCF-A和CCF-B论文 [4] - 现任国内顶级Tier1供应商算法专家,从事大模型、世界模型等前沿算法的预研与量产工作 [4] - 所研发算法已成功落地并量产,拥有丰富的端到端算法研发和实战经验 [4]
已经有7所高校,在悄悄地设立具身专业了
自动驾驶之心· 2025-12-07 02:05
行业趋势:高校教育布局 - 国内多所顶尖高校正在积极申请增设“具身智能”本科专业,表明该前沿领域正受到高等教育体系的高度重视,旨在系统化培养专业人才 [1] - 根据教育部公示名单,共有8所“双一流”高校申请增设该专业,包括北京航空航天大学、北京理工大学、北京邮电大学、东北大学、上海交通大学、浙江大学、西安交通大学 [1][2] 专业设置详情 - **北京航空航天大学**:专业设置在机械工程与自动化学院,依托于2017年开设的机器人工程和2019年开设的人工智能专业建设经验,学制四年,属于交叉工程类,年度计划招生30人 [3][4] - **北京理工大学**:专业设置在人工智能学院,依托人工智能、机器人工程、自动化等学科建设经验,学制四年,年度计划招生120人 [6] - **北京邮电大学**:专业设置在人工智能学院,依托人工智能专业建设经验,年度计划招生30人 [8] - **浙江大学**:专业归属于控制科学与工程学院,依托机器人工程、人工智能等学科建设经验,年度计划招生30人 [11] 人才需求与就业导向 - **北京航空航天大学**:预计年度招生的30人中,有20人升学,10人就业;调研显示宇树科技、九号机器人、邀博机器人、智元机器人、度量科技、青瞳视觉等公司存在人才需求 [5] - **北京理工大学**:预计年度招生的120人中,有70人升学,50人就业;调研显示中国兵器工业集团、中国航天科技集团、北汽集团、华为、阿里巴巴、宇树科技、比亚迪、小米、顺丰、字节跳动、腾讯等公司存在人才需求 [7] - **北京邮电大学**:预计年度招生的30人中,升学与就业各15人;调研显示北京字节跳动、美团、阿里巴巴、中国航空集团、北京人形机器人创新中心、亿航智能、中国电信、华为、小鹏汽车、傅利叶智能等公司存在人才需求 [9][10] - **浙江大学**:预计年度招生的30人中,有20人升学,10人就业;调研显示杭州云深处科技、微分智飞、深圳元戎启行、逻腾科技、比亚迪、中车株洲所、浙江大学湖州研究院、杭州华为、中航西飞以及选调生项目存在人才需求 [12]
NeurIPS 2025|智源&清华带来自驾重建新SOTA!
自动驾驶之心· 2025-12-07 02:05
文章核心观点 - 北京智源人工智能研究院与清华大学智能产业研究院提出了一种创新的多尺度双边网格框架,旨在解决自动驾驶三维场景重建中因光照变化、视角差异和动态物体导致的光度不一致与几何不准确问题 [5] - 该方法统一了外观编码的全局调整能力和双边网格的像素级调整能力,通过从粗到细的三层网格架构,实现了对场景从全局光照到局部细节的逐级优化,显著提升了重建的几何精度与视觉质量 [11][13][15] - 在Waymo、NuScenes、Argoverse和PandaSet等多个主流自动驾驶数据集上的实验表明,该方法在多项关键指标上超越了现有技术,尤其在复杂动态和极端光照场景下表现出更强的鲁棒性 [5][19][27] - 该框架可作为即插即用模块集成到其他先进场景重建模型中,通用性强,能为其带来显著的性能提升 [25] - 该研究已被人工智能顶级会议NeurIPS 2025接收,标志着其在学术上获得了高度认可 [6] 主要方法 - 研究采用高斯溅射技术对驾驶场景进行建模,将场景分解为天空、静态背景和动态物体进行独立建模 [14] - 核心创新在于提出了一个三层次的多尺度双边网格架构,用于对初步渲染图像进行色彩校正 [15] - **粗层级**:使用小型网格捕捉并校正场景级别的全局光照和色调偏差 [15] - **中层级**:使用中等尺寸网格调整区域性光影变化,如大块阴影或光斑 [15] - **精细层级**:使用高分辨率网格进行像素级精细微调,恢复物体局部细节和材质 [15] - 采用了从粗到细的层次化光度优化策略,不同层级使用不同的学习率,并引入了两种正则化损失以确保学习效果 [16][17] - **循环正则化损失**:鼓励学到的色彩变换可逆,防止产生伪影 [16] - **自适应总变分正则化**:惩罚网格内部特征的剧烈变化,使颜色变换更平滑,减少噪声伪影 [17] - 通过一个结合了重建损失、几何损失及正则化项的复合损失函数来训练整个框架 [18] 实验结果 - **几何精度提升显著**:在Waymo数据集上,倒角距离从基准模型OmniRe的1.378降低至0.989,提升了28.2% [21]。在NuScenes数据集上,倒角距离从1.458降低至1.161 [21] - **外观一致性指标优异**:在NuScenes数据集上,峰值信噪比达到27.69,优于OmniRe的26.37;结构相似性指数达到0.847,优于OmniRe的0.837 [23] - **作为增强模块通用性强**:将核心模块集成到ChatSim和StreetGS模型中,能带来显著提升 [25] - ChatSim的重建峰值信噪比从25.10提升至27.04,几何误差从1.557降低至1.236 [26] - StreetGS的重建峰值信噪比从25.74提升至27.90,几何误差从1.604降低至1.272 [26] - **在极端场景下表现稳健**:在夜间、极端光照、反射、雨天等困难条件下,模型表现更加稳健,能更好地恢复物体细节并减少几何误差与色偏 [27][33] - **定性评估显示细节优势**:与基线方法相比,该方法在处理高光区域时能抑制过曝、还原纹理;能生成更清晰的动态物体边缘,减轻运动模糊;能生成更连贯完整的被遮挡物体几何结构;在低光照场景下能更好地提亮暗部细节并避免噪点 [35]
以理想汽车为例,探寻自动驾驶的「大脑」进化史 - VLA 架构解析
自动驾驶之心· 2025-12-07 02:05
自动驾驶技术范式演进 - 行业技术范式快速迭代,从前年的BEV(鸟瞰图视角)到去年的“端到端”(End-to-End),再到2025年的技术焦点VLA(视觉-语言-行动)模型 [1][6] - 传统的端到端(VA)模型存在“黑箱”问题,系统能做出正确操作但缺乏可解释性,引发了信任危机 [1] - 视觉语言模型(VLM)能理解和解释场景,但存在“行动鸿沟”,其输出停留在语言层面,无法直接控制车辆 [3] - VLA模型是一场彻底的范式革命,旨在融合计算机视觉、自然语言处理和强化学习,打造一个既能感知、理解又能执行动作的“可解释的大脑” [6][45] “真”端到端架构辨析 - 一个“真”的端到端驾驶系统必须是一个统一的、完整的神经网络,接收原始传感器输入并直接输出可执行的控制信号,且具备“全程可求导”特性 [8][9] - VLM的引入从架构上“打断”了端到端的闭环,因为其输出是文本而非可执行的轨迹,导致学习信号无法从车辆动作反向传播到VLM,无法受益于自动化的数据闭环驱动 [11][12][13][15][16] - 行业早期的“快慢双核”系统(如理想汽车IM智驾系统)是“半”端到端的过渡形态,它将VLM(慢系统)与传统的VA模型(快系统)拼凑,存在异步冲突、架构臃肿和信息损失、优化困难等致命缺陷 [17][18][20][21][22][26] - VLA是“真”端到端,它回归了从传感输入到轨迹输出的统一神经网络形式,实现了“全程可求导”,驾驶错误信号可以无阻碍地反向传播至整个模型,从而支持高效的数据驱动迭代 [23][25][27] VLA解决的核心痛点 - VLA旨在解决“快慢双核”架构暴露的四大核心痛点:长尾场景挑战、语义鸿沟、空间精度不高、时序建模瓶颈 [31] - 自动驾驶的最大挑战是高度语义化、非标准化的“长尾场景”,如复杂的龙门架、可变车道、临时指示等,传统VA模型无法处理 [32][33][34][35][37] - VLM虽然能理解长尾场景,但其输出的文本与车辆控制器所需的精确数值向量之间存在“语义鸿沟”,导致“行动鸿沟” [36][38][39] - 强行让VLM输出轨迹会导致空间精度不高,其基于语言生成的轨迹点易产生偏差,无法满足高精度控制要求 [40] - VLM在处理时序任务时采用叠加多帧图像的方法,会受到Token长度限制(如8K上下文窗口仅能处理约16帧,约2秒历史)和巨大计算开销的制约,无法进行长时程规划 [41][42][43][44] VLA的通用技术栈 - VLA模型通常由三个核心技术组件构成:视觉编码器(V)、语言编码器(L)和动作解码器(A) [46] - 视觉编码器是VLA的“眼睛”,负责将原始图像转换为LLM能理解的视觉令牌,主流方案包括CLIP/SigLIP和DINOv2 [48] - CLIP/SigLIP提供强大的视觉-文本对齐能力,擅长识别和描述图像内容(“是什么”) [49][51][52] - DINOv2通过自监督学习提供强大的空间理解和高级视觉语义能力(“在哪里/怎么样”) [52] - 顶尖方案(如OpenVLA)采用SigLIP + DINOv2双编码器并联,融合两者特征后通过MLP投影器对齐到LLM的令牌嵌入空间,提供全面的视觉信息 [53][55][56] - 理想汽车MindVLA采用了另一条技术路线,其V模块基于3D高斯建模进行自监督3D编码器预训练,旨在生成高保真的3D场景表示 [57][59][60] - 语言编码器是VLA的“大脑”和决策中枢,负责融合视觉与文本令牌并进行跨模态推理 [62] - 主流选择包括LLaMA家族(如LLaMA-2、Vicuna)和Qwen系列(如Qwen-2.5) [63][64][66][70] - 其工作流程是接收来自V模块的视觉令牌和用户文本指令,通过自注意力计算进行高级推理(如场景分析、动作推理),最终输出高度浓缩的“动作令牌”或“规划令牌”作为意图指令 [67][69][71][72] - 部署优化策略包括LoRA(低秩适应)轻量化微调和MoE(混合专家)架构,理想汽车MindVLA则自研了名为MindGPT的LLM,专为3D驾驶场景和车端实时推理设计 [73][74][75][79] - 动作解码器是VLA的“手脚”,负责将“大脑”输出的意图令牌解码为真实、物理、可执行的控制信号 [76][77][80] - 基于扩散的Transformer是目前最受青睐的“黄金标准”方案,因其擅长建模复杂多模态动作分布,能生成细粒度、平滑、“拟人化”的轨迹 [81][82] - 其他主流方案包括自回归Transformer头、MLP预测器头和嵌入式MPC/规划头 [86] - Diffusion模型通过“迭代去噪”工作,为满足实时性要求,MindVLA等架构采用了ODE采样器等技术将去噪步骤压缩到2到3步内完成 [82] VLA的四个进化阶段 - VLA架构的演进经历了四个清晰的阶段,语言在系统中的角色从被动“解释器”逐步演变为主动“决策核心” [84][85] - 阶段一:语言模型作为“解释器”(Pre-VLA),如DriveGPT-4,其核心目标是增强系统可解释性,输出场景描述或高阶操纵标签,但存在“语义鸿沟”,对实际驾驶帮助有限 [88][89][90] - 阶段二:模块化VLA模型,语言演变为模块化架构中主动的规划组件,如OpenDriveVLA、DriveMoE、RAG-Driver,通过生成可解释的中间表示来指导动作执行,但存在多阶段处理带来的延迟和级联错误风险 [91][92][93][94][97] - 阶段三:统一的端到端VLA模型,在一个单一、可微分的网络中无缝整合感知、语言理解和动作生成,代表作包括EMMA、LMDrive、CarLLaVA和SimLingo,它们通过“行动构想”等技术在语言理解和轨迹输出间建立紧密耦合,反应灵敏但长时程规划和细粒度决策解释能力仍存局限 [95][96][98][99][100][101] - 阶段四:推理增强的VLA模型,这是最新前沿阶段,将VLM/LLM提升为系统的“决策核心”,赋予其“思考”能力,代表作如ORION、Impromptu VLA和AutoVLA,它们将“思维链”与“行动”进行端到端对齐,在输出动作前先进行解释、预测和长时程推理,预示了“可对话的自动驾驶汽车”的未来,但也带来了实时性、记忆索引和安全验证等新挑战 [102][103][104][106]
死磕技术的自动驾驶黄埔军校,又更新了这些技术进展......
自动驾驶之心· 2025-12-07 02:05
文章核心观点 - 文章旨在推广“自动驾驶之心知识星球”社区,该社区定位为国内首个自动驾驶全栈技术交流平台,汇集学术界与工业界资源,为从业者及学习者提供全面的技术内容、学习路线、行业资讯及求职内推服务 [8][25] - 社区核心价值在于降低行业入门壁垒,通过体系化的知识梳理和专家互动,帮助成员应对技术快速迭代和行业竞争,目标是打造一个近万人的技术分享与交流聚集地 [8][26] 社区概况与规模 - 社区已运营超过三年,是一个集视频、图文、学习路线、问答、求职交流为一体的综合类自动驾驶社区 [8] - 目前社区成员已超过4000人,成员来自近300家机构与自动驾驶公司,目标在未来2年内做到近万人的规模 [8][104] - 社区成员背景多元,包括上海交大、北京大学、CMU、清华大学等国内外知名高校实验室,以及蔚小理、地平线、华为、英伟达、小米汽车等头部公司 [25] 内容体系与技术覆盖 - 社区内部梳理了超过40个自动驾驶技术方向的学习路线,内容全面覆盖从基础到前沿的各个领域 [11][14] - 技术方向具体包括:自动驾驶感知(如BEV感知、3D目标检测)、规划控制、端到端自动驾驶、VLA(视觉-语言-动作模型)、世界模型、多传感器融合、自动驾驶仿真、3DGS(3D Gaussian Splatting)、NeRF、扩散模型、Occupancy Network、视觉语言模型(VLM)、在线高精地图等 [11][16][25][34][45][47][49][51][53][56][58][60][64][65] - 提供了近60个自动驾驶相关数据集的汇总,包括通用CV数据集、感知数据集、轨迹预测数据集,并详细梳理了自动驾驶VLM的预训练、微调及思维链数据集 [43] - 汇总了近40个开源项目,涵盖3D目标检测、BEV感知、世界模型、自动驾驶大模型等多个领域,助力快速上手实践 [41] 学习资源与课程 - 社区提供原创的系列视频教程,涵盖感知融合、多传感器标定、SLAM与高精地图、决策规划与轨迹预测、自动驾驶数据工程、2D/3D目标跟踪、自动驾驶仿真、端到端自动驾驶及大模型技术等八大方向 [17] - 为入门者准备了全栈方向的学习课程,包括数学基础、计算机视觉、深度学习、编程等资料,以及经典书籍和课程课件汇总,适合0基础学习者 [16][19] - 设有“自动驾驶100问”系列专题,内容涉及TensorRT模型部署、毫米波雷达融合、车道线检测、规划控制面试、BEV感知、相机标定、3D&4D毫米波雷达等工程实践问题 [16] 行业交流与活动 - 社区不定期邀请一线学术界与工业界大佬进行直播分享,目前已举办超过一百场专业技术直播,内容可反复观看 [12][92] - 直播分享主题前沿,例如:完全开源性能SOTA的端到端VLA模型“Impromptu VLA”、基于快慢神经符号系统的道路拓扑推理、让自动驾驶用自然语言交流的V2X研究、通用3D检测基础模型“DetAny3D”、基于扩散模型的规划算法“Diffusion Planner”等 [93] - 社区内部建立了与多家自动驾驶公司的岗位内推机制,可第一时间将成员简历推送给心仪公司 [17] - 日常交流问题涵盖技术学习、职业发展、行业趋势等,例如:端到端自动驾驶如何入门、多传感器融合就业前景、业内公司跳槽选择、博士研究方向等 [11][15][30] 社区特色与附加价值 - 社区致力于解答成员的各类实用问题,并提供快速解答,方便应用到实际项目中 [11] - 汇总了国内外自动驾驶与机器人领域的高校实验室和公司信息,为成员升学、求职提供参考 [35][37] - 打造了一个交流+技术分享的聚集地,旨在让初学者快速入门,让进阶者提升技能,并结交行业人脉 [8][26]
从SAM1到SAM3,Meta做了什么?
自动驾驶之心· 2025-12-06 03:04
Meta在视觉AI模型SAM系列的技术演进 - 公司从2023年发布SAM1开始,开创了“可提示图像分割”领域,通过简单的图像框选、点击或语义提示完成图像分割,标志着计算机视觉技术进入新时代 [1] - 2024年发布的SAM2在架构上进行了重要优化,增强了对视频分割和动态场景的支持,提升了模型的稳定性和精度,并强化了对多个实例的跟踪能力 [3] - SAM3相比于前两代实现了飞跃,不仅在精度上达到全新高度,还拥有更强大的多模态支持,能够通过语音、文本、图像等多种输入方式进行精准物体分割 [3] - SAM3通过全新的Promptable Concept Segmentation任务,在开放词汇概念分割和多物体跟踪方面达到了前所未有的精准度和灵活性,能够识别并分割任何指定的对象 [3] SAM系列模型的技术指标对比 - 模型尺寸:SAM1较小,适用于实时推理;SAM2优化了结构更高效;SAM3增强了计算能力,支持更复杂任务 [4] - 推理速度:SAM1支持实时单物体分割;SAM2提升了视频分割能力;SAM3支持实时视频与图像分割及多物体处理 [4] - 支持的提示方式:SAM1支持图像框选、点击;SAM2加强了视频跟踪功能;SAM3支持多模态提示:图像、文本、语音 [4] - 多物体跟踪:SAM1仅支持单一物体分割;SAM2支持视频中的多物体跟踪;SAM3实现更高精度的多物体跟踪与标识 [4] - 长上下文处理:SAM1限制性较强;SAM2增强了视频帧间关联;SAM3支持长上下文语义推理,提升视频场景分析能力 [4] - 开源贡献:SAM1为基础版本;SAM2加强了稳定性和效率;SAM3完全开源,涵盖更多应用场景 [4] SAM3的核心技术架构与组件 - 核心技术是Promptable Concept Segmentation,使模型不仅能分割物体,还能根据概念进行识别,例如识别所有“红色车”实例 [11] - 检测器模块是核心组件,负责生成物体的分割掩码、边界框和物体评分,接收来自图像编码器和文本编码器的输入 [16] - 文本编码器将文本输入转化为模型可理解的特征向量,示例编码器处理输入的示例图像以帮助模型理解目标物体 [18][22] - 跟踪器用于在视频连续帧之间追踪已检测到的物体,确保分割结果的一致性;记忆库存储已检测物体信息,帮助在多个帧之间保留对物体的理解 [18] - 多模态解码器负责将来自文本和图像的特征融合,通过跨模态解码操作生成分割结果,使模型在理解复杂提示和场景时更为灵活 [19] - 检测解码器通过自注意力和交叉注意力机制融合多模态信息,生成物体的边界框、分割掩码等信息;Heads模块通过迭代框体细化提高检测精度 [22] SAM3在基准测试中的性能表现 - 在实例分割任务LVIS数据集上,SAM3的cgF1得分为37.2,AP得分为48.5,显著优于OWLv2的20.1 cgF1分 [21] - 在概念分割任务SA-Co数据集上,SAM3的Gold cgF1为54.1,Silver为49.6,Bronze为42.6,pmF1为55.4,全面领先于对比模型 [21] - 在目标检测任务COCO数据集上,SAM3的AP为53.6,APo为56.4,表现优于OWLv2的AP 35.2和APo 38.2 [21] - 在语义分割任务ADE-847数据集上,SAM3的mIoU为60.8,在PC-59 Cityscapes数据集上mIoU为65.2 [21] - 在ODinW13数据集上,SAM3的APo为61.0,AP10为71.8,表现优于gDino1.5-Pro的APo 58.7和AP10 67.9 [21] - 在多模态输入评估中,SAM3的T+I模式在LVIS数据集上AP+达到63.1,在ODinW13数据集上AP+达到81.8,证明了其多模态结合的优势 [21] SAM3 Agent与大型语言模型结合的应用 - 公司将SAM3与MLLMs组合,例如使用Qwen2.5-VL、GPT-4等生成复杂文本查询来指导SAM3执行物体分割任务 [21] - SAM3 Agent在ReasonSeg数据集上,结合Qwen2.5-VL 72B时,测试集gIoU达到70.8,结合Gemini 2.5 Pro时达到74.0 [24] - 在Omnilabel数据集上,SAM3 Agent结合Gemini 2.5 Pro在val 2023集上的AP达到45.3,超越了Overall state-of-the-art的36.5 [24] - 结合MLLM后,SAM3 Agent在多个数据集上进行了零-shot测试,证明了其强大的推理能力和灵活性,在ReasonSeg和OmniLabel任务中表现出色 [29] SAM3的技术优势与行业影响 - 模型在不同数据集上均展现优越性能,特别是在零-shot学习和多模态输入上,能在没有大量标注数据的情况下进行有效的物体分割 [23] - 多模态能力强,结合文本提示和图像示例时,通过T+I模式显著提升分割效果,证明了其在多模态任务中的优势 [23] - 具备强大的跨任务适应能力,在多种不同任务和数据集上表现出色,特别是在实例分割和概念分割任务中展示了强大的泛化能力 [23] - 技术演进从SAM1打开视觉分割新纪元,到SAM2精准捕捉动态视频场景,再到SAM3穿越复杂的多模态场景,在智能家居、医疗影像、自动驾驶等领域发挥巨大影响 [25][26]
3DGS论文原理与论文源码学习,尽量无痛版
自动驾驶之心· 2025-12-06 03:04
3D高斯泼溅技术趋势与课程内容 - 3D高斯泼溅技术正逐步取代神经辐射场技术,因其技术实现相对更容易[2] - 该技术已获得广泛应用,尤其是前馈式3D高斯泼溅技术近期备受关注[3] 课程结构与学习路径 - 课程共分六章,从背景知识到前沿研究方向系统展开[6][7][8][9][10][11] - 课程采用离线视频教学,配合VIP群答疑与三次线上交流,学习周期预计两个半月[13] - 课程内容设计耗时两个月,旨在提供从理论到实战的完整学习路线图[3] 核心技术模块详解 - **第一章**:涵盖计算机图形学基础,包括三维空间表达、渲染管线及光线追踪,并介绍COLMAP、Gsplat等主流开发工具,附带基于3D Real Car的实践作业[6] - **第二章**:深入讲解3D高斯泼溅原理、核心伪代码及动态重建、表面重建等算法,实战部分使用英伟达开源的3DGRUT框架[7] - **第三章**:聚焦自动驾驶仿真重建,解析Street Gaussian、OmniRe及Hierarchy UGP等关键工作,实战选用DriveStudio框架[8] - **第四章**:探讨COLMAP扩展、深度估计及重照明等重要研究方向,并分析其工业应用与学术前景[9] - **第五章**:梳理前馈式3D高斯泼溅的发展历程与原理,讲解AnySplat和WorldSplat等最新算法[10] 讲师背景与课程特色 - 讲师Chris拥有QS前20大学硕士学位,现任某Tier1厂商算法专家,在端到端仿真、多模态大模型及三维重建领域具备丰富经验[3] - 课程提供与学术界及工业界同行持续交流的机会,旨在帮助学员掌握完整技术栈并提升就业竞争力[15] - 课程设有早鸟优惠,名额仅限20名[3][16] 目标学员与先决条件 - 课程面向希望入门或深化3D高斯泼溅技术的学习者,对实习、校招及社招均有助益[15] - 学员需自备GPU,推荐算力在RTX 4090及以上[15] - 学员需具备计算机图形学基础、对视觉重建等相关技术有一定了解,并掌握Python与PyTorch编程[15]