自动驾驶之心
搜索文档
最近做 VLA 的一些心得体会
自动驾驶之心· 2025-12-11 00:05
视觉语言模型在自动驾驶应用中的核心挑战与解决方案 - 文章核心观点:视觉语言模型在自动驾驶领域展现出潜力,尤其在可解释性方面具有优势,但其在落地应用前仍需克服幻觉、3D空间理解不足和速度慢等关键挑战,行业正通过改进感知范式、训练任务、模型交互和推理过程来应对这些问题[3] VLM应用于AD的主要问题与改进方向 - 幻觉问题具体表现为无中生有和视而不见,其根源在于静态感知,解决方案包括转向动态感知、通过多次校验或DPO减少训练数据及模型产生的幻觉、以及允许模型“回头放大看看”[3] - 3D空间理解能力不足源于预训练任务多为2D,解决方案是在训练时加入空间定位任务,例如混合具身数据,研究证明额外使用3D感知和PnC轨迹生成模块效果更好[3] - 速度慢是主要瓶颈,可通过KV Cache、Visual token压缩、以及通过混合数据和强化学习让模型学会“按需思考”并根据提示调节思考深度来优化[3] VLM在自动驾驶中的技术评估与学习范式 - 从学术评估指标看,VLA方案与基于Diffusion的方案效果不相上下,VLM的核心优势在于其可解释性[3] - 学习范式需要从模仿学习转向偏好学习,在强化学习阶段,多任务同时训练比单任务分阶段训练效果更好[3] - 防止基础模型发生灾难性遗忘的最简单有效方法是增加预训练数据[3] 提升VLM模型性能的技术路径 - 提供更丰富的监督信号有助于模型学到更好的表征,具体方式是在VLM基础上增加其他任务头,如预测下一帧画面、3D占据与流、物体检测、交通信号灯识别等,这种方式有助于实现缩放定律[3] - 思维链技术很重要,但在海量数据下应用不易,除了纯文本形式,多模态思维链正在兴起[3] - 目前VLM中视觉与语言的交互不足,限制了其作为基础模型的效果,改善思路是增强视觉-语言交互,例如Qwen3-VL使用Deepstack将图像token输入到LLM的不同层,或引入图像生成的辅助任务[3] 轨迹生成与模型评估的现状 - 轨迹的输出方式不重要,无论是VLM直接以文本输出、输出特殊token映射为轨迹,还是接扩散头生成轨迹,效果都不错,工业界主要采用扩散头生成轨迹,因其速度最快[3] - 评估面临挑战,闭环测试指标比开环差,原因包括训练目标与在线部署目标不一致,以及训练时的离线传感器数据与测试时实时观测数据分布不同[3] 关于思维链的深入探讨 - 是否需要推理时也加入视觉思维链?研究指出,仅用图像生成做思维链对视觉规划任务的指标和泛化性都有提升,例如FSDrive用图像思维链代替文本思维链可提升场景理解并降低碰撞率[3] - 让模型在思维链过程中调用工具能取得更好效果,例如调用视角、查看历史、放大、测距等[3] - 目前VLM添加思维链后在AD中效果不佳的原因包括:思维链质量不高、因果关系不强;测试集不够复杂;以及VLM基础模型本身因视觉-文本对齐不佳而无法拥有LLM的优良特性[3]
Waymo刚刚的基座模型分享:快慢双系统端到端 & 世界模型仿真
自动驾驶之心· 2025-12-10 01:28
Waymo的整体人工智能战略与核心架构 - 公司正通过将“可验证安全的人工智能”置于核心优先级来攻克自动驾驶挑战,安全是从底层设计模型与人工智能生态系统的核心准则[2] - 公司打造了一套极其先进的人工智能系统,已实现大规模安全落地于物理世界,完全自动驾驶里程已远超1亿英里[2] - 在运营区域,与人类驾驶员相比,严重事故发生率降低了十倍以上[2] - 公司的人工智能方案以Waymo基础模型为核心,支撑起统一的可验证安全人工智能生态系统,实现加速、持续的学习与迭代优化[2] Waymo基础模型:核心支柱与架构 - Waymo基础模型是一款多功能、顶尖的“世界模型”,为整个人工智能生态系统提供动力[5] - 其创新架构相比纯粹的端到端方案或模块化方案具备显著优势,充分利用习得嵌入的强大表达能力,并在训练过程中支持完整的端到端信号反向传播[8] - 模型采用“快速反应与深度思考”(系统1与系统2)的架构,包含两个不同的模型组件[10] - 两个编码器的输出接入世界解码器,该解码器利用输入数据预测其他道路使用者的行为、生成高清地图、规划车辆行驶轨迹,并为轨迹验证提供信号[11] 人工智能生态系统:三大组件与知识蒸馏 - 基于整体方案,Waymo基础模型为“驾驶员”、仿真器和评估器提供动力[12] - 公司首先将基础模型适配这三大任务,训练出大型、高质量的教师模型,然后通过安全的模型蒸馏技术,将其转化为更小的学生模型,以在保留卓越性能的同时得到更紧凑、高效的版本[12] - “驾驶员”教师模型经过训练能够生成安全、舒适且合规的动作序列,通过蒸馏技术将其世界理解能力和推理能力迁移至学生模型,优化后用于车载实时部署[14] - 仿真器教师模型能够创建高保真、多模态的动态虚拟世界,学生模型则是这些大型模型的计算高效版本,专为满足大规模仿真任务而设计[14] - 评估器教师模型能够分析驾驶行为并生成高质量的反馈信号,学生模型会分析驾驶日志,识别场景并对驾驶质量提供细致反馈[16] 关键模型组件:感知与语义理解 - 用于快速反应的传感器融合编码器作为基础模型的感知组件,能实时融合摄像头、激光雷达和雷达的输入数据,生成目标物体、语义信息及丰富的嵌入特征[15] - 用于复杂语义推理的驾驶视觉语言模型基于Gemini大模型训练而成,借助其海量世界知识,以更好地理解道路上罕见、新颖且复杂的语义场景[15] 构建持续优化的飞轮效应 - 公司内部学习循环由仿真器和评估器提供动力,利用强化学习在安全可控的仿真环境中对“驾驶员”进行大规模训练[17] - 外部学习循环基于真实的完全自动驾驶数据,评估器从海量自动驾驶经验中自动标记次优驾驶行为,生成改进后的替代行为作为训练数据,经严格测试和安全框架确认后部署到真实道路[17] - 公司完全自动驾驶里程已远超人工驾驶数据量,庞大的真实世界完全自动驾驶经验是无可替代的,将这些数据融入飞轮体系使系统能从自身海量经验中学习[19] 行业技术趋势与定位 - 基本上可以断定Waymo在跟随国内的快慢双系统端到端方案,和理想的E2E+VLM以及小鹏VLA2.0有相似之处[2]
最近Feed-forward GS的工作爆发了
自动驾驶之心· 2025-12-10 00:04
3DGS技术趋势与行业应用 - 特斯拉在ICCV的分享中引入了3D Gaussian Splatting技术,基本可以判断其基于前馈式GS算法实现[2] - 学术界近期涌现大量相关工作,例如小米的WorldSplat和清华最新的DGGT,表明3DGS技术正在自动驾驶领域焕发新一轮生机[2] - 行业普遍共识是引入前馈式GS重建场景,再利用生成技术生成新视角,目前不少公司都在开放HC招聘相关人才[2] - 3DGS技术迭代速度极快,已从静态重建3DGS、动态重建4DGS、表面重建2DGS,发展到前馈式3DGS[4] 3DGS技术课程核心内容 - 课程旨在提供一套系统的3DGS学习路线图,从原理到实战细致展开,全面覆盖3DGS技术栈[4] - 课程讲师为QS20硕士,现任某Tier1厂算法专家,从事端到端仿真、多模态大模型、世界模型等前沿算法预研和量产,拥有丰富的三维重建实战经验[5] - 课程采用离线视频教学,配合VIP群内答疑及三次线上答疑,开课时间为12月1日,预计两个半月结课[15] - 课程面向人群需自备GPU,推荐算力在4090及以上,并具备一定的计算机图形学、视觉重建、概率论、线性代数及Python和PyTorch基础[17] 课程大纲详解 - **第一章:3DGS背景知识**:从计算机图形学基础讲起,涵盖三维空间的隐式/显式表达、渲染管线、光线追踪、辐射场渲染等概念及其与3DGS的联系,并介绍COLMAP、Gsplat等开发工具,设置基于3D Real Car训练模型的小作业[8] - **第二章:3DGS原理和算法**:详细梳理3DGS原理及核心伪代码,讲解动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法,实战选用英伟达开源的3DGRUT框架[9] - **第三章:自动驾驶3DGS**:聚焦自动驾驶仿真重建,讲解浙大Street Gaussian、上交OmniRe和浙大Hierarchy UGP三篇工作,实战选用学术界和工业界广泛使用的DriveStudio框架[10] - **第四章:3DGS重要研究方向**:探讨COLMAP扩展、深度估计及Relighting等研究方向,分析其工业界服务价值与学术探索意义[11] - **第五章:前馈式3DGS**:梳理前馈式3DGS的发展历程与算法原理,讲解最新的AnySplat和WorldSplat算法工作[12] - **第六章:答疑讨论**:通过线上交流形式,组织讨论3DGS岗位需求、行业痛点及开放性问题[13]
地平线苏箐:曾一度看不到自动驾驶太多希望...
自动驾驶之心· 2025-12-10 00:04
以下文章来源于RoboX ,作者RoboX RoboX . 从AI汽车到机器人,我们关注最具潜力的超级智能体! 作者 | RoboX 来源 | RoboX 原文链接: 地平线苏箐演讲全文提炼:自动驾驶的曙光、痛苦与轮回 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 演讲者:苏箐 | 地平线副总裁&首席架构师 演讲时间 :2025.12.9 演讲场合 :2025地平线技术生态大会 全文提炼如下: 今年,我们确实能看到自动驾驶的技术路径是比较清晰的,但也会看到有更难的问题在前面。你知道这些问题能解掉,但应该怎么解今天还不知道。 绝大多数行业外的人,可能并不理解自动驾驶团队面临的困难和压力。这种智力和体力的双重压榨极度痛苦,因为有SOP的时间压在那儿,然后又有方法论的变化, 还有各种corner case需要去解。 在稠密的世界里连续运行的时候,所有的case都需要解决,这就是这个行业非常痛苦的地方。 曙光:重大分水岭的出现 我刚准备加入地平线的时候,和余凯博士聊过几次, ...
北航一篇304页的Code Agent综述!近30家机构参与
自动驾驶之心· 2025-12-10 00:04
文章核心观点 - 代码智能领域正经历从“辅助工具”到“自主开发者”的革命性转变,大语言模型已彻底改变软件开发生态,部分模型在基准测试上的成功率突破95% [2] - 一篇由28家机构联合发布的304页综述系统梳理了代码大模型的技术演进,并构建了从基础模型到智能体应用的完整技术体系 [2] - 代码智能的未来价值在于自动化重复编码工作,释放开发者在高阶创造性任务上的潜力,并成为推动研发效率、代码质量与安全性的核心基础设施 [37][38] 代码智能的演进历史 - 编程开发经历了六个阶段的演进:手动编码时代(1960s-1980s)、工具辅助时代(1980s-2000s)、框架驱动时代(1990s-2020s)、AI辅助时代(2020-2025)、AI自主时代(2025+)以及未来的代码智能时代 [8] - 演进的核心驱动力是从“规则系统”到“Transformer大模型”的技术跃迁,早期模型仅能处理单一语言的简单任务,而当前模型已能支持数十种编程语言并理解百万级token的代码仓库上下文 [9] 代码基础模型 - 主流模型分为通用大语言模型和代码专用大语言模型,二者各有优势且技术相互融合 [11] - 通用大语言模型(如GPT-4、Claude、LLaMA)因训练数据包含大量代码而具备编码能力,但存在专业性不足、安全性风险(约45%的生成代码存在已知漏洞)以及长上下文乏力等短板 [12][15] - 代码专用模型通过数据聚焦、架构优化和任务微调实现超越,其核心特征包括数据从“量”到“质”的转变、架构从“dense”到“稀疏高效”的进化,以及训练任务超越传统的“下一个token预测” [15] 模型数据与架构 - 高质量数据集如The Stack v2包含32.1TB数据、600+编程语言,并解决许可证合规问题;StarCoderData进一步过滤基准测试数据以避免模型“作弊” [16] - 架构创新围绕长上下文与高效推理展开:Dense模型(如Code LLaMA)支持长代码上下文;MoE模型(如Qwen3-Coder-480B-A35B)总参数480B但仅激活35B以兼顾能力与效率;混合架构(如Jamba)融合Transformer与Mamba层提升吞吐量 [20] 模型训练任务 - 训练任务针对代码特性设计,包括:Fill-in-the-Middle适配IDE的“光标补全”场景;多token预测提升生成效率并捕捉代码块依赖;扩散式生成(如DiffuCoder)使生成结果更具多样性且支持并行计算 [20] 代码任务与评估 - 代码任务分为三个粒度:语句/函数/类级任务(基础)、仓库级任务(进阶难点)以及智能体系统任务(终极形态) [18][19] - 基础任务包括代码补全、生成、修复与翻译,使用基准如HumanEval(164个Python任务)、MBPP(974个任务)、DebugBench(4.2k调试任务)进行评估 [21] - 仓库级任务涉及多文件生成与补全、提交信息生成及软件工程任务,基准如RepoBench、CommitBench(包含1.6M commit-diff对)以及SWE-bench Verified(包含500个人工筛选的issues) [21] - 智能体任务涉及工具使用、网页/GUI交互及终端操作,基准如ToolBench、WebArena以及Terminal-Bench(目前顶级模型成功率不足30%) [21] - 评估主流采用基于执行的指标(如Pass@k)和LLM-as-a-Judge方法(如ICE-Score从正确性、效率、可读性多维度打分) [19] 模型对齐技术 - 对齐技术分为监督微调与强化学习两类,旨在使生成代码安全、高效且符合规范 [22] - 监督微调通过“指令-代码”配对数据让模型学习,包括单轮SFT(针对简单任务)、多轮SFT(针对复杂任务)以及仓库级SFT(处理跨文件任务) [23][25] - 强化学习通过反馈信号持续优化模型,包括RLHF(基于人类反馈)、RLAIF(基于AI反馈,如Skywork-OR1在SWE-bench上实现63%修复成功率)以及RLVR(带可验证奖励,如DeepCoder以14B参数匹配34B模型性能) [25][27] - SFT与RL结合才能实现最佳对齐效果 [28] 软件工程智能体 - 软件工程智能体整合代码模型、工具与记忆,能跨越软件开发生命周期自主完成复杂工程任务 [31] - 应用场景分为四个阶段:需求工程(如Elicitron挖掘需求)、软件开发(如ChatDev多智能体协作生成项目)、软件测试(如ChatUniTest生成测试)以及软件维护(如LogRESP-Agent分析日志) [31][39] - 核心优势在于“协作”与“记忆”,目前最先进的SWE Agents(如Qwen3-Coder-480B)已能处理1M token的代码仓库,在部分场景下效率达到人类初级开发者的2倍 [31] 未来趋势 - 趋势一:从“通用”到“专用”,未来将出现更多垂直领域专用模型(如嵌入式、金融、AI框架代码模型)在特定场景超越通用模型 [33] - 趋势二:智能体自主化,从“辅助”走向“自主决策”,能自主识别生产环境漏洞、制定修复方案甚至预测问题 [34] - 趋势三:多模态融合,未来的代码智能体将融合视觉(UI设计图)、音频(会议录音)等多模态输入,实现“所见即所得”的开发体验 [35]
澳门大学首个世界模型驱动的视觉定位框架!
自动驾驶之心· 2025-12-10 00:04
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 论文作者 | Haicheng Liao等 编辑 | 自动驾驶之心 在自动驾驶的交互场景中,最尴尬的时刻莫过于此: 乘客指着前方复杂的路口说:"跟着那辆SUV"。自动驾驶系统看着眼前三辆长得差不多的车,内心OS:"哪辆?是左边那辆?还是正在变道那辆?" 现有的自动驾驶视觉定位(Visual Grounding)模型,大多像是一个" 只会看图说话 "的愣头青。它们盯着当前的这一帧画面,试图从 像素 里找答案。一旦指令模糊, 或者目标被遮挡,它们就很容易"指鹿为马",甚至引发错误推理。 人类司机为什么不会弄错?因为我们会" 预判 "。 当我们听到指令时,大脑里会瞬间推演未来的画面:左边那辆车马上要转弯了,不符合"跟着"的语境;只有中间那辆车在加速直行,才是最可能的意图。 "在行动之前,先思考未来"。 受此启发,来自[澳门大学]的研究团队提出了全新的框架 ThinkDeeper。这是首个将世界模型(World Model)引入自动驾驶视觉定位的研究。这项工作不仅刷 ...
世界模型自动驾驶小班课!特斯拉世界模型、视频&OCC生成速通
自动驾驶之心· 2025-12-09 19:00
早鸟优惠!开课即止~ 讲师介绍 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 Jason老师新课《世界模型与自动驾驶小班课》正式推出啦! 自动驾驶之心联合 工业界大佬 共同开展,先前的《端到端与VLA自动驾驶小班课》备受大家好评,因 此我们进一步推出这门世界模型小班课, 课程聚焦于通用世界模型、视频生成、OCC生成等世界模型算法,涵盖特斯拉世界模型、李飞飞团队Marble等。欢迎大 家加入学习~ Jason:C9本科+QS50 PhD,已发表CCF-A论文2篇,CCF-B论文若干。现任国内TOP主机厂算法专家,目前从事端到端、大模型、世界模型等前沿算法的预研和量 产,并已主持和完成多项自动驾驶感知和端到端算法的产品量产交付,拥有丰富的端到端算法研发和实战经验。 课程大纲 这门课程讲如何展开 第一章:世界模型介绍 第一章主要针对自动驾驶世界模型概括性的内容讲解。 这一章老师会先复盘世界模型和端到端自动驾驶的联系,接着讲解世界模型的发展历史以及当下的应用案 例。然后介绍世界模型有哪些流派:纯仿真的世界模型、仿真+Planning、生成传感器输入、生成感知结果 ...
随到随学!端到端与VLA自动驾驶小班课正式结课
自动驾驶之心· 2025-12-09 19:00
行业技术发展趋势 - 2023年是端到端自动驾驶量产的元年,2024年将是其量产的大年,目前头部新势力和主机厂均已实现端到端量产 [1] - 工业界存在两种主要技术范式:一段式(如UniAD,从传感器输入直接建模自车轨迹)和二段式(基于感知结果进一步输出自车及他车轨迹) [1] - 自2023年以来,一段式端到端技术发展迅速,衍生出基于感知、世界模型、扩散模型及视觉语言模型(VLA)等多种方法 [3] - 主流自动驾驶企业,包括智驾方案供应商和车企,均在发力端到端自动驾驶的自研与量产 [3] - 基于视觉语言模型(VLA)的端到端方法被认为是目前该领域的皇冠,上限高且难度大,因此业内招聘需求也最为旺盛 [12] 课程核心内容与结构 - 课程旨在系统讲解端到端与VLA自动驾驶,内容涵盖BEV感知、视觉语言模型、扩散模型、强化学习等前沿技术栈 [5] - 第一章介绍端到端算法的发展历史、概念起源、从模块化到端到端的演进,以及一段式、二段式和VLA范式的优缺点与适用场景 [8] - 第二章重点讲解端到端涉及的背景知识,包括大语言模型、扩散模型、强化学习及BEV感知,这些被认为是未来两年求职面试的高频技术关键词 [8][9] - 第三章聚焦二段式端到端,解析其定义、出现原因,并讲解经典算法PLUTO、CVPR'25的CarPlanner及最新的Plan-R1等工作 [9] - 第四章作为课程精华,深入讲解一段式端到端的各个子领域:基于感知的UniAD、基于世界模型、基于扩散模型以及基于VLA的方法 [10] - 第五章设置RLHF微调大作业,进行实战演练,内容包括预训练与强化学习模块搭建,该技能可迁移至VLA相关算法 [11][13] 关键技术详解与实战案例 - 基于感知的一段式方法将讲解奠基之作UniAD、地平线VAD以及CVPR'24的PARA-Drive [12] - 基于世界模型的方法将讲解AAAI'25的Drive-OccWorld和复旦团队的OccLLaMA,世界模型技术方向热门,应用广泛,包括场景生成、端到端驾驶和闭环仿真 [12] - 基于扩散模型的方法将讲解业内应用广泛的DiffusionDrive、Diffusion Planner和吉大的DiffE2E,并配有Diffusion Planner实战,扩散模型用于多模轨迹预测以更好适应环境不确定性 [12] - 基于VLA的方法将讲解小米的ORION、慕尼黑工大的OpenDriveVLA以及最新的ReCogDrive,并以小米ORION(截至2025年7月已开源推理和评测模块)作为实战案例 [12] - 课程第二章将详细拆解多项基础技术:从Transformer扩展到视觉Transformer,讲解CLIP和LLaVA;详解BEV感知在3D检测、车道线、OCC、轨迹预测与规划中的应用;讲解扩散模型理论;以及VLM相关的强化学习技术如RLHF和GRPO [11] 课程目标与受众要求 - 该课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地 [14] - 期望学员学完后能达到具备1年左右经验的端到端自动驾驶算法工程师水平 [16] - 学员需自备GPU,推荐算力在RTX 4090及以上;需具备一定的自动驾驶领域基础,熟悉基本模块;了解transformer大模型、强化学习、BEV感知等基本概念;具备概率论、线性代数基础及Python和PyTorch编程能力 [16] - 课程收获包括:掌握涵盖一段式、两段式、世界模型、扩散模型等的端到端技术框架;对BEV感知、多模态大模型、强化学习、扩散模型等关键技术有更深刻理解;可复现扩散模型、VLA等主流算法框架;能够将所学应用于实际项目设计 [16]
端到端落地小班课:核心算法&实战讲解(7个project)
自动驾驶之心· 2025-12-09 19:00
讲师介绍 王路, C9本科+QS50 PhD,已发表CCF-A和CCF-B论文若干。现任国内TOP tier1算法专家,目前从事大模型、世界模型等前沿算法的预研和量产,所研发算法已成功 落地并量产,拥有丰富的端到端算法研发和实战经验。 课程大纲 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 这两天和业内一位招聘朋友聊了聊,现在自驾的招聘需求在悄悄的发生一些变化。两年前热门的感知岗位进一步收缩, 目前需求较高的在端到端、VLA、世界模型 等方向上。 头部玩家已经验证了端到端这条路走的通,其他车企也开始铺 从模型优化、场景优化、数据优化,再到下游的规划兜底 人力和资源跟进。但候选人往 往只懂一部分,这些岗位其实涉及的技术栈很广。具体的量产经验如导航信息的引入、强化学习调优、轨迹的建模及优化都有很多门道,都是实际的落地痛点。 为 此我们花了三个月的时间设计了端到端量产进阶课程,从实战到落地层层展开。 该课程涉及的核心算法包括:一段式端到端、两段式端到端、导航信息的量产应用、开闭环强化学习、扩散模型+强化学习、自回归+强化学习、时空联合规划等 等,最后分享一些实 ...
随到随学!自动驾驶4D标注全流程实战(动静态/OCC)
自动驾驶之心· 2025-12-09 19:00
行业趋势与核心驱动力 - 自动驾驶能力的提升高度依赖于千万级训练数据提供的强大动力[2] - 数据闭环系统能够源源不断地自动化产出4D标注数据,这是动力的关键源头[2] - 随着端到端模型和视觉语言动作模型的广泛应用,对训练数据形式的要求变得日益复杂[2] - 当前训练数据需求已超越传统的2D框、3D框和静态元素的单帧分别标注模式[2] - 端到端模型需要时间同步后的多传感器统一标注,涵盖动态元素、静态元素、通用障碍物占据以及轨迹预测等,以确保训练数据的完整性[2] - 面对日益复杂的标注需求和训练数据需求,自动化4D标注技术的重要性正日益凸显[2] 技术挑战与行业痛点 - 自动标注技术的核心在于高性能的自动标注算法[4] - 行业在实际应用中面临一系列技术痛点,包括:如何在不同城市、道路、天气和交通状况下做好多传感器的标定与同步[4] - 如何处理跨传感器之间的遮挡问题[4] - 如何确保算法在不同场景下保持良好的泛化性能[4] - 如何从海量结果中筛选出高质量的标注数据[4] - 如何建立有效的自动化质检流程[4] 课程核心内容与目标 - 课程旨在系统讲解自动驾驶4D自动标注的全流程及核心算法[8] - 课程内容结合真实落地的工业界算法,并配合实战演练,以全方位提升学习者的算法能力[8] - 课程核心内容包括:全面掌握4D自动标注的整体流程和核心算法[8] - 每章节均配套大量实战练习,确保学员不仅能听懂更能实际应用[8] - 涵盖动态障碍物的检测、跟踪、问题优化及数据质检[8] - 讲解基于重建图的静态元素标注方法[8] - 涵盖通用障碍物占据标注的全流程[8] - 教授端到端标注的主流范式并进行实战教学[8] - 探讨数据闭环的核心痛点及未来发展趋势[9] 课程结构与服务模式 - 课程采用线上直播、代码讲解与线上答疑相结合的授课方式[12] - 课程提供配套的学习资料和源码示例[12] - 学员可加入专属微信群进行答疑,答疑服务持续至2026年4月[12] - 课程购买后1年内有效,支持学员反复观看学习[12]