Workflow
自动驾驶之心
icon
搜索文档
世界模型自动驾驶小班课!特斯拉世界模型、视频&OCC生成速通
自动驾驶之心· 2025-12-09 19:00
早鸟优惠!开课即止~ 讲师介绍 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 Jason老师新课《世界模型与自动驾驶小班课》正式推出啦! 自动驾驶之心联合 工业界大佬 共同开展,先前的《端到端与VLA自动驾驶小班课》备受大家好评,因 此我们进一步推出这门世界模型小班课, 课程聚焦于通用世界模型、视频生成、OCC生成等世界模型算法,涵盖特斯拉世界模型、李飞飞团队Marble等。欢迎大 家加入学习~ Jason:C9本科+QS50 PhD,已发表CCF-A论文2篇,CCF-B论文若干。现任国内TOP主机厂算法专家,目前从事端到端、大模型、世界模型等前沿算法的预研和量 产,并已主持和完成多项自动驾驶感知和端到端算法的产品量产交付,拥有丰富的端到端算法研发和实战经验。 课程大纲 这门课程讲如何展开 第一章:世界模型介绍 第一章主要针对自动驾驶世界模型概括性的内容讲解。 这一章老师会先复盘世界模型和端到端自动驾驶的联系,接着讲解世界模型的发展历史以及当下的应用案 例。然后介绍世界模型有哪些流派:纯仿真的世界模型、仿真+Planning、生成传感器输入、生成感知结果 ...
端到端落地小班课:核心算法&实战讲解(7个project)
自动驾驶之心· 2025-12-09 19:00
讲师介绍 王路, C9本科+QS50 PhD,已发表CCF-A和CCF-B论文若干。现任国内TOP tier1算法专家,目前从事大模型、世界模型等前沿算法的预研和量产,所研发算法已成功 落地并量产,拥有丰富的端到端算法研发和实战经验。 课程大纲 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 这两天和业内一位招聘朋友聊了聊,现在自驾的招聘需求在悄悄的发生一些变化。两年前热门的感知岗位进一步收缩, 目前需求较高的在端到端、VLA、世界模型 等方向上。 头部玩家已经验证了端到端这条路走的通,其他车企也开始铺 从模型优化、场景优化、数据优化,再到下游的规划兜底 人力和资源跟进。但候选人往 往只懂一部分,这些岗位其实涉及的技术栈很广。具体的量产经验如导航信息的引入、强化学习调优、轨迹的建模及优化都有很多门道,都是实际的落地痛点。 为 此我们花了三个月的时间设计了端到端量产进阶课程,从实战到落地层层展开。 该课程涉及的核心算法包括:一段式端到端、两段式端到端、导航信息的量产应用、开闭环强化学习、扩散模型+强化学习、自回归+强化学习、时空联合规划等 等,最后分享一些实 ...
随到随学!自动驾驶4D标注全流程实战(动静态/OCC)
自动驾驶之心· 2025-12-09 19:00
行业趋势与核心驱动力 - 自动驾驶能力的提升高度依赖于千万级训练数据提供的强大动力[2] - 数据闭环系统能够源源不断地自动化产出4D标注数据,这是动力的关键源头[2] - 随着端到端模型和视觉语言动作模型的广泛应用,对训练数据形式的要求变得日益复杂[2] - 当前训练数据需求已超越传统的2D框、3D框和静态元素的单帧分别标注模式[2] - 端到端模型需要时间同步后的多传感器统一标注,涵盖动态元素、静态元素、通用障碍物占据以及轨迹预测等,以确保训练数据的完整性[2] - 面对日益复杂的标注需求和训练数据需求,自动化4D标注技术的重要性正日益凸显[2] 技术挑战与行业痛点 - 自动标注技术的核心在于高性能的自动标注算法[4] - 行业在实际应用中面临一系列技术痛点,包括:如何在不同城市、道路、天气和交通状况下做好多传感器的标定与同步[4] - 如何处理跨传感器之间的遮挡问题[4] - 如何确保算法在不同场景下保持良好的泛化性能[4] - 如何从海量结果中筛选出高质量的标注数据[4] - 如何建立有效的自动化质检流程[4] 课程核心内容与目标 - 课程旨在系统讲解自动驾驶4D自动标注的全流程及核心算法[8] - 课程内容结合真实落地的工业界算法,并配合实战演练,以全方位提升学习者的算法能力[8] - 课程核心内容包括:全面掌握4D自动标注的整体流程和核心算法[8] - 每章节均配套大量实战练习,确保学员不仅能听懂更能实际应用[8] - 涵盖动态障碍物的检测、跟踪、问题优化及数据质检[8] - 讲解基于重建图的静态元素标注方法[8] - 涵盖通用障碍物占据标注的全流程[8] - 教授端到端标注的主流范式并进行实战教学[8] - 探讨数据闭环的核心痛点及未来发展趋势[9] 课程结构与服务模式 - 课程采用线上直播、代码讲解与线上答疑相结合的授课方式[12] - 课程提供配套的学习资料和源码示例[12] - 学员可加入专属微信群进行答疑,答疑服务持续至2026年4月[12] - 课程购买后1年内有效,支持学员反复观看学习[12]
工业界大佬带队!三个月搞定3DGS理论与实战
自动驾驶之心· 2025-12-09 19:00
3DGS技术发展与应用 - 新视角合成的核心目标是通过图像或视频构建可被计算机处理的3D模型,催生了3D建模、虚拟现实、自动驾驶闭环仿真等大量应用 [2] - 早期算法如SfM、MVS受限颇多,2020年NeRF打破僵局但仍面临计算效率和可编辑性差的问题,2023年3DGS一经问世便迅速火爆 [2] - 3DGS技术迭代速度远超想象,已发展出静态重建3DGS、动态重建4DGS、表面重建2DGS,并进一步催生了feed-forward 3DGS以解决per-scene optimization方法不便使用的问题 [4] - 目前3DGS在学术界和工业界都很受欢迎,但入门需要吃透点云处理、深度学习等理论,并掌握实时渲染、代码实战 [4] 课程核心内容与结构 - 课程包含2DGS/3DGS/4DGS的细致讲解,并扩展当下3DGS重要的几个研究课题,最后讲解feed-forward 3DGS,旨在全面吃透3DGS技术栈 [6] - 课程大纲共六章,从背景知识、原理算法到自动驾驶应用、研究方向及前沿feed-forward方法,最后安排答疑讨论 [8][10][11][12][13][14][15] - 课程进度安排为离线视频教学,自12月1日开课,预计两个半月结课,分章节逐步解锁并配合VIP群内答疑及三次线上答疑 [17] 课程具体章节要点 - **第一章:3DGS背景知识**:从计算机图形学基础讲起,涵盖三维空间的隐式/显式表达、渲染管线、光线追踪、辐射场渲染等技术概念及其与3DGS的联系,并介绍COLMAP、Gsplat等开发工具,设计基于3D Real Car训练模型的小作业 [10] - **第二章:3DGS原理和算法**:详细梳理3DGS原理及核心伪代码,讲解动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法,实战选用英伟达开源的3DGRUT框架 [11] - **第三章:自动驾驶3DGS**:聚焦自动驾驶仿真重建,讲解浙大Street Gaussian、上交OmniRe和浙大Hierarchy UGP三篇工作,实战选用学术界和工业界使用最多的DriveStudio [12] - **第四章:3DGS重要研究方向**:聚焦COLMAP扩展、深度估计及Relighting等研究方向,并分享这些方向如何服务工业界及学术探索的未来走势 [13] - **第五章:Feed-Forward 3DGS**:梳理feed-forward 3DGS的发展历程和算法原理,讲解最新的AnySplat和WorldSplat算法工作 [14] - **第六章:答疑讨论**:通过线上交流形式,组织讨论3DGS岗位需求、行业痛点及开放性问题 [15] 课程面向人群与收获 - 面向人群需自备GPU(推荐算力在4090及以上),并具备一定的计算机图形学基础、视觉重建/NeRF/3DGS技术了解、概率论与线性代数基础、Python和PyTorch语言基础 [19] - 学后收获包括掌握3DGS完善的理论知识及相关技术栈、掌握3DGS算法开发框架并能训练开源模型、与学术界及工业界同行持续交流,对实习、校招、社招均能受益 [19]
自动驾驶VLA全栈学习路线图
自动驾驶之心· 2025-12-09 19:00
自动驾驶行业技术趋势 - 在端到端技术之后,视觉语言动作模型已成为学术界和工业界聚焦的核心方向,它提供了类人思考的能力,通过思维链形式展现车辆决策过程,旨在提供更可靠、更安全的自动驾驶能力 [1] - 传统的BEV感知、车道线、Occupancy等方向已相对成熟,学术界和工业界的关注度正在逐渐下降,目前自动驾驶VLA是各家企业急需攻克的方案 [4] - 主流的自动驾驶企业,包括智驾方案供应商和车企,都在发力自动驾驶VLA的自研 [4] 自动驾驶VLA技术分类与核心内容 - 自动驾驶VLA目前可分为三个子领域:模块化VLA、一体化VLA和推理增强VLA [1] - 该领域涉及的核心内容包括视觉感知、大语言模型、Action建模、大模型部署、数据集制作等 [6] - 最前沿的算法包括思维链、混合专家模型、检索增强生成、强化学习等 [6] 自动驾驶VLA课程概述与师资 - 课程由清华大学教研团队联合推出,名为《自动驾驶VLA与大模型实战课程》,是国内首个自动驾驶VLA进阶实战教程 [6][21] - 课程旨在推动自动驾驶VLA在学术界和工业界的发展,帮助学习者真正理解VLA [21] - 讲师团队包括来自清华大学和QS30高校的硕士生与博士生,他们在ICCV、IROS、EMNLP等顶级会议发表过多篇论文,研究方向涵盖多模态感知、自动驾驶VLA、大模型Agent等,并拥有丰富的研发和实战经验 [8] 课程结构与内容大纲 - **第一章:自动驾驶VLA算法介绍** - 讲解VLA算法的概念、发展历史、任务拆解,并介绍开源的BenchMark和常见评测指标,帮助学员建立整体了解 [11][12] - **第二章:VLA的算法基础** - 讲解Vision、Language和Action三个模块的基础知识,阐述大模型与自动驾驶VLA的结合方式,并扩展讲解以Qwen 2.5VL-72B为例的开源大模型本地部署和使用 [13] - **第三章:VLM作为自动驾驶解释器** - 讲解VLA概念提出前,VLM作为解释器参与场景理解的经典及最新算法,如DriveGPT4、TS-VLM等,重点分析其动机、网络结构与核心算法 [14] - **第四章:模块化&一体化VLA** - 聚焦模块化和一体化VLA,讲解语言模型从被动描述演变为主动规划组件的过程,对比多阶段pipeline与端到端映射的差异,并配套实战代码学习华科与小米最新提出的ReCogDrive模型 [15] - **第五章:推理增强VLA** - 聚焦推理增强VLA,讲解其通过思维链、记忆、工具调用等实现长时序规划与因果解释的特点,重点分析ORION、DriveMoE、DiffVLA、S4-Driver等算法,并配套实战代码学习清华AIR与博世提出的Impromptu VLA模型 [16][17][18] - **第六章:大作业** - 要求学员基于ms-swift框架,从网络构建开始,自定义数据集和加载模型,开启训练任务并进行微调,注重动手实操能力 [19] 课程安排与学习要求 - 课程为离线视频教学,开课时间为10月20日,预计两个半月结课,包含VIP群答疑和三次线上答疑,各章节按计划时间解锁 [22] - 学习要求学员自备GPU,推荐算力在RTX 4090及以上,并需具备一定的自动驾驶领域基础、Transformer大模型、强化学习、BEV感知等概念知识,以及概率论、线性代数、Python和PyTorch基础 [23] - 学后收获包括彻底理解自动驾驶VLA当前进展、掌握三大子领域核心算法、加深对视觉感知等多模态AI技术的了解、能够复现主流算法并应用于实际项目,对实习、校招、社招均有助益 [23]
世界模型与自动驾驶小班课正式推出!特斯拉世界模型、视频OCC生成一网打尽~
自动驾驶之心· 2025-12-09 07:59
课程核心内容与定位 - 课程名称为《世界模型与自动驾驶小班课》,是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地,并助力学员真正理解端到端自动驾驶 [2][10] - 课程由“自动驾驶之心”公众号联合工业界大佬推出,是继《端到端与VLA自动驾驶小班课》后进一步推出的课程,聚焦于通用世界模型、视频生成、OCC生成等世界模型算法 [2] - 课程讲师Jason拥有C9本科和QS50 PhD背景,发表多篇CCF-A/B论文,现任国内TOP主机厂算法专家,主持并完成多项自动驾驶感知和端到端算法的产品量产交付,具备丰富的研发和实战经验 [2] 课程大纲与章节详解 - **第一章:世界模型介绍** 复盘世界模型与端到端自动驾驶的联系,讲解其发展历史、当下应用案例,并介绍纯仿真、仿真+Planning、生成传感器输入、生成感知结果等不同流派,以及它们在业界的应用、解决的问题、所处环节、相关数据集和评测 [5] - **第二章:世界模型的背景知识** 讲解世界模型的基础知识,包括场景表征、Transformer、BEV感知等,为后续章节奠定基础,其内容是当下世界模型求职面试频率最高的技术关键词 [5][6] - **第三章:通用世界模型探讨** 聚焦通用世界模型和近期热门工作,涵盖李飞飞团队的Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型,以及业界广泛讨论的VLA+世界模型算法DriveVLA-W0和特斯拉ICCV上分享的世界模型模拟器 [6] - **第四章:基于视频生成的世界模型** 聚焦视频生成类世界模型算法,从Wayve的GAIA-1 & GAIA-2开始,扩展到上交CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive,兼顾经典与前沿进展,并以商汤开源的OpenDWM进行实战 [7] - **第五章:基于OCC的世界模型** 聚焦OCC生成类世界模型算法,包含三大论文讲解和一个项目实战,此类方法不局限于OCC生成,可较易扩展为自车轨迹规划,从而进一步实现端到端 [8] - **第六章:世界模型岗位专题** 基于前五章算法基础,分享工业界应用经验,探讨行业痛点、期望解决的问题,以及如何准备相关岗位面试和公司真正关注的内容 [9] 课程技术深度与学后收获 - 课程将详细讲解Transformer、视觉Transformer、CLIP、LLAVA、BEV感知、占用网络(Occupancy Network)、扩散模型、闭环仿真、NeRF、3DGS、VAE、GAN及Next Token Prediction等关键技术概念 [11] - 课程涵盖OCC生成类世界模型的多个前沿工作,包括清华的OccWorld、复旦的OccLLaMA、华科ICCV'25的HERMES以及西交最新的II-World [12] - 学员学完本课程后,预期能够达到1年左右世界模型自动驾驶算法工程师水平,掌握世界模型技术进展(涵盖视频生成、OCC生成等方法),对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻了解,并可复现II-World、OpenDWM等主流算法框架,能够将所学应用到项目设计中,对实习、校招、社招均有助益 [13] 课程安排与面向人群 - 课程开课时间为1月1号,预计两个半月结课,采用离线视频教学,辅以VIP群内答疑和三次线上答疑 [14] - 章节解锁时间安排如下:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁 [14] - 面向人群需自备GPU(推荐算力在4090及以上),具备一定的自动驾驶领域基础,熟悉自动驾驶基本模块,了解transformer大模型、扩散模型、BEV感知等技术的基本概念,具备一定的概率论、线性代数基础以及Python和PyTorch语言基础 [13]
从 LLaVA 到 Qwen3-VL,解构多模态大模型的演进之路
自动驾驶之心· 2025-12-09 00:03
多模态大模型(MLLM)的技术演进与核心架构 - 行业正经历从纯文本模型向能听、会看、可交互的“智能体”的深刻变革,AI通过多模态大模型(MLLM)开始感知和理解物理世界[1] - 在MLLM的赛道上,主要涌现出两条技术路线:以“大道至简”为核心的LLaVA系列和奉行“深度融合”设计思想的Qwen3-VL[2] MLLM的“三位一体”黄金架构 - 绝大多数主流多模态大模型遵循一个共同的“三位一体”架构,包括视觉编码器(眼睛)、大语言模型(大脑)和连接器(灵魂之桥)[3] - **视觉编码器(Vision Transformer, ViT)**:负责将输入的像素世界转化为机器能理解的数学表达(特征向量),其核心是将图像分割成不重叠的小方块(Patches)并进行编码[5][7] - **大语言模型(LLM)**:作为系统的“思考中枢”,负责最终的认知、推理和内容生成,接收融合了视觉与文本信息的序列进行思考[5][17] - **连接器(Connector)**:核心使命是将ViT输出的视觉特征精准投影到LLM能够理解的同一向量空间中,以解决“模态鸿沟”[6][32] AI的“眼睛”:Vision Transformer (ViT) 技术细节 - ViT的工作流程分为四步:图像分块、展平与线性投影、添加上下文信息、核心处理引擎(Transformer Encoder)[9][10][12][15] - 在图像分块步骤中,一张224x224像素的图像若使用16x16大小的图块分割,将被转换为总计196个图像块的一维序列[9] - 为让模型理解图像块的空间位置,现代ViT架构广泛采用旋转位置编码(RoPE),其通过旋转方式将位置信息动态融入注意力机制,具备极强的尺寸泛化能力[13][14] - ViT中的2D-RoPE与LLM中的1D-RoPE存在根本区别,前者需同时编码高度和宽度两个维度的信息,实现更为复杂[14] AI的“大脑”:大语言模型(LLM)的运作机制 - LLM接收的输入是一个融合了视觉与文本信息的一维长序列,例如196个视觉词元与5个文本词元拼接成的201长度序列[20][21] - LLM基于多模态上下文进行自回归生成,像滚雪球一样迭代预测下一个最有可能出现的词元,直到生成终止符[24][25] - 解码策略是一门艺术,主要包括:速度最快但可能陷入局部最优的贪婪解码、平衡质量与成本的束搜索(Beam Search)、以及增加多样性的采样策略(如Top-p采样)[26][27][29] - 作为“大脑”的LLM自身也在进化,以Qwen3-VL为代表的新一代MLLM,其语言模型部分开始采用更先进的混合专家(MoE)架构,通过稀疏激活在增加参数量的同时保持推理效率[27][30] 灵魂之桥:“连接器”的设计哲学 - 连接器的设计主要分为两大流派:以LLaVA系列为代表的“极简线性翻译官”和以BLIP-2模型为代表的“主动型信息提炼师”Q-Former[34][36][38] - **极简线性翻译官**:通常是一个简单的多层感知机(MLP),核心任务是进行线性维度变换,将视觉特征映射到LLM的隐藏空间,依赖强大的LLM和海量数据完成融合[36][37] - **主动型信息提炼师(Q-Former)**:核心机制包括可学习的查询向量(Learnable Queries)和交叉注意力(Cross Attention),旨在进入LLM前对视觉信息进行深度提炼与压缩[40][42][45] - Q-Former通过一组固定数量(如32个)的可学习查询向量,像专家分析师一样从冗长的原始视觉特征(如196个)中提炼出信息高度浓缩的摘要向量,极大减轻了LLM的计算负担[43][44][51] 从像素到文字的完整数据旅程 - 数据从输入到输出的全过程是一场数据形态与矩阵维度的变换之旅,可通过具体示例追踪每一步的变化[48][49] - 以一张224x224的RGB图像和问题“What is in the image?”为例,其处理步骤包括:原始像素矩阵[1, 3, 224, 224] -> ViT分块后序列[1, 196, 768] -> ViT输出特征[1, 196, 768] -> 连接器投影对齐[1, 196, 4096] -> 文本嵌入[1, 5, 4096] -> 多模态拼接输入[1, 201, 4096] -> LLM生成输出答案[21][52] - 最关键的转变发生在多模态拼接步骤,视觉与文本词元被物理拼接,形成一个统一的“多模态现实”输入序列,使LLM的自注意力机制能实现真正的图文深度理解[21][58] 解决高分辨率处理矛盾的两条技术路线 - 面对让模型处理高分辨率信息而不牺牲效率的核心矛盾,业界探索出两条主要技术路线[54] - **路线一:LLaVA的AnyRes**:奉行“扩展输入边界”哲学,通过在输入端进行巧妙的工程设计,使模型能处理任意分辨率的图像[55] - **路线二:Qwen3-VL的DeepStack**:奉行“精巧设计,架构致胜”哲学,对模型核心架构进行改造,构建多层次的信息深度融合系统[64] 路线一详解:LLaVA的AnyRes技术 - LLaVA-1.5-HD采用“全局+局部”协同策略:将高清大图分割成多个高清晰度图块以保留局部细节,同时将原图降采样获得低分辨率全局概览图以提供上下文,最后将两路特征拼接送入LLM[56][59][62] - LLaVA-OneVision提出更先进的Higher AnyRes策略,通过双线性插值在特征空间中“缝合”离散图块,重建高分辨率特征图以更好地保留文档布局等空间关系,提升在文档视觉问答等任务上的表现[60][68] - LLaVA系列的演进展现了其通过迭代AnyRes这一前端技术,在不改动核心架构的前提下解决高分辨率处理难题的工程智慧[63] 路线二详解:Qwen3-VL的DeepStack技术 - DeepStack技术的核心是将视觉词元深度堆叠或注入到模型内部的不同层级,实现高效的深度融合,其提出两种模式:DeepStack-L(注入LLM)和DeepStack-V(注入ViT)[64][69] - Qwen3-VL采用DeepStack-L思想,将视觉信息深度注入到LLM的处理流程中,从视觉编码器的指定中间层(如第8、16、24层)提取特征,注入到LLM解码器的前几个浅层中[66][97] - 实验依据表明,LLM的浅层更适合处理和融合相对原始的视觉特征,注入起始层越靠前(如0~4层)、间隔约2或3层、总共注入约4个层时效果最优[71][76] - 实现上异常简洁高效,核心逻辑是在Transformer层循环中增加条件判断和一次原地加法,计算开销极小[72][74] - Qwen3-VL的适配更为高效,直接从处理标准输入的同一个Vision Tower的中间层提取特征,无需额外的高分辨率图像编码过程[75][99] LLaVA系列架构全景剖析 - LLaVA系列是其核心哲学“简洁即正确”的完美诠释,证明了极简架构在海量数据和聪明工程驱动下的强大力量[80] - LLaVA 1.0版本架构极其简洁:采用预训练的CLIP ViT-L作为视觉编码器,基于LLaMA/Vicuna作为语言模型,连接器仅为一个单层线性投影层[81][83][87] - LLaVA-1.5进行了务实迭代:将连接器升级为两层MLP,将视觉编码器输入分辨率提升至336x336,并引入更大规模的指令微调数据集[84][88] - LLaVA-OneVision达到演进高峰,通过海量多样化数据和优化的Higher AnyRes技术,将简洁理念从静态图像无缝扩展至动态视频,成为首批实现图像与视频统一处理的开源模型之一[92] Qwen3-VL架构全景剖析 - Qwen3-VL代表了“精巧设计,架构致胜”的路线,对模型核心架构进行深度改造以实现视觉与语言的持续深度交互[93] - 其架构实现了从“入口拼接”到“多层注入”的范式转变,视觉信息的处理和融合方式更为复杂精巧[94][96] - 代码演进清晰展示了其哲学转变:Qwen3-VL引入了`deepstack_merger_list`模块以实现DeepStack,并将语言模型升级为采用混合专家(MoE)架构的`Qwen3VLMoeTextModel`[98][101] - 除DeepStack外,Qwen3-VL还集成了多项前沿技术,如更先进的多维旋转位置编码MRoPE-Interleave和文本时间戳对齐机制,共同构成其技术护城河[101] 行业发展趋势与展望 - LLaVA与Qwen3-VL的发展路径虽不同,但殊途同归,共同推动了MLLM的性能边界,并指向实现视觉与文本更深层次、更无缝统一的方向[103][104] - 未来清晰的发展趋势包括:从“感知”迈向“推理与执行”,发展出能操作界面、调用工具的视觉智能体能力;拥抱动态与三维世界,原生支持长视频理解和3D空间定位;以及走向真正的多模态统一,在预训练早期进行多种模态数据的协同训练[107]
中游智驾厂商,正在快速抢占端到端人才......
自动驾驶之心· 2025-12-09 00:03
行业技术发展趋势 - 智能驾驶领域的技术焦虑正在产业链中游厂商间快速传播[1] - 业内认为端到端等前沿技术的大规模量产起点将在明年[2] - 当前智能驾驶前沿技术发展放缓,行业量产方案趋于同质化,L2级智能驾驶正走下沉路线[2] - 随着明年L3级法规的进一步推进,中游厂商面临迫切的技术升级压力[2] - 近期许多公司的算法负责人正积极寻求了解端到端、世界模型、VLA、3DGS等前沿技术[2] 市场现状与规模 - 二十万元以上的乘用车年销量约为700万辆[2] - 头部新势力品牌在该价格区间的销量占比不足三分之一[2] - 搭载端到端量产方案的车型占比则更低[2] - 地平线公司宣布将进军10万元级市场,表明高阶智能驾驶正迅速向更多国民车型下沉[2] 技术落地与产业影响 - 端到端技术不仅仅是一个算法,其成熟落地需要完善的云端与车端基础设施、数据闭环、工程部署、闭环测试、模型优化及平台开发等全套体系支持[2] - 端到端技术的成熟被视为更大规模量产的开端[2] - 可以预见,市场对中阶智能驾驶相关岗位的需求将更加旺盛[2] - 近几个月,行业对端到端和VLA技术的学习与入门需求显著增加[3] 行业培训与人才需求 - 为应对技术升级需求,出现了针对端到端和VLA技术的实战培训课程[3] - 相关课程由工业界与学术界的专家联合开展,聚焦量产落地[3] - 课程内容涵盖导航信息应用、强化学习优化、Diffusion和自回归模型量产经验、时空联合规划等关键模块[3] - 另有课程专注于VLA领域,内容从视觉语言模型作为解释器,覆盖到模块化、一体化及主流的推理增强型VLA[11] - 课程要求参与者具备一定的自动驾驶基础、了解Transformer大模型、强化学习、BEV感知等概念,并拥有Python和PyTorch编程能力[10]
理想端到端自进化智能体系统CorrectAD
自动驾驶之心· 2025-12-09 00:03
以下文章来源于自动驾驶数据挖掘 ,作者黑客与作家 自动驾驶数据挖掘 作者 | 逆光飞翔2020 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1980048833590339263 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 导读 破解"端到端模型长尾故障"痛点!现有端到端自动驾驶模型受限于训练数据中的罕见安全关键场景(长尾问题),手动收集此类数据成本高、风险大。西湖大学+理 想汽车+天津大学联合提出 CorrectAD自校正智能体系统 ,实现四重突破: 实验验证:在nuScenes和内部挑战性数据集上,分别修复62.5%和49.8%的故障案例,碰撞率降低39%和27%,为自动驾驶模型的持续优化提供自动化、低成本解决方 案。 推荐理由 1 核心概念:关键定义与术语解析 1.1 当前痛点 1. 手工数据收集成本极高 长尾故障(Long-tail Failure,如低能见度碰撞、密集车流绕行失效)罕见且危险,手工收集标注 ...
25年国内L4融资已突破300亿
自动驾驶之心· 2025-12-09 00:03
行业融资与市场动态 - 2025年国内L4自动驾驶融资规模已突破300亿元人民币,创历史新高,较2023年约84亿元增长约257% [2] - 物流配送和Robotaxi成为两大主流赛道,头部企业和已落地场景获资金青睐 [2] - 行业趋势呈现L2渗透狂奔、L3落地在即、L4规模破局的特点,自动驾驶已进入技术深水区 [2] 近期代表性融资与上市案例 - 造父智能于今年6月份融资30亿元人民币,投资方包括哈啰出行、蚂蚁集团、宁德时代 [7] - 新石器无人车于十月获得由阿联酋磊石资本领投的6亿美元融资 [7] - 小马智行于十一月在港交所IPO,募资额达77亿港元 [7] - 文远知行于十一月在港交所IPO,募资额约24亿港元 [7] - 滴滴自动驾驶于十月完成20亿元人民币的D轮融资,资金用于加大AI研发投入、推动L4自动驾驶应用落地 [7] - 卓驭科技于十一月获得中国一汽战略投资36亿元人民币 [7]