自动驾驶之心
搜索文档
简历直推!小马智行多模态大模型实习生招聘
自动驾驶之心· 2025-11-30 02:02
公司技术发展方向 - 基于视觉-语言模型开发场景描述与自然语言指令驱动的感知能力提升方案[2] - 跟进并探索视觉-语言模型等多模态前沿技术,研究其在感知、语义理解与跨模态对齐中的应用[6] - 负责基于Camera、LiDAR及多模态融合的感知算法开发与优化,工作方向包括目标检测、语义/实例分割、目标跟踪与三维重建等[6] 行业人才需求与招聘趋势 - 招聘要求计算机或相关专业本科以上学历,熟练掌握深度学习及计算机视觉相关基本算法[6] - 优先考虑在自动驾驶行业有实习经验的候选人[3] - 优先考虑能实习6个月及以上的候选人[3] - 优先考虑熟悉PyTorch等深度学习框架、对深度学习有深入了解的候选人[6] - 优先考虑熟悉并行计算或CUDA编程、或具有图像处理方面经验的候选人[6]
轻舟智航最新GuideFlow:端到端轨迹规划新方案
自动驾驶之心· 2025-11-30 02:02
文章核心观点 - 提出一种基于约束流匹配的新型端到端自动驾驶规划框架GuideFlow,旨在解决多模态轨迹生成中的模式崩溃问题,并通过显式约束嵌入确保轨迹的安全性和物理可行性 [2][3][9][10][11] - 核心创新在于将流匹配与基于能量的模型训练相统一,并直接将显式约束嵌入生成过程,同时引入驾驶激进度参数作为控制信号,实现对轨迹风格的精准调控 [3][11][33] - 在多个主流自动驾驶数据集上的实验验证了其有效性,特别是在高难度场景Navhard上取得了当前最优性能,EPDMS分数达到43.0 [3][15][37] 背景回顾 - 端到端自动驾驶已成为传统模块化流水线的有吸引力替代方案,通过构建可微分统一系统支持跨任务推理,减轻级联误差问题 [9] - 规划技术从单模态向多模态轨迹生成演进,但基于模仿学习的方法易出现模式崩溃,即多模态输出向单一主导模式收敛 [9][10] - 生成式方法如流匹配和扩散模型能表征完整轨迹分布,但采样过程的高随机性和方差给保证安全约束带来根本性挑战 [10] 算法详解 - 框架包含三个核心模块:感知条件速度场生成器、无分类器引导注入驾驶意图与风格、安全约束采样过程 [18] - 感知模块通过查询BEV特征生成智能体令牌和地图令牌,并利用交叉注意力操作实现场景条件建模 [20][21] - 采用无分类器引导训练框架,以概率掩码条件输入,并通过引导尺度控制条件信号对运动的影响强度 [22][23][24] - 约束生成通过三种互补机制实现:速度场约束主动修正运动方向,流状态约束采用类截断策略修正偏离路径,EBM流优化将约束执行融入能量图景 [25][28][29][31][32] 实验结果分析 - 在NavSim数据集的高难度子集Navhard上,集成评分器后GuideFlow取得SOTA性能,EPDMS得分达43.0,较此前最佳结果提升1.3分 [3][15][37] - 在Bench2Drive数据集上,GuideFlow的驾驶分数达75.21,成功率达51.36%,优于多数端到端自动驾驶基线模型 [35][39] - 在开环测试数据集NuScenes和ADV-NuScenes上,GuideFlow实现最低碰撞率,分别为0.07%和0.73%,在短时域预测中表现出高可靠性 [40][41] 消融实验 - 不同动态条件信号中,基于规划锚点引导的模型变体表现最优,EPDMS得分为29.0,驾驶分数达75.21 [43] - 三种约束生成模块均能提升性能,流状态约束和EBM流优化组合使用时效果最佳,EPDMS得分为27.1 [44][45] - 引入激进度评分作为风格条件可调节轨迹激进度,但无差别鼓励激进行为会损害安全约束,导致EPDMS评分下降 [45][46]
明日开课!端到端量产究竟在做什么?我们筹备了一门落地课程...
自动驾驶之心· 2025-11-29 02:06
行业技术趋势与人才需求 - 端到端自动驾驶技术是当前车企的核心招聘方向,但具备量产经验的全栈人才稀缺 [1] - 技术层面需攻克导航信息引入、强化学习调优、轨迹建模与优化等难题,这些是目前量产工作的前沿 [1] - 行业对具备从模型优化、场景优化、数据优化到下游规划兜底等全栈能力的端到端人才需求迫切 [1] 课程核心内容与结构 - 课程核心算法涵盖一段式端到端、两段式端到端、导航信息量产应用、开闭环强化学习、扩散模型+强化学习、自回归+强化学习、时空联合规划等 [3] - 课程设计聚焦量产实战与就业,包含从算法框架到具体量产经验的完整链条 [3] - 课程采用小班制,仅限35个招生名额 [3][5] 讲师背景 - 讲师王路拥有C9本科和QS50博士学历,发表多篇CCF-A/B论文 [6] - 现任国内顶级Tier1算法专家,从事大模型、世界模型等前沿算法的预研与量产工作 [6] - 具备丰富的端到端算法研发和实战经验,其研发的算法已成功落地量产 [6] 详细课程大纲 - **第一章:端到端任务概述** 介绍感知任务一体化架构、规控算法学习化方案,以及开源数据集与评测方式 [9] - **第二章:两段式端到端算法** 讲解两段式框架建模、感知与PNC信息传递、优缺点,并以PLUTO算法实战 [10] - **第三章:一段式端到端算法** 介绍基于VLA、Diffusion等方法的一段式框架,并通过VAD系列深入教学 [11] - **第四章:导航信息的量产应用** 讲解主流导航地图格式、内容,及其在端到端模型中的编码与嵌入方式 [12] - **第五章:自动驾驶中的RL算法介绍** 重点介绍强化学习算法及训练策略,以弥补纯模仿学习的不足 [13] - **第六章:端到端轨迹输出优化** 进行NN Planner项目实战,涵盖基于扩散模型、自回归的模仿学习及后续的强化学习 [14] - **第七章:兜底方案 - 时空联合规划** 介绍量产中用于轨迹平滑与优化的后处理算法,如多模态轨迹打分搜索 [15] - **第八章:端到端量产经验分享** 从数据、模型、场景、规则等多视角分享量产实际问题解决经验 [16] 课程安排与学员要求 - 课程于11月30日开课,为期三个月,采用离线视频教学,辅以VIP群答疑和三次线上答疑 [17] - 章节内容按周解锁,从第一章到第八章持续至次年2月24日 [17][19] - 面向进阶学员,建议自备算力在4090及以上的GPU,并熟悉BEV感知、视觉Transformer、强化学习、扩散模型等理论基础及Python/PyTorch、mmdet3d框架 [18]
图解Qwen3-VL多模态模型
自动驾驶之心· 2025-11-29 02:06
Qwen3-VL多模态模型架构分析 - 文章核心观点是通过源码解析Qwen3-VL多模态大模型的内部实现细节,重点阐述其如何整合处理视觉和文本信息[2][3] - Qwen3-VL模型将文本和图像作为输入进行处理的自回归AI模型,源码实现包含配置、多模态模型、图片处理和视频处理四大核心模块[4][5] 模型核心组件与处理流程 - 模型入口类Qwen3VLForConditionalGeneration负责整合输入数据,处理流程包括:接收pixel_value和input_ids输入、通过Qwen3VLModel处理多模态数据、经线性层lm_head输出logits、最终以统一格式输出结果[12][13][15][16] - Qwen3VLModel类实现多模态数据融合:通过get_image_features将图像转换为image_embeds,文本通过get_input_embeddings转为inputs_embeds,使用masked_scatter技术将视觉嵌入整合到文本序列中,最终输入大语言模型进行统一处理[18][20][21] 视觉编码器技术实现 - Qwen3-VL采用自研视觉编码器而非现有CLIP或SigLIP方案,通过Qwen3VLVisionPatchEmbed的3维卷积将图像转为hidden_states,结合位置编码后输入27层Attention模块的Qwen3VLVisionBlock进行处理[34][35][37][40] - 视觉处理使用Qwen2VLImageProcessorFast实现图像到pixel_value的转换,预处理过程包含图像分组、尺寸调整、归一化和特征网格重组等步骤,最终输出模型可处理的pixel_values张量[7][8][9][10] 多模态融合与位置编码机制 - 模型采用特殊标记<|im_start|>和<|im_end|>实现视觉与文本特征的精确对齐,通过get_rope_index方法计算旋转位置编码索引,支持图像和视频序列的时空位置信息编码[21][22][23][24] - 视觉特征嵌入过程严格校验占位符标记与特征数量匹配,确保多模态数据融合的准确性,最终生成包含视觉位置掩码和深度堆叠特征的统一表示[30][31][32][33]
语言或许不是自驾的「终极答案」,但它无疑是当下最可行的路径...
自动驾驶之心· 2025-11-29 02:06
自动驾驶技术发展现状 - 目前行业内的量产模型普遍采用经典的数据飞轮模式,即模型部署、效果检验、数据挖掘、重新训练、再次部署的闭环流程,该模式持续推动系统进化[4] - 当数据规模处于十万至百万量级时,增加训练数据能带来显著收益,但当前算法进入端到端时代,数据规模已上升至千万量级,仅通过提升数据规模获得的模型性能收益越来越低,成本效益下降[4] - 数据飞轮模式在提升模型性能方面面临瓶颈,剩下的挑战多为数据稀缺和逻辑复杂的难题,这一点已成为行业共识,特斯拉、理想、小米、小鹏及英伟达等公司均已认识到这一趋势[4] 下一代自动驾驶技术方向 - 自动驾驶领域可从机器人学和语言智能体领域获得启示,自动驾驶长期享受廉价数据的红利,而机器人学则面临数据饥荒的考验,具身智能领域通过应对数据稀缺锻造出韧性,为通用能力实现铺平道路[7] - 当前自动驾驶系统已具备感知、记忆、决策、执行等智能体基本构件,但缺乏深度推理能力,下一代自动驾驶3.0时代需解决推理能力构建问题,发展路径从规则驱动到数据驱动,再转向推理驱动[7] - 推理驱动的自动驾驶需依赖四大支柱:推理能力、常识性认知、长时程记忆和解释与交互,英伟达在2025年10月发布的Alpamayo-R1模型将显式因果推理与轨迹规划整合进统一的VLA架构中[7] - 语言被视为当前最可行的路径,未来自动驾驶所需的数据燃料不再是传统的动态目标、静态元素等,而是富含推理过程的数据,与四大支柱相匹配[7] - 长程记忆能力要求自动驾驶系统在更大时间范围内运作,例如车辆在分岔路口需根据记忆返回上个路口重新规划导航,这体现了对系统更高层次的要求[8] 自动驾驶社区资源 - 自动驾驶之心知识星球是一个综合类社区,集视频、图文、学习路线、问答、求职交流于一体,目前成员超过4000人,涵盖学术界和工业界人士,目标在两年内达到近万人规模[13][14] - 社区提供近40+技术方向的学习路线,包括自动驾驶感知、仿真、规划控制、端到端学习、VLA等,并汇总了开源项目、数据集和仿真平台,帮助成员缩短检索时间[16][20][27] - 社区与多家自动驾驶公司建立内推机制,提供岗位推荐服务,并邀请学术界和工业界大佬进行直播分享,目前已举办超过一百场专业技术直播[23][101][103] - 社区内容覆盖自动驾驶全栈技术,包括3D目标检测、BEV感知、多传感器融合、规划控制、扩散模型等热点领域,并提供入门课程和实战方案,适合不同层次的学习者[27][29][31][33]
地平线RAD:基于3DGS 大规模强化学习的端到端驾驶策略
自动驾驶之心· 2025-11-29 02:06
文章核心观点 - 提出首个基于3D高斯溅射技术构建传感器级仿真环境并用于端到端强化学习自动驾驶策略的方法RAD [1] - 该方法采用三阶段训练流程:感知预训练、模仿学习预训练、强化学习与模仿学习混合微调 [3][5] - 与纯模仿学习方法相比碰撞率降低3倍动态碰撞率从0.24降至0.08静态碰撞率从0.03降至0.009 [25][29] 技术方案架构 - 状态空间包含BEV编码器学习实例级鸟瞰图特征地图头学习静态元素代理头学习动态交通参与者图像编码器学习规划特征规划头使用Transformer解码器整合场景表示 [7] - 动作空间横向动作范围-7.5米至7.5米纵向动作范围0米至15米均离散化为61个动作间隔0.25米动作执行周期0.5秒 [8] - 策略优化结合PPO算法与模仿学习通过自行车模型计算车辆位置更新 [11][12] 奖励函数与辅助任务 - 奖励函数按横纵向解耦设计包含动态碰撞静态碰撞位置偏差朝向偏差四项主要奖励 [16][17] - 辅助任务针对减速加速左转右转行为设计利用GAE计算损失权重例如动态碰撞辅助损失鼓励前方碰撞时减速后方碰撞时加速 [20][22] - 整体优化目标包含PPO损失与四项辅助损失加权和 [19][23] 训练流程与数据 - 第一阶段使用2000小时真实驾驶数据预训练感知模块 [28] - 第二阶段使用里程计数据监督训练规划模块 [28] - 第三阶段选取4305个关键场景其中3968个训练337个测试使用3DGS重建环境进行强化学习微调 [10][28] - 训练中强化学习与模仿学习数据比例4:1时效果最优 [28] 实验效果与对比 - 在碰撞率位置偏差率等关键指标上显著优于VADGenADVADv2等基线方法例如碰撞率从VAD的0.335降至0.089 [25][29] - 奖励函数与辅助任务消融实验证实所有组件均有效动态碰撞奖励对降低碰撞率作用显著 [25][27] - 方法在动态环境处理上展现闭环训练优势相比开环模仿学习更能适应分布外场景 [28][29]
理想披露了一些新的技术信息
自动驾驶之心· 2025-11-28 00:49
端到端模型与VLA技术路线 - 理想汽车在端到端模型结合视觉语言模型量产的后期发现两大问题:训练数据量超过1000万片段后,模型性能提升速度显著变慢,5个月内平均无干预接管里程仅增长约2倍[5];端到端模仿学习缺乏深度逻辑思维能力,导致违反常理行为、决策不够智能及安全感不足[5] - 为解决上述问题,公司引入视觉语言模型,并主推视觉语言行为模型量产,期望其平均无干预接管里程达到1000公里以上[2][5] - 视觉语言行为模型具备三大核心能力:空间智能代表对远距空间和全局语义的理解能力;语言智能代表通过思维链生成决策并听懂人类指令,联合训练后推理速度可达10赫兹以上;行为策略代表使用扩散模型直接生成平滑轨迹,支持多种驾驶可能性[6] 仿真测试与闭环训练体系 - 公司升级模型评测方式,使用世界模型进行闭环仿真和测试,使后训练和强化学习环节的评测效率更高,测试成本从每公里18.4元大幅降低至0.53元[9] - 基于世界模型构建的仿真平台可实现强化学习,架构包括云端训练平台进行数据管理和奖励模型更新,更新后的模型在仿真平台运行,高价值数据反馈至样本库[11] - 为配合区域仿真,公司构建世界模型3D资产库,可根据训练需求将资产注入仿真世界作为交通参与智能体[12] 算力资源配置 - 理想汽车总算力达到13EFLOPS,其中10EFLOPS用于训练,3EFLOPS用于推理[13] - 公司拥有5万张训练和推理卡,推理卡算力等效3万个L20,训练卡算力等效2万个H20[13] - 在视觉语言行为模型时代,推理算力尤为重要,缺乏推理卡将无法生成仿真训练环境[13]
关于端到端和VLA岗位,近期的一些态势变化
自动驾驶之心· 2025-11-28 00:49
行业人才供需现状 - 自动驾驶行业高级岗位招聘困难,企业对经验丰富人才需求旺盛[2] - 行业技术发展从模块化转向端到端,从感知规控扩展至大模型领域,复合型人才稀缺[2] - 端到端VLA算法涉及BEV感知、视觉语言模型、扩散模型、强化学习、世界模型等多技术融合[2] 自动驾驶VLA与大模型实战课程 - 课程聚焦VLA三大领域:VLM作为自动驾驶解释器、模块化VLA、一体化VLA及推理增强VLA[2] - 配套理论基础涵盖Vision/Language/Action三大模块、强化学习、扩散模型等核心技术[2] - 设置大作业章节指导学员从零搭建VLA模型及数据集[2] - 授课团队包括清华大学硕士生咖喱,在ICCV/IROS/EMNLP/Nature Communications发表多篇论文[8] - 团队成员Max在EMNLP/IROS/ICCV/AISTATS发表论文,GitHub开源项目总Star数超2k[8] - 团队成员Eric在RAL/IROS/EMNLP发表论文,专注在线建图感知与VLA算法预研[11] 端到端与VLA自动驾驶课程 - 课程覆盖端到端自动驾驶宏观领域,重点讲解一段式/两段式算法与理论基础[12] - 核心技术包括BEV感知、大语言模型、扩散模型和强化学习[12] - 设置两大实战项目:基于扩散模型的Diffusion Planner和基于VLA的ORION算法[12] - 授课老师Jason具备C9本科+QS50 PhD背景,发表CCF-A论文2篇,现任国内TOP主机厂算法专家[14] - 教师团队拥有端到端算法量产交付经验,主持过多项自动驾驶感知产品研发[14] 课程参与门槛 - 学员需自备GPU,推荐算力在4090及以上级别[15] - 要求具备自动驾驶基础模块知识,熟悉Transformer大模型、强化学习、BEV感知等概念[16] - 需掌握概率论、线性代数基础及Python/PyTorch编程能力[16]
下周六具身一场深度直播:VLA与RL的落地之问!
自动驾驶之心· 2025-11-28 00:49
直播核心主题 - 探讨视觉语言动作模型算法与强化学习落地问题 [2][3][6] 讨论议题 - 视觉语言动作模型架构和模型存在的痛点 [6] - 提升机器人全身运动控制性能的方案进化空间 [6][15] - 视觉语言动作模型结合强化学习实际上机的策略、硬件选择及轻量化方法 [6][15] 参与嘉宾 - 隋伟 地瓜机器人算法副总裁 [9] - 张妮 北京人形机器人首席研究员、学术委员会主任 [11] - 汪天才 原力灵机合伙人 [13] - 于超 清华大学博士 即将加入清华深研院任助理教授 担任主持 [15]
自动驾驶之心企业服务与咨询正式推出!
自动驾驶之心· 2025-11-28 00:49
公司业务发展 - 公司创业前两年专注于C端市场,为自动驾驶与具身智能领域研发近50门课程 [1] - 公司从今年初始开始收到大量企业服务需求,业务转向B端市场 [1] - 公司正式推出企业服务与咨询业务,旨在助力客户技术路线升级、团队人员升级和提供决策参考 [1] 公司资源与能力 - 公司已积累近3年行业咨询与培训经验 [1] - 公司储备大量专家人才库 [1] - 公司全平台粉丝数量近40万 [1] 企业服务范围 - 公司企业服务包括品牌宣传、产业咨询、技术培训和团队升级 [4] - 公司已与国内多个高校、职业院校、Tier1、主机厂及具身机器人公司建立企业合作 [2] - 公司期望触达更多需要升级的企业,推动行业进步 [2]