自动驾驶之心
搜索文档
英伟达自动驾驶算法工程师面试
自动驾驶之心· 2025-09-29 23:33
公司招聘流程 - 公司招聘流程包括笔试和五轮技术面试 [3] - 笔试包含三道算法题,涉及图搜索、模拟和动态规划,难度为LeetCode中等水平 [4] - 每轮面试均包含1-2道算法题,涉及链表操作、动态规划、堆排序和DFS等 [3][6][8][11][14] 技术面试内容 - 面试问题涵盖项目经验、规划控制算法和深度学习等多个技术领域 [5][8][11][12] - 规划控制相关问题包括MPC优化问题构造、Hybrid A*算法流程和运动学约束算法改进等 [5][8][12] - 深度学习相关问题涉及目标检测、关键点检测和图像处理等 [8][11] 算法与数据结构 - 笔试算法题通过率分别为90%、0%和70%,主要考察动态规划和异或操作 [4] - 面试算法题包括链表合并、棋盘路径规划和TopK问题等,要求实现多种解法和优化 [6][8][11][14] - 算法实现要求涵盖递归、迭代、记忆化搜索和STL容器应用等 [8][11][14] 职位与团队 - 公司职位划分非常细致,专注于特定技术方向如规划控制和自动泊车 [3][7][12] - 团队合作紧密,工作中会参考学术论文并开展组内组间协作 [9][13] - 招聘流程包含英文技术面试,由技术主管考察项目经验和算法基础 [14] 行业技术趋势 - 自动驾驶技术栈呈现趋同态势,技术方案向统一化方向发展 [22] - 行业出现One Model、VLM和VLA等技术趋势,技术壁垒不断提高 [22] - 技术发展方向涵盖端到端自动驾驶、大模型和多模态3D目标检测等多个领域 [27]
有人在自驾里面盲目内卷,而有的人在搭建真正的壁垒...
自动驾驶之心· 2025-09-29 23:33
行业变革与人才流动 - 车企正经历新一轮组织架构调整 9月有48位高管发生变动 [1] - 头部公司积极调整技术团队架构 理想汽车将智驾团队拆分为11个二级部门 [1] - 人才竞争加剧 比亚迪从斑马智行挖来CTO负责智能座舱业务 [1] - 技术高管身兼多职 蔚来汽车任少卿同时负责公司自动驾驶业务并在中科大搭建实验室 [1] 技术演进趋势 - 自动驾驶算法快速迭代 三年前主流是BEV 两年前转向无图方案 一年前兴起端到端 当前聚焦VLA和世界模型 [1] - 前沿研究方向集中在VLA/VLM 端到端自动驾驶 世界模型 闭环仿真3DGS 强化学习等领域 [3] - 算法工程师面临持续学习压力 需要不断更新认知并跳出舒适圈 [1] 行业信息壁垒 - 学术界与工业界存在明显信息差距 在校学生和中小厂算法工程师对业内实际进展了解有限 [3] - 不同公司之间技术交流不畅 形成信息壁垒 [3] 自动驾驶社区生态 - 自动驾驶之心知识星球已运营三年 形成视频+图文+学习路线+问答+求职交流的综合社区 [5] - 社区规模超过4000人 目标两年内达到近万人规模 [5] - 社区汇集学术界和工业界资源 成员来自上海交大 北京大学 CMU 清华大学等知名高校以及蔚小理 地平线 华为等头部企业 [20][21] 技术资源体系 - 社区梳理40+技术方向学习路线 涵盖感知 仿真 规划控制等核心领域 [10][21] - 汇总近40个开源项目 近60个自动驾驶数据集 以及主流仿真平台 [21] - 提供七大福利视频教程 涵盖世界模型 自动驾驶大模型 Transformer等热门话题 [88] - 举办超过100场专业技术直播 邀请行业专家分享最新研究成果 [90] 职业发展支持 - 建立内推机制 与多家自动驾驶公司合作提供岗位内推服务 [13] - 社区内部交流活跃 成员可咨询行业应用 技术路线 求职跳槽等实际问题 [11][24] - 针对不同基础的学习者提供全栈方向课程 包括0基础入门和进阶提升内容 [12][21]
基于开源Qwen2.5-VL实现自动驾驶VLM微调
自动驾驶之心· 2025-09-29 23:33
大模型微调框架技术进展 - LLaMA Factory成为开源社区最受欢迎的微调框架之一 GitHub星标超过4万 集成业界广泛使用的微调技术 [1] - 框架支持低代码大模型微调 基于Qwen2.5-VL-7B-Instruct模型开发自动驾驶辅助器 通过自然语言对话触发功能 [1] 多模态大模型技术突破 - Qwen2.5-VL系列实现视觉识别 物体定位 文档解析和长视频理解重大突破 支持边界框精确定位和结构化数据提取 [2] - 旗舰型号Qwen2.5-VL-72B性能与GPT-4o和Claude 3.5 Sonnet相当 较小7B和3B型号在资源受限环境表现优异 [2] - 模型引入动态分辨率处理和绝对时间编码 可处理不同大小图像和长达数小时视频 [2] 自动驾驶数据集创新 - CoVLA数据集包含10,000个真实驾驶场景 总计超过80小时视频 采用自动数据处理和描述生成流程 [3] - 数据集生成精确驾驶轨迹并配以详细自然语言描述 在规模和标注丰富性方面超越现有数据集 [3] - 基于数据集开发CoVLA-Agent模型 用于可解释的端到端自动驾驶 [3] 模型训练与部署实践 - 使用NVIDIA GPU 3090(24G显存)和400张小型图片数据集进行微调训练 [1][7] - 通过Hugging Face平台下载Qwen2.5-VL-7B-Instruct模型 配置清华源加速下载 [6] - 采用SwanLab可视化工具记录微调过程 支持训练过程追踪 [11] - 微调后模型保存在指定路径 通过Web UI界面进行模型加载和测试 [18][20] 应用效果验证 - 微调后模型对"自动驾驶车辆应该关注哪些风险"问题给出更具参考价值的回答 [21][22] - 原始模型回答内容较多但存在答非所问的情况 微调显著提升应答准确性 [22] - 测试显示可处理天气判断(多雨置信度0.978) 道路类型识别(宽阔道路置信度0.659)等具体场景 [9]
工业界大佬带队!三个月搞定端到端自动驾驶
自动驾驶之心· 2025-09-29 08:45
端到端自动驾驶行业趋势 - 2023年是端到端量产的元年,2024年将是端到端量产的大年,目前头部新势力和主机厂均已实现端到端量产 [1] - 工业界存在两种主要范式:一段式(如UniAD)直接从传感器输入建模自车轨迹输出,二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 自2023年以来,一段式端到端发展迅速,衍生出基于感知、世界模型、扩散模型和VLA等多种方法,主流自动驾驶企业和车企均在发力自研量产 [3] 端到端与VLA技术核心 - 端到端与VLA涉及的核心技术栈包括BEV感知、视觉语言模型、扩散模型和强化学习等,代表了学术界和工业界最前沿的技术 [5] - 基于扩散模型输出多模轨迹是当前学术界和工业界追捧的热点,多家公司正在尝试落地 [11] - 视觉大语言模型相关的强化学习技术是重点,包括RLHF和GRPO等 [11] 课程内容与结构 - 课程涵盖二段式端到端与一段式端到端前沿算法的细致讲解,内容均为工业界和学术界的Baseline [5] - 第一章介绍端到端自动驾驶发展历史、概念起源及从模块化到端到端的演变,分析一段式、二段式及VLA范式的优缺点 [9] - 第二章重点讲解端到端涉及的背景知识,包括大语言模型、扩散模型、强化学习及BEV感知,为后续章节奠定基础 [9] - 第三章聚焦二段式端到端,解析经典算法PLUTO、CVPR'25的CarPlanner及最新工作Plan-R1,并对比其与一段式端到端的优缺点 [10] - 第四章为课程精华,深入讲解基于感知、世界模型、扩散模型及VLA的一段式端到端子领域 [12] - 第五章大作业为RLHF微调实战,涵盖预训练模块和强化学习模块的搭建与实验,该技术可迁移至VLA相关算法 [13] 技术细分领域进展 - 基于世界模型的方法应用广泛,可用于场景生成、端到端及闭环仿真,是近两年热门技术方向 [14] - 基于扩散模型的方法自2023年下半年兴起,通过输出多模轨迹更好地适应自动驾驶不确定环境,代表性工作包括DiffusionDrive、Diffusion Planner和吉大的DiffE2E [14] - 基于VLA的方法是端到端自动驾驶的皇冠,上限高且难度大,业内招聘需求旺盛,代表性工作包括小米的ORION、慕尼黑工大的OpenDriveVLA及最新的ReCogDrive [14] 行业影响与人才需求 - 学习端到端与VLA自动驾驶可掌握最前沿技术栈,第二章内容是未来两年求职面试频率最高的技术关键词 [10] - 完成课程期望能达到1年左右端到端自动驾驶算法工程师水平,掌握技术框架并对BEV感知、多模态大模型等关键技术有更深刻了解 [19] - 课程面向具备自动驾驶基础、熟悉Transformer大模型、强化学习、BEV感知等基本概念,并有一定数学和编程基础的学员 [18]
好用,便宜!面向具身科研领域打造的轻量级机械臂
自动驾驶之心· 2025-09-28 23:33
产品定位与核心优势 - 专为教育、科研与轻工业场景设计的轻量级机械臂,旨在解决具身智能领域高质量硬件成本高的问题 [1][2][4] - 产品定位为高性价比,以低成本满足论文验证和科研开发需求,目标用户为从业人员和科研工作者 [2] - 核心优势在于融合高精度运动控制、低功耗设计与开放软硬件架构,支持仿真到真机的无缝联调 [4] 核心性能参数 - 机械臂为6轴设计,本体重量4.2KG,额定负载3KG,工作半径612.5mm [6][8][17] - 重复定位精度达到±0.1mm,具备高精度运动控制能力 [8][17] - 采用24V供电,PC作为控制器,通讯方式为CAN,材质主要为铝合金 [8][17] - 各关节运动范围覆盖广,例如J1轴为-165°至165°,最大运动速度达180°/s [8][17] 夹爪与配套工具参数 - 配套夹爪重量约为670g,行程0-90mm,定位精度±0.5mm [10][11][19][20] - 夹爪重复定位精度为±0.1mm,外部接口为电源+CAN XT30 2+2 [20] 软件开发与生态系统 - 提供全流程开源SDK与工具链,支持C++和Python开发接口,助力快速算法验证和应用构建 [4][15][16][26] - 兼容ROS1和ROS2,提供URDF模型,支持Gazebo等主流仿真环境与真机实时联动 [15][17][20] - 支持TensorFlow、PyTorch等主流AI框架,实现从数据采集、模型训练到推理部署的端到端算法落地 [15][31] - 提供详细的机械臂渲染图与参数表,帮助用户全面了解硬件配置与性能边界 [13] 测试、交付与售后服务 - 机械臂通过严格的硬件测试流程,包括精度校准、耐久性、负载性能与稳定性验证 [36][42][44][46] - 交付周期为1-2周,售后响应及时,非人为损坏质保半年 [48]
MTRDrive:一种具备动态交互式推理的自动驾驶VLA框架(清华&小米)
自动驾驶之心· 2025-09-28 23:33
文章核心观点 - 视觉-语言-动作模型(VLA)是提升自动驾驶长尾场景推理能力的关键路径,但现有方法在长时程与高层级行为决策时面临显著挑战,尤其在极少样本或零样本的复杂场景下泛化能力有限[3] - 清华、小米汽车、麦吉尔大学和威斯康星大学麦迪逊分校的团队联合提出MTRDrive框架,将自动驾驶建模为动态交互式推理过程,突破传统静态单步决策的局限[4] - MTRDrive通过记忆-工具协同机制,其中工具库调用提升模型感知准确性,记忆模块通过对驾驶经验的持续增强提升推理可靠性,在长尾与OOD场景中的泛化能力与稳健性显著提升[4] 行业技术痛点分析 - 现有VLA模型在长尾场景中容易出现幻觉问题,在出现频率低但安全性要求高的驾驶情境中,模型容易做出脱离现实的"幻觉式推理",缺乏自我校正和外部验证能力[5] - 现有思维链增强技术大多依赖形式化结构化认知,未能深入捕捉模型与环境交互时的深层因果关系,这种因果推理缺失导致推理可靠性和泛化能力受限[5] - 当前VLMs的性能与实际部署所需的可靠性之间存在显著差距,模型具有脆弱性,常出现视觉幻觉现象,且在分布外场景中表现不佳,微小错误可能导致灾难性后果[8] MTRDrive框架设计原理 - MTRDrive框架基于"交互式推理"原则设计,赋予智能体主动检索驾驶经验和使用工具查询环境的能力,从静态决策模型转向动态交互式模型[9] - 框架包含两个核心组件:存储结构化驾驶经验的"驾驶经验库"和利用这些经验进行工具交互与决策的"经验驱动规划模块"[15] - 驾驶经验库构建采用CLIP预训练视觉编码器实现高效语义场景编码,通过余弦相似度计算场景间相似性,支持大规模低延迟相似性检索[17] - 结构化经验表示将每条经验形式化为元组<场景描述, 推理过程, 高层决策, 工具使用记录, 元数据>,使智能体能学习完成任务的方法并理解场景上下文[19] 技术创新点 - 设计了经验驱动的工具交互方法,通过检索Top-K个最相似过往场景,将场景中记录的推理过程和工具使用模式作为强上下文先验,引导VLM做出更合理的工具部署决策[21] - 采用两阶段训练流程:第一阶段为监督微调解决"冷启动"问题,教会模型工具使用和记忆整合的基础语法;第二阶段通过强化学习微调基于任务特定奖励信号优化决策能力[24][28][29] - 设计了专门的"格式奖励函数"引导模型学会策略性调用经验,完整的奖励函数由格式奖励和任务完成奖励组合而成,为模型提供明确信号指导其完成元认知任务[30][32] 实验验证结果 - 在NAVSIM基准数据集上,MTRDrive的规划准确率达到82.6%,是Qwen2.5-VL-72B(37.8%)的两倍多[40] - 在具有挑战性的RoadWork零样本场景中,MTRDrive规划准确率达到33.5%,高于性能最强的基准模型(29.7%)[40] - 消融实验显示,驾驶经验模块将RoadWork零样本场景中的规划准确率从17.3%翻倍至33.5%,证明经验检索机制是模型将所学技能应用于新场景的核心组件[44] - 在轨迹预测任务中,完整MTRDrive模型取得88.3的PDMS得分,达到与WoTE等专用方法相当的当前最优性能[47] 数据集建设贡献 - 基于原始RoadWork数据集构建了新的基准数据集Roadwork-VLM,利用Qwen2.5-VL-72B模型对整个数据集进行重新标注,生成详细的场景描述、高层导航指令和完整思维链推理序列[37] - Roadwork-VLM形成了完整的类人化端到端驾驶VLM数据集,可用于测试智能体在零样本设置下执行复杂高层行为决策的能力,后续将开源以推动领域研究[37]
自动驾驶之心全平台课程&星球活动进行中
自动驾驶之心· 2025-09-28 23:33
课程产品与定价策略 - 提供自动驾驶与具身智能相关课程,包括“具身智能之心”和“自动驾驶之心”等 [1] - 推出7折优惠活动,立减80元或99元,并计划在节后再次涨价 [1] - 推出超级折扣卡,售价299元,可使自驾课程享受七折优惠,有效期为一年 [1] - 平台课程提供八折优惠券 [3] - 新人享受星球七折优惠,续费用户享受五折优惠 [4] - 购买知识星球会员赠送7门精品课程 [1][6] 知识星球核心服务内容 - 知识星球年费为99元,涵盖技术、行业和求职内容 [1] - 社区定位为最前沿的自驾技术社区,提供近40+学习路线 [6] - 社区内容覆盖VLA、世界模型、闭环仿真、扩散模型、BEV感知等前沿技术方向 [6] - 提供与学术界和工业界大佬的面对面交流机会,讨论行业热点话题 [6] - 社区提供1v1辅导和1v6论文辅导服务,并有最高1000元抵扣5000元的优惠 [1] 社区资源与互动 - 社区提供七门精品课程,涵盖世界模型、轨迹预测、大模型、相机标定等技术点 [6] - 举办“星友面对面”和直播活动,邀请顶会作者与国内外顶尖大佬进行交流 [6] - 社区内容面向小白用户,注重核心培养 [6]
撞墙的不是Scaling Laws,是AGI。
自动驾驶之心· 2025-09-28 23:33
文章核心观点 - Scaling Laws本身并未失效,其是数据结构的内在属性,当前大模型发展的瓶颈在于训练数据的质量和分布,而非计算规模本身[1][7][14] - 互联网原始数据总量虽大,但针对特定任务的有效数据分布稀疏,且不同Token的价值不均等,导致模型通用智能发展受限[4][8][15] - 行业趋势正从追求通用大模型转向专注于高价值领域的专业化模型,通过使用合成数据提升数据密度,可在减小模型尺寸的同时显著提升特定领域能力[10][11][12] 数据与Scaling Laws的关系 - Scaling Laws反映了数据结构的内在属性,基于Transformer的下一词预测复杂度随计算量和参数数量呈对数线性下降[3][4][14] - 原始互联网数据混合体并非实现AGI的最佳数据分布,模型训练为每个Token投入的计算量相同,但不同Token的价值并不相等[4][15] - 通过改变预训练数据的幂律分布,例如均衡每个Token的智能含量,可以从根本上改进Scaling Laws[15] 大模型发展现状与趋势 - GPT-4级别的模型已基本消耗完互联网可用数据,其涌现的智能主要是基础的语言智能,而非行业专业知识[9] - 从Claude Opus 3开始,通过引入合成数据,模型的专业能力(如代码能力)得到增强,同时模型行为更具可控性[10] - 模型发展呈现专业化趋势,例如Sonnet 3.5相比Sonnet 3模型尺寸更小,但因合成数据密度更高,其在代码方面的能力更强[11] - GPT-5体现了极致专业化,模型尺寸减小、专业性增强,但通用聊天能力被削弱,这引发了用户争议[12] 行业驱动因素与影响 - 模型厂商面临成本压力,将逐渐放弃通用性和超大模型路线,将智能资源集中堆叠于高价值领域[7][12] - 高价值领域如编程和搜索市场规模巨大,搜索领域可能催生两万亿美元的估值预期[12] - 高密度合成数据结合强化学习,能显著提升模型在特定行业的模式匹配能力和自动化水平,但全球上千个行业中,仅有少数像编程和搜索这样具有足够高价值来吸引AI公司投入[12] - 当前“你喂我吃”的深度学习范式下,单个语言模型通向AGI的道路天然受到成本限制,对全球的影响力可能有限[12]
清华教研团队!两个月从零搭建一套自己的自动驾驶VLA模型
自动驾驶之心· 2025-09-28 07:21
自动驾驶VLA技术趋势 - 端到端技术后,视觉语言动作模型成为学术界与工业界焦点,其提供类人思考能力并通过思维链形式展现车辆决策过程,从而提升自动驾驶可靠性及安全性[1] - 自动驾驶VLA目前划分为三个主要子领域:模块化VLA、一体化VLA以及推理增强VLA[1] - 主流自动驾驶企业,包括智驾方案供应商与车企,均在积极投入资源进行自动驾驶VLA的自研攻关,反映出行业对该技术方案的迫切需求[4] 核心技术构成与算法前沿 - 自动驾驶VLA的核心技术涵盖视觉感知、大语言模型、动作建模、大模型部署以及数据集制作等多个关键环节[6] - 该领域最前沿的算法包括思维链、混合专家模型、检索增强生成以及强化学习等[6] - 模块化VLA强调多阶段流程,语言模型在规划决策中扮演主动角色,而一体化VLA则实现感知到控制的端到端直接映射,消除模块间延迟[16] - 推理增强VLA的新趋势是引入长思维链推理、记忆和交互模块,其特点是行动与解释并行输出,支持长时序规划与因果解释[17] 行业应用与人才培养 - 为满足行业对VLA人才的迫切需求,设计了系统的学习路线图,包含从原理到实战的完整内容,旨在推动技术发展并助力从业者深入理解VLA[4][6][22] - 课程内容覆盖三大VLA子领域的前沿算法,并配备实战项目与大作业,重点培养学员复现主流算法及自主设计VLA模型的能力,适用于科研与工程落地[6][16][20][26] - 学习要求学员自备高性能GPU,并具备自动驾驶基础、Transformer大模型、强化学习等相关技术知识,目标使学员在实习、校招及社招中受益[26]
为什么自动驾驶中的强化学习,没有很好的落地?
自动驾驶之心· 2025-09-28 03:50
强化学习在自动驾驶领域面临的挑战 - 强化学习面临严重奖励黑客问题,安全要求提高会导致效率降低,而效率提升又可能牺牲安全性,设计平衡各项表现的奖励函数非常困难[2] - 自动驾驶需在达成最终行驶目标的同时,严格遵守中间过程的驾驶规则,而机器人具身智能的目标更清晰、灵活性更高,限制更少,导致强化学习在后者中应用更广且更成功[2] - 强化学习理论在较长时间内缺乏重大突破,GRPO等方法的提出进一步降低了其应用门槛[2] 自动驾驶强化学习落地的关键因素 - 强化学习在自动驾驶中的进一步落地,关键在于需要能与强化学习互相配合的良好架构,现有模型直接用于强化学习大概率行不通[3] 自动驾驶之心知识星球社区概况 - 自动驾驶之心知识星球是一个集视频、图文、学习路线、问答、求职交流为一体的综合类自驾社区,目前成员已超过4000人,目标在未来2年内发展到近万人规模[6] - 社区汇总了超过40个开源项目、近60个自动驾驶相关数据集、行业主流仿真平台及各类技术学习路线,内容涵盖感知、仿真、规划控制、端到端、VLA、多模态大模型等多个方向[10][11] - 社区成员来自上海交大、北京大学、CMU、清华大学等国内外知名高校实验室,以及蔚小理、地平线、华为、大疆、百度等自动驾驶头部公司[10]