自动驾驶之心
搜索文档
小米最新大模型成果!罗福莉现身了
自动驾驶之心· 2025-10-18 16:03
公司AI研究进展 - 小米AI团队与北京大学联合发布一篇聚焦MoE与强化学习的论文[2] - 论文通讯作者包括此前从DeepSeek转会至小米的AI研究员罗福莉[4] - 罗福莉硕士毕业于北京大学,其学术论文总引用次数已超过1.1万次,今年新增约八千次引用[5][60] 技术核心问题与解决方案 - 当前MoE架构在强化学习中面临路由机制导致训练不稳定的挑战,严重时会导致模型崩溃[9][10] - 研究团队提出R3方法,通过在训练中复用推理阶段的路由分布来解决路由随机性问题[28][29][30] - R3方法能够与现有的前缀缓存系统无缝衔接,通过缓存路由掩码提升计算效率[35][36][38] 实验性能结果 - 基于Qwen3-30B-A3B模型的实验显示,R3方法在多mini-step设置下GRPO+R3比GSPO高出1.29分[41][42] - 将R3与GSPO结合性能可进一步提升0.95分[43] - R3显著提升训练稳定性,GRPO训练到第60步已严重跑偏,而R3到第150步仍保持平缓曲线[44][45][47]
大疆卓驭感知算法工程师面试
自动驾驶之心· 2025-10-18 16:03
公司招聘流程与岗位职责 - 岗位为自动驾驶感知算法工程师-动态目标感知预测方向 主要职责为障碍物和语义目标识别追踪及意图预测[3] - 面试流程包括性格测评和找规律题目 与DJI存在关联[3] - 岗位职责包括处理海量自动驾驶数据 搭建自动化真值标注系统 设计并落地AI和视觉技术 算法将部署于百万台量产车[6] 技术面试核心内容 - 面试涉及项目经验探讨 如目标检测网络和关键点检测 并考察对自动驾驶视觉模型如occupancy network原理的理解[4] - 技术问题涵盖transformer有效性原理 多头自注意力机制作用 以及与CNN的对比优劣[4] - 编程能力考察包括C++八股如智能指针类型 堆栈区别 动态库链接与加载 以及CMake包管理原理[4] - 二面深入探讨多传感器融合SLAM系统 涉及特征点法 直接法 ICP模型 以及传感器噪声特性分析和激光雷达内参标定影响[5] - 深度学习实践问题包括关键点检测器架构设计 backbone选择 FPN设计 以及边缘平台部署工具如ncnn/mnn/openvino和量化原理[5] 岗位具体技术要求 - 技术领域要求涵盖多视图几何 计算机视觉 深度学习 滤波优化算法如卡尔曼滤波 以及感知传感技术应用[8] - 具体任务包括静态场景要素检测如车道线 路沿 交通标志 并实时构建道路拓扑[8] - 动态目标处理需完成检测追踪 多传感器信息融合 以及未来轨迹和意图预测[8] - 传感器应用涉及基于双目 单目 激光的深度估计 任意障碍物检测 以及多传感器标定与自标定方法开发[8] - 额外技术方向包括基于激光/视觉的大范围城市场景4D重建 标注 渲染 仿真 以打造自动化4D自标注和闭环仿真系统[8] 行业社区与学习资源 - 自动驾驶社区规模近4000人 涵盖近300家自动驾驶公司与科研机构[9] - 社区提供30多个自动驾驶技术栈学习路线 内容从入门到精通 覆盖感知 大模型 端到端自动驾驶 世界模型等多个方向[9]
聊聊 AI Agent 到底有多大创新?
自动驾驶之心· 2025-10-18 04:00
AI Agent技术当前面临的挑战 - 当前AI Agent在用户体验上与传统task bot相比并无显著提升,甚至更差[1] - Planning阶段耗时巨大,工具增多后模型准确率下降,使用旗舰模型进一步增加延时[2] - Planning质量不高,模型构建的复杂工作流可用率远低于人类水平,简单工作流使用判别式小模型性能更好[2] - Reflection策略容易陷入自我内耗和死循环[3] Planning速度问题的本质与解决方案 - 核心问题是工具发现和参数对齐成本被低估,从编译时确定的工具编排变为运行时动态选择,搜索空间随工具数量指数级膨胀[5] - 解决方案包括工具层缩小范围分层治理,先用意图分类器将请求路由到具体域,每个域只暴露5-10个核心工具[5] - 将串行改为DAG并行执行,LLMCompiler支持将调用计划编译成有向无环图,并行化可使链路耗时缩短20%[6] - 在项目开始节点增加路由策略,简单任务路由给SLM或专用执行器,复杂规划才使用强推理模型[6] Planning质量问题的本质与提升方案 - 本质原因是模型生成的文字描述计划缺乏可执行性和全局约束,传统workflow有明确的分支条件和异常处理[8] - HiPlan方案将计划拆分为里程碑和局部提示两层,高层管战略目标,低层负责战术细节,里程碑可离线积累复用[8] - Routine实践提供结构化计划框架,强制模型输出符合语法的计划,可将企业场景工具调用准确率提升平均20多个百分点[10] - 搜索式规划如LATS引入MCTS,展开多条路径用Verifier评分选最优,HyperTree和Graph-of-Thoughts支持非树形图结构[12] - 基于强化学习的多轮训练可有效提升agent长程任务性能,例如RAGEN、LMRL-Gym等研究实现明显指标提升[14] Reflection死循环问题的根源与修复方法 - 根本原因是缺少细粒度可计算信号和明确停机条件,模型反思仅靠主观判断易强化错误假设[15] - UFO研究使用最简单的一元反馈如Try again进行多轮RL,不需要详细错误诊断即可学会自我改进[17] - Tool-Reflection-Bench将错误修复过程变为明确可控动作,模型学会基于证据诊断错误并提出可执行后续调用[18] - 工程层面可设置max_rounds硬性上限、no-progress-k连续无改进则停、state-hash去重、cost-budget预算终止等机制[20] AI Agent技术发展趋势与价值 - Agent现阶段问题需结合强化学习,构建多轮交互特定环境,让模型学到稳定推理执行能力[20] - 端到端RL将整个Agent视为策略网络,直接从环境反馈学习,涌现规划、工具使用、反思等能力,是未来技术趋势[20] - AI Agent是LLM在现实场景业务落地最有价值的技术方向,Agent能力正逐步内化为模型能力[21] - RL契合Agent在垂直领域现实环境的问题模拟,工具高度封装化和运行环境可迁移性使sim2real难题不再成为掣肘[21] - 通过RL训练的Agent模型具备很高实用价值且价值持续扩大,同时降低了应用下限并提升了能力上限[21]
自动驾驶论文速递!VLA、世界模型、强化学习、轨迹规划等......
自动驾驶之心· 2025-10-18 04:00
DriveVLA-W0:世界模型增强自动驾驶VLA - 提出DriveVLA-W0训练范式,通过世界建模预测未来图像提供密集自监督信号,解决VLA模型“监督不足”瓶颈,增强泛化能力与数据扩展性[2][6] - 在NAVSIM v1/v2基准上分别达到93.0 PDMS与86.1 EPDMS,推理延迟降至基线VLA的63.1%[2][6] - 设计轻量级MoE动作专家,将推理延迟降至基线VLA的63.1%[6] - 在70M帧大规模内部数据集上验证数据缩放律放大效应,VQ模型ADE降低28.8%,ViT模型碰撞率降低15.9%[6][9] - 在NAVSIM v1基准上PDMS达93.0%,单摄像头优于多传感器竞品[6][9] CoIRL-AD:协同竞争式模仿强化学习框架 - 提出竞争性双策略框架CoIRL-AD,将模仿学习与强化学习结合在潜在世界模型中[13][15] - 在nuScenes数据集上碰撞率降低18%,在Navsim基准上PDMS得分达88.2[13][15] - 利用潜在世界模型实现基于“想象”的模拟,将强化学习融入端到端自动驾驶框架,无需依赖外部模拟器[15] - 设计基于竞争的学习机制,实现IL与RL的联合训练与结构化互动,避免梯度冲突[15] PAGS:优先级自适应高斯泼溅动态场景重建 - 提出Priority-Adaptive Gaussian Splatting框架,通过语义引导剪枝与正则化实现高质量实时3D重建[23][27] - 在Waymo数据集上达到PSNR 34.63,SSIM 0.933,渲染速度353 FPS,训练时间仅1小时22分钟[23][27][30] - 基于静态语义分数和动态梯度贡献分数的混合重要性度量,简化非关键场景元素,保留安全关键目标细粒度细节[27] - 模型尺寸530 MB,显存占用6.1 GB,优于EmerNeRF、StreetGS等主流方法[27][30] Flow Planner:流匹配自动驾驶规划 - 基于流匹配和交互行为建模技术,在nuPlan Val14基准测试中达到90.43分,是首个无需先验知识突破90分的学习型方法[34][38][40] - 在interPlan基准测试中比Diffusion Planner提升8.92分[34][40] - 提出细粒度轨迹分词技术,将轨迹分解为含重叠区域片段,解决全轨迹建模复杂度高问题[35][40] - 构建交互增强的时空融合架构,通过自适应层归一化将异质特征投影到统一latent空间[40] CymbaDiff:草图驱动3D语义场景生成 - 提出CymbaDiff模型,结合圆柱Mamba结构与空间扩散机制,实现基于草图与卫星图像的3D语义城市场景生成[44][47] - 在Sketch-based SemanticKITTI上FID达40.74,比现有方法提升约16分[44][47] - 构建首个面向3D户外语义场景生成的大规模草图驱动基准数据集SketchSem3D[47] - 设计圆柱曼巴扩散模型,显式编码圆柱连续性与垂直层级,提升空间连贯性[47] DriveCritic:VLM自动驾驶评估框架 - 提出DriveCritic框架,利用视觉语言模型进行上下文感知的自动驾驶评估,在人类偏好对齐任务中达到76.0%准确率[55][57][58] - 揭示现有规则化指标缺乏上下文感知能力与人类对齐性的缺陷[57] - 构建DriveCritic数据集,从NAVSIM采样5730个轨迹对,标注pairwise人类偏好[57] - 采用监督微调加强化学习微调两阶段训练,使模型具备跨视觉符号上下文的轨迹判优能力[57][58]
FSD V14深度解析!自动驾驶AI的觉醒时刻?
自动驾驶之心· 2025-10-17 16:04
FSD V14版本概述 - FSD V14被公司描述为具有"觉醒"体验的版本,预计将首次超越人类驾驶员的安全水平[2] - 该版本面向部分早期用户推送,旨在向"无人监督"级别迈出实质性一步[3][9] - V14已更新至V14.1.1版本,改善了顿挫与幽灵刹车问题,V14.2将于几周后发布[27] 技术能力提升 - 新增到达选项功能,支持在停车场、街道、车道、停车库或路边选择泊车位置[7] - 增加对紧急车辆(如警车、消防车、救护车)的靠边停车或让行处理能力[7] - 将导航和路径规划整合到基于视觉的神经网络中,实时处理道路封闭和绕行[7] - 提供额外的速度配置文件,进一步定制驾驶风格偏好[7] - 改进对静态和动态门的处理能力[7] - 增强对道路遗撒物(如轮胎、树枝、箱子)的绕行偏移能力[7] 场景处理优化 - 优化无保护转弯、变道、车辆切入和校车等多种场景的处理能力[7] - 提升系统故障管理能力,从降级操作中平滑恢复,增强可靠性[7] - 增加自动窄场清洗功能,提供快速高效的前摄像头自清洁[7] - 改进对挡风玻璃内部残留物积聚的警报功能[7] - 整体平滑度和感知能力得到提升[7] - 停车位选择和停车质量有所改善[7] 实车测试表现 - 在无GPS停车场环境中能准确识别"EXIT"出口文字与箭头,顺利找到出口[12] - 识别施工封路标志后执行掉头操作,并实时更新导航路线完成绕行[12] - 在夜间关闭的停车场场景中,快速判断通行不可行并立即转向寻找新停车地点[15] - 在窄路施工场景中准确识别施工人员手势标牌,完成停车等待和绕行通过[18] - 通过音频信号识别500米外警笛声,在严重拥堵路段提前寻找变道空间完成特殊车辆避让[21] - 在快餐店Drive-Thru场景中准确停靠点餐麦克风处,并自动跟车前行[24] 技术架构推测 - 可能首次引入语言模态,采用类VLA架构[12][28] - 模型参数量提升10倍,达到750亿规模,Context Length提升3倍[28] - HW4上的FSD V13模型文件规模达7.5GB,假设8bit存储相当于75亿参数[28] - 最可能的技术方案是MoE架构的VLA模型,使用local parameter类似MoE模型中不同的experts网络[28] - 音频输入被整合到控制模型中,新款Model系列配备4麦克风阵列加强音频处理能力[21][28] - 导航信息与视觉网络深度融合,使模型能够根据实时路况调整行驶策略[28]
哈工大&理想PAGS:自驾闭环仿真新SOTA!
自动驾驶之心· 2025-10-17 16:04
研究背景与核心问题 - 动态大规模城市环境的3D重建是自动驾驶系统的核心基础,支撑仿真测试、合成数据生成、数字孪生等关键应用 [1] - 现有主流方法(如StreetGS、DrivingGaussian)采用“均匀优化”范式,存在语义无关的资源分配瓶颈,无法区分对驾驶安全关键的元素(如行人、车辆)与非关键元素(如远处建筑、路边植被) [1] - 资源错配导致计算资源大量浪费在非关键元素上,而关键物体的高频细节因资源不足被平滑或模糊,陷入保真度与计算成本不可兼得的困境 [1] 核心方法设计 - PAGS提出“将任务感知的语义优先级嵌入重建与渲染全流程”,核心包含组合高斯场景表示、语义引导资源分配、优先级驱动的渲染pipeline三大模块 [4] - 组合高斯场景表示对场景进行静动态分离建模,静态背景用固定在世界坐标系的3D高斯集合表示,动态物体在独立局部坐标系内建模 [4] - 语义引导资源分配通过离线语义场景分解将元素划分为关键类(车辆、行人、骑行者)和非关键类(建筑、道路、植被),并基于混合重要性度量进行高斯排序剪枝 [5][8] - 优先级驱动的渲染pipeline通过硬件加速的遮挡剔除,分为Occluder Depth Pre-Pass和Color Pass两个关键pass,实现实时渲染 [6][7][9] 实验验证与结果分析 - 在Waymo和KITTI数据集上的定量结果显示,PAGS在Waymo数据集上PSNR达34.63、SSIM达0.933,在KITTI数据集上PSNR达34.58、SSIM达0.947,均为最优 [13][17] - 训练效率显著提升,训练时间仅1小时22分钟(Waymo)和1小时31分钟(KITTI),远低于StreetGS的3小时以上和EmerNeRF的11小时以上 [13][17] - 渲染速度达到353 FPS(Waymo)和365 FPS(KITTI),是StreetGS(136 FPS)的2.6倍,EmerNeRF(0.23 FPS)的1500倍以上 [10][13][17] - 模型大小530 MB、显存占用6.1 GB,仅为EmerNeRF(1217 MB、10.5 GB)的约1/2,更适配车载硬件资源约束 [10][17] 研究结论与行业意义 - PAGS通过语义引导的资源分配与优先级驱动的渲染加速,打破了动态驾驶场景3D重建中保真度与效率的固有权衡 [22][23] - 该方法能以更短训练时间、更低硬件开销实现更高质量的关键物体重建,为3D高斯泼溅技术在自动驾驶中的实用部署提供了核心技术支撑 [23] - 消融实验证明混合重要性度量(α=0.4)同时实现最高整体PSNR(34.63)与关键物体PSNR(35.97),优于单纯的梯度或语义策略 [20][22]
我们正在寻找自动驾驶领域的合伙人...
自动驾驶之心· 2025-10-17 16:04
业务拓展计划 - 公司计划在2024年向国内外招募10名业务合伙人 [2] - 合伙人将负责自动驾驶相关课程研发、论文辅导业务开发及硬件研发 [2] 重点技术方向 - 公司重点关注大模型/多模态大模型、扩散模型、VLA、端到端自动驾驶等前沿技术方向 [3] - 其他关键领域包括具身交互、联合预测、SLAM、3D目标检测、世界模型等 [3] - 技术布局覆盖闭环仿真3DGS以及大模型部署与量化感知推理 [3] 人才招聘标准 - 合伙人岗位要求应聘者毕业于QS200以内高校并拥有硕士及以上学历 [4] - 优先考虑在顶级学术会议上有发表成果的候选人 [4] 合伙人待遇与激励 - 为合伙人提供自动驾驶领域的资源共享,包括求职、读博及出国留学推荐 [5] - 合伙人将获得丰厚的现金激励 [5] - 公司提供创业项目合作与推荐机会 [5]
执行力是当下自动驾驶的第一生命力
自动驾驶之心· 2025-10-17 16:04
行业竞争格局演变 - 智能驾驶行业经历近两年洗牌后,牌桌已更换一批新玩家,但工业界对自动驾驶的投入持续加大,自动驾驶被视为AI核心技术及未来重点布局方向[1] - 行业在2022年之前处于蓬勃发展期,公司只要具备单一长板(如双目技术、硬件能力或AI能力)即可获得发展机会,但此后进入收缩期或平稳期,生存和发展的关键转变为补足短板[1] - 当前在赛道中活跃且表现良好的公司或主机厂,均在系统性地提升硬件、软件、AI能力及工程落地等综合实力,行业实践表明,只有成为“六边形战士”才能在未来竞争中存活并发展得更好[1] 2025年行业展望与人才需求 - 2025年行业将进入冷静期而非收敛期,L3、L4及Robotaxi等新赛道仍存在未解决的技术问题,这为所有参与者保留了机会[2] - 行业变革对个人而言是挑战更是机遇,能够留在行业内担当主力的均为技术栈丰富的综合型人才,抱有“捞一波”心态者将被淘汰,持续积累和构建壁垒是长期受用的策略[2] 自动驾驶之心知识星球社区概况 - 社区旨在解决初学者试错成本高、缺乏完整学习体系的问题,是一个集视频、图文、学习路线、问答、求职交流于一体的综合类自驾社区,目前成员已超过4000人,目标在未来2年内达到近万人规模[4] - 社区联合了众多学术界与工业界专家,内部梳理了超过40种技术路线,并邀请数十位活跃在一线的领域嘉宾答疑解惑,内容涵盖端到端入门、VLA学习路线、数据闭环工程实践等实用主题[4][6] - 社区成员背景多元,来自上海交大、北京大学、CMU、清华大学等国内外知名高校,以及蔚小理、地平线、华为、大疆等头部公司,形成了前沿技术聚集地[17] 社区资源与技术覆盖范围 - 社区汇总了近40个开源项目、近60个自动驾驶相关数据集及主流仿真平台,技术学习路线全面覆盖感知、规划控制、仿真、端到端、VLA等核心方向[18][35][37] - 针对热点技术领域如3DGS与NeRF、世界模型、视觉语言模型(VLM)、自动驾驶VLA、扩散模型、BEV感知等,社区均进行了详细的技术梳理和内容汇总[42][44][47][49][53][55] - 社区提供原创直播课程与系列视频教程,内容涵盖感知融合、多传感器标定、SLAM、决策规划、数据工程、端到端与大模型技术等,并建立了与多家自动驾驶公司的岗位内推机制[12][13] 社区互动与专业交流 - 社区内部定期与学术界、工业界专家畅聊技术趋势与量产痛点,并举办超过一百场专业直播分享,内容涉及VLA模型、V2X、3D检测、轨迹生成等前沿话题[7][92] - 成员可自由提问并获得解答,问题范围包括研究方向选择、就业前景分析、技术路线图求取以及企业内部推荐机会,形成了良好的学习交流与求职对接环境[6][21][94]
自驾行业完整的基建,更值得毕业的同学做探索!
自动驾驶之心· 2025-10-17 00:03
自动驾驶行业现状与前景 - 自动驾驶行业技术形态开始收敛,但产品形态尚未收敛,仍有许多值得打磨之处 [1] - 行业对计算资源的投入巨大,达到万卡级别,在基建、数据闭环及云端工具链成熟度方面具有优势 [1] - 业内主流在打磨L2功能,L3法规在路上,L4还有更多悬而未决的问题 [1] - 世界模型和VLA(Vision-Language-Action)等技术路线理论部分趋于完善,但落地和用户体验提升仍有长路要走 [1] - 行业更适合硕士和博士将学术探索直接落地,因其拥有完整的基建 [1] - 真正留在行业内的主力是技术栈丰富的综合型人才,洗牌是早晚的事情 [2] 自动驾驶之心知识星球社区 - 社区是一个集视频、图文、学习路线、问答、求职交流为一体的综合类自动驾驶社区 [4] - 社区目前已有超过4000名成员,期望未来2年内做到近万人规模 [4][5] - 社区汇总了40多个技术方向的学习路线,并邀请了数十位活跃在一线的产业界和学术界大佬作为嘉宾 [7][10] - 社区提供岗位内推机制,与多家自动驾驶公司建立了合作 [11] - 社区成员来自上海交大、北京大学、CMU、清华大学等国内外知名高校,以及蔚小理、地平线、华为等头部公司 [16] - 社区内部梳理了近40个开源项目、近60个数据集及行业主流仿真平台 [17] 社区技术资源覆盖范围 - 技术方向覆盖感知、规划控制、仿真、端到端自动驾驶、VLA、世界模型、多传感器融合、BEV感知、3D目标检测等40多个领域 [10][17][27] - 提供包括“自动驾驶100问系列”在内的实战问答,涵盖TensorRT模型部署、毫米波雷达融合、车道线检测等主题 [10] - 社区内部有原创直播课程,涵盖感知融合、多传感器标定、SLAM与高精地图、决策规划等多个系列视频教程 [11] - 汇总了国内外自动驾驶与机器人高校实验室、自动驾驶公司、开源项目及开源数据集 [28][30][34][36] 行业热点与技术趋势 - 端到端自动驾驶是学术界和工业界的研究热点,社区详细梳理了一段式、二段式、量产方案及VLA相关算法 [38] - 3DGS与NeRF、自动驾驶世界模型、视觉语言模型(VLM)、自动驾驶VLA是当前前沿领域 [40][42][44][46] - BEV感知是当下量产的基石,扩散模型是与世界模型、大模型结合的研究热点 [50][52] - 社区内部有超过一百场专业技术直播,分享内容涵盖VLA、V2X、3D检测、大模型等最新工作 [90]
工业界和学术界都在怎么搞端到端和VLA?
自动驾驶之心· 2025-10-17 00:03
端到端自动驾驶技术趋势 - 端到端算法是当前自动驾驶量产的核心算法,技术栈丰富,业内主要存在一段式和两段式两大类范式 [1] - 一段式范式以UniAD为代表,直接从传感器输入建模自车轨迹输出,而二段式则基于感知结果进一步输出自车和他车轨迹 [1] - 一段式端到端算法可进一步延伸出基于感知、扩散模型、世界模型以及视觉语言模型(VLA)等多种子领域,尤其是基于VLA的算法相关论文正爆发式发表,工业界也在争先量产 [1] 自动驾驶VLA与大模型技术 - 核心算法涉及BEV感知、视觉语言模型(VLM)、扩散模型、强化学习、世界模型等,代表了学术界和工业界最前沿的技术方向 [3] - 自动驾驶VLA与大模型实战课程聚焦VLA领域,内容涵盖从VLM作为自动驾驶解释器,到模块化VLA、一体化VLA,以及当前主流的推理增强VLA [3] - 课程配套理论基础梳理,包括Vision/Language/Action三大模块、强化学习、扩散模型等,并设有大作业章节指导从零搭建VLA模型及数据集 [3] 课程师资与团队 - 课程教师团队包括来自清华大学等顶尖院校的研究人员,在ICCV、IROS、EMNLP等国际顶级会议发表多篇论文,研究方向涵盖多模态感知、自动驾驶VLA、大模型Agent等前沿领域 [8][11] - 教师团队具备丰富的自动驾驶、大模型研发和实战经验,例如有教师主持完成多项自动驾驶感知和大模型框架工具,其维护的开源项目总Star数超过2k [8] - 工业界教师团队包括来自国内顶级主机厂的算法专家,拥有CCF-A/B论文发表记录,并主持完成多项自动驾驶感知和端到端算法的产品量产交付,具备丰富的端到端算法研发经验 [12][14] 端到端自动驾驶课程内容 - 端到端与VLA自动驾驶课程由工业界专家带队,聚焦端到端自动驾驶宏观领域,梳理一段式/两段式方向的重点算法和理论基础 [12] - 课程详细讲解BEV感知、大语言模型、扩散模型和强化学习等关键技术 [12] - 课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于VLA的ORION算法 [12] 课程参与要求 - 参与者需要自备GPU,推荐算力在RTX 4090及以上 [15] - 参与者需具备一定的自动驾驶领域基础,熟悉自动驾驶基本模块,并了解transformer大模型、强化学习、BEV感知等技术的基本概念 [17] - 参与者需具备一定的概率论和线性代数基础,熟悉常用数学运算,并具备一定的Python和PyTorch语言基础 [17]