自动驾驶之心 - 财报，业绩电话会，研报，新闻

自动驾驶之心

搜索文档

自动驾驶之心· 2025-08-19 23:32

研究生阶段核心目标 - 研一到研二阶段以发表小论文为核心矛盾 [3] - 研三阶段以毕业大论文和求职为核心矛盾 [3] - 研二上学期需完成论文初稿研二全年应完成小论文投稿为后续工作预留时间 [3] 论文辅导服务优势 - 联手200+全球QS前100高校导师提供全流程1v1辅导 [4] - 近3年累计辅导学员超400名中稿率达96% [4] - 提供从选题、调研、代码实践到投稿中稿的一站式科研服务 [9] 目标用户群体 - 计算机专业硕博研究生（导师指导不足需科研支持） [11] - 有职称晋升与学术成就提升需求的科研人员 [11] - 人工智能领域从业者（竞争力提升与职业发展） [11] - 考研申博留学群体（需提升简历含金量） [11] 服务交付体系 - 配备班主任全程督学与进度跟进 [13] - 提供基础课程与文献带读零基础学员6个月可产出小论文 [14] - 300+导师库支持精准匹配按研究方向/目标期刊筛选3-5位候选导师 [14] 附加价值服务 - 优秀学员可获得清北/MIT等名校推荐信及实验室实习机会 [15] - 表现突出者直接内推至阿里达摩院、华为诺亚方舟等企业研发岗 [15] - 支持预收定金试听课程不满意可更换导师或退款 [15]

公司通知团队缩减，懂端到端的留下来了。。。

自动驾驶之心· 2025-08-19 23:32

行业技术趋势 - 自动驾驶行业正从模块化方法转向端到端系统实现传感器输入到车辆规划的直接建模减少误差累积[2] - BEV感知技术打破模块化壁垒在统一视角下实现技术跃迁[2] - 端到端自动驾驶需融合多模态大模型、BEV感知、强化学习、视觉Transformer及扩散模型等多领域技术[5] 技术发展现状 - UniAD统一感知和规划任务首次实现多模块单模型运行标志端到端时代来临[2] - 端到端技术发展出多方向：二段式（如PLUTO）、基于感知的一段式（如UniAD）、基于世界模型（如OccWorld）、基于扩散模型（如DiffusionDrive）及VLA范式[9] - 扩散模型应用于多模轨迹预测提升对不确定环境的适应性代表工作包括DiffusionDrive、Diffusion Planner及DiffE2E[17] 技术挑战与需求 - 端到端技术学习面临多领域知识碎片化、论文数量繁多、缺乏高质量文档及系统实战指导等挑战[5] - 行业要求算法工程师具备多技能融合能力需同时掌握算法规则、感知决策及端到端与VLA等新技术[2] - VLA作为端到端自动驾驶的皇冠技术上限高且难度大成为学术界和工业界研发重点招聘需求旺盛[20] 技术应用与突破 - 世界模型技术应用广泛涵盖场景生成、端到端及闭环仿真代表工作包括Drive-OccWorld和OccLLaMA[15] - VLA技术融合VLM、BEV、扩散模型及强化学习前沿工作包括小米ORION、OpenDriveVLA及ReCogDrive[20] - RLHF技术应用于VLA算法微调具备良好延展性支持预训练和强化学习模块搭建[21] 工业界实践 - 主机厂算法专家主导端到端、大模型及世界模型等前沿算法预研与量产完成多项自动驾驶产品交付[22] - 行业资源向端到端与多模态大模型攻坚集中但仍需规则算法兜底反映技术过渡期特点[2] - 小米ORION截至2025年7月开源推理和评测模块推动VLA技术透明化与行业应用[20]

复旦最新LMAD：迈向可解释端到端VLM~

自动驾驶之心· 2025-08-19 23:32

文章核心观点 - LMAD框架通过多机制协同显著提升自动驾驶视觉语言模型推理性能解决现有方法在整体场景识别和空间感知方面的不足 [2][3] 现有方法局限性 - 场景理解碎片化依赖中间结果或简单视觉表征难以捕捉交通元素间关系 [4] - 空间与运动感知薄弱定位和运动估计表现不足导致驾驶任务性能不佳 [4] 框架创新设计 - 引入初步场景交互机制建模交通参与者初步关系降低学习复杂度 [6] - 采用任务专用专家结构通过并行LoRA模块专注感知预测规划等特定任务 [6] - 端到端系统集成融合先验知识补充空间和运动信息增强推理能力 [6] 关键模块设计 - PI编码器通过解耦查询和交替注意力机制处理多视图图像减少冗余跨视图tokens [12][15] - 并行LoRA在FFN块中替换传统LoRA为多个并行分支每个分支对应不同驾驶任务 [16] - 特征整合通过适配器处理三类特征并对齐语言上下文拼接为端到端tokens [23] 实验性能表现 - DriveLM基准测试中LLaMA-Adapter准确率提升3.44% GPT得分提升3.89% [20][21] - InternVL2整体指标改善准确率从77.95%提升至80.38% GPT得分从64.13提升至65.10 [21] - nuScenes-QA测试中整体准确率提升2.57% H0和H1指标分别提升1.99%和3.75% [25][26] - 在BLEU4 ROUGE L CIDEr METEOR等指标上表现最优 BLEU4达54.59 ROUGE L达75.72 [25] 技术实现细节 - 使用DriveLM数据集包含377,956个QA对 nuScenes-QA数据集约460k个QA对 [24] - 训练采用8张A6000 GPU batch size 16训练2个epoch 使用AdamW优化器 [24] - 推理时结合Chain-of-Thought技术按端到端方法逐步输出结果 [22] 组件有效性验证 - 全组件配置最终得分达57.17 显著高于其他配置 [28][29] - 任务导向P-LoRA在各项指标上表现均衡优于问题导向和分层模式 [28][29] - 感知tokens对行为解释最关键加入预测和规划tokens后准确性进一步提升 [30][31]

自动驾驶之心· 2025-08-19 23:32

扩散语言模型(DLMs)与自回归模型(AR)的范式对比 - 扩散模型在图像生成领域表现突出，代表模型包括Stable Diffusion和DALL·E，通过"从噪声中迭代重建"的生成逻辑刷新视觉创作边界 [2] - 自回归模型主导文本生成领域，代表模型包括GPT、LLaMA、Qwen、DeepSeek系列，采用"逐词预测序列"框架但存在效率瓶颈 [2] - 扩散语言模型(DLMs)通过"并行生成+迭代优化"机制实现数倍推理加速，性能已比肩同等规模AR模型 [2] DLM的核心技术优势 - **并行生成能力**：工业界模型如Mercury系列、Gemini Diffusion实现每秒数千token的推理速度，较AR模型提升10倍以上 [11] - **双向上下文理解**：支持双向注意力机制，在文本补全、风格迁移等任务中表现更优，且能实现细粒度控制如情感倾向调整 [12] - **迭代优化机制**：类似人类写作修改过程，可动态修正低置信度token，LLaDA-8B在GSM8K数学基准测试中准确率超过LLaMA3-8B 5% [13] - **多模态适配性**：统一框架支持文本与视觉联合生成，MMaDA模型在图像生成质量上超越SDXL，同时保持语言理解能力 [14] DLM的三大技术范式 - **连续空间DLMs**：将文本token映射到连续嵌入空间完成扩散过程，可直接使用DDPM等成熟框架但存在语义偏差问题 [19] - **离散空间DLMs**：直接在token词汇表上定义扩散过程，主流路线代表包括8B规模的LLaDA、Dream-7B，支持8192 tokens长序列处理 [20][21] - **混合AR-DLMs**：结合AR长程依赖建模与DLM并行生成能力，Diffusion-LM等模型在指令跟随任务上达到GPT-3.5水平 [22][23] 训练与推理优化技术 - **训练策略**：采用迁移学习降低门槛，Dream-7B基于Qwen2.5-7B初始化，训练数据量减少50%但推理速度提升7倍 [30] - **推理加速技术**：包括置信度感知解码(速度提升27.6倍)、辅助模型引导解码、缓存机制(速度提升9倍)等 [38][40] - **质量保障技术**：ReMDM模型的动态修正机制、LaViDa的互补掩码策略使多模态训练效率提升40% [39] 多模态与产业落地应用 - **多模态模型**：LLaDA-V在MME基准超越LLaVA-1.5-7B 12%，D-DiT在文本生成图像任务人类偏好率达85% [44] - **代码生成领域**：DiffuCoder在HumanEval基准pass@1达68%且推理速度快8倍，Mercury Coder语法错误率仅2.3% [46] - **计算生物学**：MeMDLM设计的膜蛋白表达成功率达68%，DPLM2在蛋白质折叠任务RMSD达1.8Å [47] 未来发展方向与挑战 - **核心挑战**：包括并行性-性能权衡(去噪步数减少导致GSM8K准确率从78%降至45%)、工具链不完善、长序列处理复杂度高等 [51][52][53] - **研究方向**：语义关联建模、专用工具链建设、稀疏扩散架构创新、跨模态协同推理等 [54][56]

端到端VLA的起点：聊聊大语言模型和CLIP~

自动驾驶之心· 2025-08-19 07:20

大语言模型技术发展 - 大语言模型近五年发展迅速，Transformer架构是核心技术基础 [3][5][7] - Transformer核心模块包括注意力机制和多头注意力，通过8个head增强编解码能力 [11][12] - 位置编码采用正弦/余弦函数实现顺序表征，公式为PE(pos,2i)=sin(pos/10000^(2i/d_model)) [9][13] - BPE分词算法通过合并高频字符逐步构建词表，流程包括统计频次、迭代合并等步骤 [8][13] 视觉与语言模型对齐技术 - CLIP是视觉与大模型对齐的典型代表，实现跨模态特征匹配 [18] - 多模态技术栈涵盖BEV感知、扩散模型、强化学习等方向 [48] - VLA（Vision-Language-Action）成为自动驾驶前沿方向，整合VLM、BEV和强化学习技术 [50] 端到端自动驾驶课程体系课程结构 - 第一章概述端到端发展史，对比模块化与端到端范式差异 [40] - 第二章重点讲解大语言模型、BEV感知、扩散模型等关键技术 [41][48] - 第三章分析二段式端到端方案，涵盖PLUTO、CarPlanner等经典算法 [42] - 第四章深入一段式端到端，包括UniAD、DiffusionDrive等前沿工作 [43][47] - 第五章设置RLHF微调实战，强化VLA技术迁移能力 [52] 技术亮点 - 覆盖CVPR'25最新成果CarPlanner和AAAI'25世界模型Drive-OccWorld [42][45] - 实战项目包括Diffusion Planner和ORION开源框架复现 [47][50] - 课程目标使学员达到1年经验算法工程师水平，掌握40-70K岗位核心技术 [31][57] 行业应用与人才需求 - VLA算法专家岗位薪资达40-70K-15薪，需求集中在3-5年经验硕士 [31] - 技术栈要求涵盖多模态大模型、BEV感知、模型量化部署等方向 [34][48] - 主机厂加速布局端到端量产方案，推动世界模型、扩散模型等技术落地 [26][50]

自动驾驶之心· 2025-08-19 03:35

端到端自动驾驶与轨迹预测技术 - 端到端自动驾驶量产应用仍较少多数公司沿用二段式端到端或模块化方法轨迹预测仍是量产主流算法 [1] - 轨迹预测模型与感知模型融合训练即构成端到端系统该领域研究热度持续会议期刊相关论文产出量大 [1] - 多智能体轨迹预测需处理历史轨迹数据预测未来运动应用于自动驾驶/智能监控/机器人导航面临行为不确定性和多模态挑战 [1] 扩散模型在轨迹预测中的应用突破 - 扩散模型通过逐步去噪生成复杂分布在轨迹预测中显著提升多模态建模能力 [2] - LeapfrogDiffusionModel采用可训练跳跃初始化器减少去噪步骤实现实时预测在NBA/NFL/SDD/ETHUCY数据集上精度提升19-30倍 [2] - MixedGaussianFlow构建混合高斯先验在UCY/ETH/SDD数据集达到最先进性能 [2] - PatternMemory-basedDiffusionModel通过聚类运动模式构建记忆库引导生成多样化合理轨迹 [2] 课程体系与科研目标 - 课程聚焦扩散模型多智能体轨迹预测包含12周科研+2周论文指导+10周维护期预期产出算法框架/定量分析/高水平论文 [3][9] - 覆盖轨迹预测技术发展史比较传统模型与生成式模型创新点包含LSTM/SocialPooling/Graph-basedmodel等经典方法解析 [24] - 重点解析LED/MGF/SingularTrajectory/MPMNet等先进算法涉及跳跃初始化/混合高斯先验/运动模式记忆等核心技术 [24] 技术资源支持 - 提供ETH/UCY/SDD等公开行人车辆轨迹数据集及预处理脚本 [20] - 开源LED/SingularTrajectory/MGF/MPMNet等基线代码框架供参考扩展 [21][22] - 必读论文包括CVPR2023跳跃扩散模型/NeurIPS2024混合高斯流等前沿成果 [23] 课程特色与学员收益 - "2+1"师资配置(教授+研究员+行业导师) 配备科研班主任全程督学 [16][17] - 学习周期包含学前测试/个性化指导/学术复习提供论文初稿/结业证书/推荐信等产出 [18][19] - 学员可掌握扩散模型条件控制/社会交互建模/多模态不确定性处理等高级技术 [24]

Intelligent Monitoring

Intelligent Monitoring

强化学习框架的演进与发展趋势

自动驾驶之心· 2025-08-18 23:32

模型训练范式转变 - 2024年OpenAI发布O1系列模型后，训练重心从有监督微调（SFT）转向强化学习（RL），SFT作用弱化为参数初始化或策略引导[3] - RL算法持续迭代优化，从早期DPO到PPO，再到GRPO、RLOO、Reinforce++、DAPO等新方法，在策略更新方式、稳定性和样本效率方面不断提升[4] - RL训练流程包含三大模块：策略生成（Rollout）对应模型推理扩展阶段、奖励评估（Reward Evaluation）对应结果质量打分、策略更新（Policy Update）对应核心参数优化[4][6][7] RL训练框架设计挑战 - Rollout与训练模块需顺序执行，但分布式多卡训练趋势下，异构资源管理和参数同步机制成为关键挑战[12][13] - 底层训练框架（如Megatron-LM、DeepSpeed、PyTorch FSDP）与推理引擎（如vLLM、SGLang）架构差异大，导致参数同步和推理调度实现逻辑复杂化[14][25] - Rollout任务存在显著异构性，尤其在Agent行为模拟场景下，批次内部任务复杂度差异导致调度效率下降和资源利用率不均衡[19] 性能优化策略 - 7B参数模型在FP32精度下需约28GB显存存储参数和梯度，优化器状态额外占用84GB，单卡无法承载[21] - 分布式训练采用数据并行（DP）、张量并行（TP）、流水线并行（PP）策略，千卡规模以下DP与TP/PP性能相近，更大规模下TP/PP因避免All-Gather通信开销更具优势[22][23] - 推理引擎（vLLM、SGLang）通过KV Cache复用和算子优化提升性能，但与训练引擎的参数同步仍需解决精度差异问题[25][28] 训练与推理集成架构 - SPMD（单程序多数据）模式适用于数据量大但模型规模小的场景，MPMD（多程序多数据）模式支持异构程序执行但增加实现复杂度[29][39] - SLIME框架通过Buffer中间件实现推理引擎与训练模块间数据传输，支持命令行配置灵活适应业务需求[34][35] - ROLL框架通过集群角色定义（actor_train、actor_infer、reference等）隐藏训练与推理差异，支持按领域分开采样和奖励模型聚合[42][44] 分布式部署与资源管理 - 模型规模增大（如1000B参数）使并行计算开销显著，Reward模型较小（7-30B）适合分开部署[48] - Ray框架帮助管理分布式资源，但设计与Kubernetes云原生环境存在冲突，实际生产环境管理成本较高[53] - 非Colocation场景下，ROLL支持细粒度GPU资源配置提高资源利用效率，但要求算法侧具备更高资源调度能力[50] 框架技术选型 - OpenRLHF集成Ray、vLLM、ZeRO-3和HuggingFace Transformers，支持灵活混合部署适应异步训练需求[52][61] - SLIME代码简洁适合研究性修改，ROLL强调数据处理和异步操作支持Agentic RL探索，VERL稳定优化适合大规模集群部署[61] - 开源RL框架（VERL、SLIME、ROLL、OpenRLHF）展现技术领先性，但硬件资源（如显卡）仍存在差距[60]

强化学习（Reinforcement Learning

RL）

有监督微调（Supervised Fine-Tuning

SFT）

SPMD（Single Program

Multiple Data）

强化学习（Reinforcement Learning

RL）

有监督微调（Supervised Fine-Tuning

自动驾驶之心· 2025-08-18 23:32

技术发展趋势 - 自动驾驶技术栈呈现趋同态势从过去几十个方向算法需求转向统一方案如one model、VLM和VLA [1] - 技术方案统一化实际形成更高行业技术壁垒 [1] 行业社群建设 - 建立综合型平台汇集全行业人才通过社群方式促进产业人才共同成长 [1] - 社群内容覆盖相关产业讨论、公司分析、产品研发及求职跳槽等专业领域 [1] - 提供行业社交网络构建渠道帮助成员获取产业第一手信息 [1]

Autonomous Driving Technology

Autonomous Driving Technology

性能暴涨4%！CBDES MoE：MoE焕发BEV第二春，性能直接SOTA（清华&帝国理工）

自动驾驶之心· 2025-08-18 23:32

核心观点 - 提出CBDES MoE框架在功能模块层面实现分层解耦的专家混合结构集成四种异构视觉backbone 通过自注意力路由器实现动态专家选择提升自动驾驶BEV感知性能[2][5][12] - 在nuScenes 3D目标检测任务中 mAP提升1.6个百分点至65.6% NDS提升4.1个百分点至69.8% 超越所有单专家基线模型[3][37] - 采用稀疏激活推理机制仅激活top-1专家显著降低计算成本支持实时应用[25][26] 技术架构 - 集成四种结构异构专家网络：Swin Transformer（擅长全局空间结构） ResNet（强于局部结构编码） ConvNeXt（平衡局部性与可扩展性） PVT（多尺度目标建模）[17][18] - 设计自注意力路由器SAR 包含分层特征提取自注意力编码和MLP专家评分三阶段生成图像级路由概率[19][20][21] - 采用软加权特征融合机制根据路由概率动态加权专家输出保持训练稳定性[24] - 引入负载均衡正则化防止专家坍塌使mAP从63.4%提升至65.6% NDS从65.8%提升至69.8%[42][43][46] 性能表现 - 在nuScenes数据集上全面超越单专家基线：BEVFusion-Swin Transformer（mAP 64.0% NDS 65.6%） BEVFusion-ResNet（mAP 63.3% NDS 65.2%） BEVFusion-ConvNeXt（mAP 61.6% NDS 65.2%） BEVFusion-PVT（mAP 62.4% NDS 65.7%）[37] - 在恶劣条件（雨雾夜间）下保持检测鲁棒性显著减少误检和漏检[40] - 训练过程收敛更快损失更低显示优化稳定性和学习效率优势[39] 应用前景 - 可无缝集成至BEVFusion等标准框架保持相机到BEV投影逻辑和下游任务头兼容性[29][30] - 当前支持图像级路由未来可扩展至图像块级或区域感知路由实现更细粒度适应[48] - 潜在扩展方向包括多任务学习（分割跟踪）跨模态路由（激光雷达信号）以及自动化架构搜索[48]

Mixture-of-Experts (MoE)

Bird's Eye View (BEV) Perception

Mixture-of-Experts (MoE)

Bird's Eye View (BEV) Perception

IROS'25 | WHALES：支持多智能体调度的大规模协同感知数据集

自动驾驶之心· 2025-08-18 23:32

自动驾驶协同感知技术发展 - 单车自动驾驶系统存在非视距(NLOS)区域感知局限性，遮挡导致的盲区带来安全风险[2] - 协同式驾驶(Cooperative Autonomous Driving)通过车辆间无线通信实现信息共享，显著提升复杂场景安全性[3] - WHALES数据集首次将智能体调度任务纳入协同感知研究，填补大规模多智能体协同环境数据空白[4] WHALES数据集核心创新 - 包含17k帧LiDAR点云、70k张图像和2.01M个3D标注框，平均每场景8.4个协同智能体[14] - 创新性引入覆盖范围自适应的历史调度算法(CAHS)，基于历史视角覆盖度动态选择最优协同对象[19] - 采用强化学习专家模型生成高质量轨迹，突破传统规则型CARLA pilot的行为局限性[11] 数据集技术规格与实验验证 - 传感器配置包含64通道LiDAR、四路1080P摄像头及V2X通信设备，支持V2V/V2I协同[8] - 协同3D检测实验中VoxelNeXt模型在100米范围mAP提升81.3%，验证长距感知优势[25][26] - CAHS算法在多智能体调度任务中取得65.3/40.1的mAP评分，超越MASS等基线方法[28] 行业应用价值 - 数据集遵循nuScenes存储格式并扩展协同感知标签，兼容现有技术栈降低研究门槛[13] - 通过优化CARLA模拟器实现线性时间成本增长，单智能体新增仅需160ms[14] - 支持全通信、随机调度等5类算法对比，为商业化协同驾驶系统提供基准框架[19][21]