专家混合(MoE)技术
搜索文档
端到端再进化!用扩散模型和MoE打造会思考的自动驾驶Policy(同济大学)
自动驾驶之心· 2025-09-14 23:33
自动驾驶技术范式演进 - 端到端技术直接映射传感器输入到驾驶操作,跳过人为感知标注和层级信息损失,但现有方法面临多模态分布处理不足、生成平均化动作导致不安全行为的问题[2] - 强化学习方法能在不确定性下优化策略,但对数据需求极高、训练不稳定且难以扩展到高安全性真实道路场景[2] - 大模型如视觉-语言模型和视觉-语言-动作模型在场景理解和泛化能力表现不错,但实际连续控制中受推理速度慢、动作不连贯和安全性保障难度大的限制[2] 扩散模型在自动驾驶中的应用 - 扩散策略将动作生成视为逐步去噪过程,能更好表达多种驾驶选择并保持轨迹时序一致性和训练稳定性[3] - 扩散模型通过直接建模输出动作空间,为生成平滑可靠驾驶轨迹提供更强大灵活的思路,适合解决驾驶决策多样性和长期稳定性问题[3] - 在机器人控制领域,扩散策略已证明比传统模仿学习和强化学习方法更鲁棒稳定,将轨迹生成问题转变为生成式建模问题[12] 专家混合技术集成 - 专家混合技术通过按需激活少量专家,使模型在保持计算效率同时具备更强扩展性和模块化能力[3] - 在自动驾驶中,MoE被尝试用于多任务策略和模块化预测,但多数设计面向具体任务,限制专家复用性和灵活组合能力[3] - 将MoE融入扩散策略可构建抽象驾驶知识模块,实现真正面向端到端自动驾驶的知识驱动策略框架[15] 知识驱动扩散策略框架 - KDP框架结合扩散模型和MoE优点:扩散模型保证生成轨迹多样性和稳定性,MoE将专家组织成结构化知识单元如纵向控制、交互处理和横向规划[4] - 框架注重知识灵活复用和组合而非任务中心设计,实验证明在多样性、稳定性和泛化性上具有优势[4][6] - 采用端到端思路直接将驾驶环境观测生成控制动作,输入包括自车状态、LiDAR点云和高层导航指令,提供完整环境理解[18] 模型架构与性能 - 模型规模研究表明参数量与驾驶性能正相关:Giant模型1.559亿参数推理延迟81.61毫秒,成功率最高但仍满足实时要求[44][46][48] - 在匝道场景成功率100%零碰撞,交叉口场景成功率94%,环岛场景成功率90%,全面优于PPO-Lag、RPID和IBC基线模型[51][57] - 消融实验显示去除MoE路由器导致成功率下降约6%,移除知识正则化使80%计算集中在两个专家,减少扩散步数从100步到20步使成功率下降3%[54][55][56] 专家激活模式分析 - 时间维度激活呈现稀疏阶段性特点,激活峰值与驾驶任务关键阶段吻合:匝道场景中Expert 3负责纵向控制,交叉口场景Expert 1和5负责交互决策[62] - 场景层级专精与复用显示非均匀但非排他分布:Expert 3专精匝道、Expert 5专精交叉口、Expert 6和8专精环岛,Expert 1和4在多场景复用[64] - 稀疏专家路由机制具备较强环境适应性和知识组合能力,在未调优情况下能在多种复杂路况中平稳运行[70] 典型案例表现 - 匝道合流场景在卡车加塞前成功预判并平稳减速保持安全间距,展现稳定纵向控制能力[69] - 无保护左转场景在交叉口平稳减速等待安全间隙后完成左转,轨迹平滑自然[69] - 直行交互场景面对多车高速抢行动态调整策略确保安全通行[69] - 环岛三出口场景精准控制横向位置和角度,在高复杂度环岛中选择正确出口[69]
三星最新MoSE:专为自驾Corner Case设计的MoE,直接SOTA!
自动驾驶之心· 2025-07-13 13:18
文章核心观点 - 提出一种名为MoSE(Skill-by-Skill Mixture-of-Expert)的新型混合专家学习框架,专门用于提升自动驾驶系统的推理能力[2][8] - 该方法模拟人类驾驶员的学习过程,通过逐技能、分层次的路由机制,使小规模视觉语言模型(<3B参数)在自动驾驶难例推理任务上达到或超越更大规模模型(8B+参数)的性能[2][10] - 在CODA数据集上的实验结果显示,MoSE模型在激活参数少于30亿的情况下,综合得分达到66.03,超越了多个80亿参数以上的专业模型[34][35] 技术方法创新 - 引入以技能为中心的路由机制,首先定义驾驶任务所需的基本技能,然后通过规则或大型VLM(如GPT-4o)对数据进行技能标注,引导专家网络针对不同驾驶场景和阶段进行专业化学习[13][14][17] - 采用分层路由策略,将驾驶任务分解为感知、预测、规划等层次,使模型能够以逐步推理的方式生成答案,提高不同层次问题回答的一致性[8][15] - 在MoSE层中设计共享专家和技能专用专家组合,共享专家始终激活以捕捉全局信息,技能专家则针对特定场景和阶段进行优化[21] 性能优势 - 在CODA自动驾驶极端情况推理任务中,MoSE模型在综合得分上达到66.03,优于专业模型如CODA-8B(63.62)和DriveMM-8B(64.18)[34] - 与基线模型Qwen2-VL SFT(62.50)和普通MoE方法(64.33)相比,MoSE在保持模型规模较小(<3B参数)的情况下实现了性能提升[34][35] - 模型在单轮问答中完成多轮对话的任务,避免了额外的计算成本,激活参数数量相比现有方法减少至少62.5%[2][10] 数据效率与可扩展性 - MoSE方法仅需少量技能标注数据(如2000个样本)即可有效训练路由器,扩大标注数据规模(如3000个样本)并未带来显著性能提升,表明该方法对数据需求较低[42][43] - 通过专家组扩展策略,在不重新训练路由器的情况下增强模型能力,例如为不同模态(文本、图像)分配专用专家,进一步提升性能[23][34] - 在DriveLM数据集上的扩展实验表明,MoSE能够适配不同骨干模型(如StableLM-1.6B)和任务设置,验证其跨数据集的泛化能力[45][46] 行业应用潜力 - 该技术为自动驾驶领域提供了一种高效利用小规模模型实现复杂推理任务的解决方案,有助于降低系统部署的计算成本和能耗[7][10] - 分层技能路由机制增强了模型的可解释性,通过结构化推理链(如对象检测→行为预测→优先级评估)提供调试线索,提升用户对模型的信任[15][48] - 方法可扩展至其他需要多模态理解和实时决策的领域,如机器人技术,为高智能应用系统的开发提供新思路[5][48]