Workflow
理想汽车智驾方案MindVLA方案详解

文章核心观点 - 理想汽车推出MindVLA自动驾驶框架 通过整合空间智能模块、语言智能模块、动作策略模块和强化学习模块 构建端到端自动驾驶系统 其核心技术包括自监督3D高斯编码器预训练、定制化大语言模型设计以及基于扩散模型和人类反馈的轨迹生成方案 显著提升自动驾驶系统的空间理解能力、交互博弈能力和人类偏好对齐能力[3][5][9] 空间智能模块 - 采用3D高斯编码器处理多模态传感器数据 提取时空特征并融合语义信息形成统一表征[5] - 传统BEV方法存在高度信息压缩导致细节丢失 稀疏查询可能忽略关键环境细节 密集体素表示计算开销大[8] - GaussianAD框架用均匀高斯序列初始化3D场景 通过4D稀疏卷积实现高斯交互 支持稀疏体素特征预测和目标检测[12][20] - 高斯表示通过多视角图像优化高斯参数 生成稀疏3D语义高斯集合 每个单元描述局部几何和语义属性 减少冗余计算同时保留细粒度结构[16] 语言智能模块 - 嵌入式部署大语言模型MindGP 支持空间与语言联合推理 实现语音指令和反馈的人车交互功能[5] - 基于互联网多模态数据训练的通用LLM缺乏3D空间理解能力 需从零开始预训练适合自动驾驶场景的基座模型[18] - 采用稀疏化设计减少模型容量 通过MoE+SparseAttention结构平衡参数量与推理速率 实现10HZ实时推理性能[27] - 训练数据配比重构 增加3D场景数据和自动驾驶图文数据比例 降低文史类数据占比[27] 动作策略模块 - 使用扩散模型生成车辆未来行为轨迹 引入噪声引导扩散过程以产生多样化动作规划[5] - 扩散策略将action token解码为自车、他车和行人轨迹 提升复杂交通环境下的博弈能力[22] - 采用多层DIT结构 基于ODE采样器加速生成过程 在2-3步内完成稳定轨迹生成[28] - 通过人类反馈驱动的强化学习微调 对齐专业驾驶员行为 提高安全驾驶下限[28] 强化学习模块 - 使用World Model模拟外部环境响应评估行为后果 奖励模型提供偏好或安全性评估 可能采用RLHF技术[5] - 通过闭环学习根据行为轨迹进行持续优化和泛化[5] - TrajHF框架结合扩散策略生成多样化候选轨迹 通过RLHF微调对齐人类偏好 同时用行为克隆损失保留基础驾驶能力[26][28] - 偏好数据自动构建通过人类接管数据识别六类驾驶风格 关键帧标注实现大规模自动注释[33] 技术实现细节 - 感知任务采用高斯编码器块 包含自编码模块促进高斯交互、图像交叉关注模块聚合视觉信息、细化模块微调高斯属性[17] - 预测与规划端到端训练 结合未来高斯流和占用情况优化轨迹 最小化碰撞风险与轨迹偏差[20] - 支持多任务监督包括3D检测、语义地图、运动预测和占用预测 通过损失函数联合优化[20] - 推理系统采用双模式:CoT生成加速使用小词表+投机推理 action token生成采用并行解码方式[27]