业内首个RL+VLA汇总:强化学习如何推动 VLA 走向真实世界?
自动驾驶之心·2025-12-24 09:22

MindDrive WAM-Diff 论文标题 :MindDrive: A Vision-Language-Action Model for Autonomous Driving via Online Reinforcement Learning 论文链接 :https://arxiv.org/abs/2512.13636 项目主页 :https://xiaomi-mlab.github.io/MindDrive/ 提出机构 :华中科技大学、小米汽车 一句话总结 :为解决VLA模型在线强化学习中连续动作空间探索低效的问题,提出MindDrive框架,通过双专家(决策专家+动作专家)架构将动作空间转化为离 散语言决策空间,实现高效在线RL训练。 核心贡献 : 设计双LoRA适配器架构,决策专家负责场景推理与语言决策,动作专家将决策映射为可行轨迹,建立语言-动作动态映射。 构建基于CARLA模拟器的在线闭环RL框架,采用稀疏奖励与PPO算法,结合KL正则化避免灾难性遗忘。 在Bench2Drive基准上以轻量Qwen-0.5B模型实现78.04的驾驶分数与55.09%的成功率,超越同规模SOTA模型。 点击下方 ...