DeepThinkVLA
搜索文档
华科&清华最新DeepThinkVLA:如何让模型 “会思考、能落地”?
具身智能之心· 2025-11-24 10:02
核心观点 - DeepThinkVLA模型通过“混合注意力解码器+两阶段训练pipeline”的创新设计,解决了视觉-语言-动作模型中推理与动作生成的模态冲突问题[2] - 该模型在LIBERO基准测试中实现了97.0%的平均任务成功率,树立了VLA模型的性能新标杆[2] - 架构实现了推理与动作的深度协同,既让模型具备连贯推理能力,又保障动作生成的高效与精准[2][3] 技术架构创新 - 采用混合注意力解码器,在推理生成阶段使用自回归因果注意力,在动作生成阶段切换为双向注意力以支持高维动作向量的并行解码[4] - 通过两阶段训练pipeline(监督微调+强化学习)强化推理与动作的因果关联[6] - 将传统的“观察-指令→动作”直接映射分解为“观察-指令→推理”与“观察-指令-推理→动作”两步概率分解[10] 性能表现 - 在LIBERO基准的四大任务套件中平均成功率达97.0%,其中Object任务成功率99.0%、Goal任务96.4%、Long长程任务96.2%[15] - 相较于顶级自回归模型UniVLA(平均95.2%)和扩散模型π₀(平均94.2%)形成显著优势[15] - 推理延迟大幅降低,相对推理时间仅为0.175倍,为大规模强化学习的高速rollout提供可能[16] 训练与数据策略 - 构建包含273,465个标注帧的具身CoT数据集,通过两阶段标注pipeline平衡标注成本与数据质量[8][10] - 采用基于结果的稀疏奖励+格式正则化奖励设计,仅关注任务最终成功与否[11] - 引入KL散度惩罚正则化机制,避免模型遗忘SFT阶段学到的基础推理能力[11] 技术优势 - 推理学习更高效,复用VLM已有能力,无需海量数据[12] - 动作学习更简单,推理作为显式规划将“一对多”的模糊映射转化为明确映射[12] - 具备错误恢复机制,模型在执行错误时能通过思维链显式引导实现自我修正[10]