DeepThinkVLA - 财报，业绩电话会，研报，新闻 - Reportify

DeepThinkVLA

搜索文档

华科&清华最新DeepThinkVLA：如何让模型 “会思考、能落地”？

具身智能之心· 2025-11-24 10:02

核心观点 - DeepThinkVLA模型通过“混合注意力解码器+两阶段训练pipeline”的创新设计，解决了视觉-语言-动作模型中推理与动作生成的模态冲突问题[2] - 该模型在LIBERO基准测试中实现了97.0%的平均任务成功率，树立了VLA模型的性能新标杆[2] - 架构实现了推理与动作的深度协同，既让模型具备连贯推理能力，又保障动作生成的高效与精准[2][3] 技术架构创新 - 采用混合注意力解码器，在推理生成阶段使用自回归因果注意力，在动作生成阶段切换为双向注意力以支持高维动作向量的并行解码[4] - 通过两阶段训练pipeline（监督微调+强化学习）强化推理与动作的因果关联[6] - 将传统的“观察-指令→动作”直接映射分解为“观察-指令→推理”与“观察-指令-推理→动作”两步概率分解[10] 性能表现 - 在LIBERO基准的四大任务套件中平均成功率达97.0%，其中Object任务成功率99.0%、Goal任务96.4%、Long长程任务96.2%[15] - 相较于顶级自回归模型UniVLA（平均95.2%）和扩散模型π₀（平均94.2%）形成显著优势[15] - 推理延迟大幅降低，相对推理时间仅为0.175倍，为大规模强化学习的高速rollout提供可能[16] 训练与数据策略 - 构建包含273,465个标注帧的具身CoT数据集，通过两阶段标注pipeline平衡标注成本与数据质量[8][10] - 采用基于结果的稀疏奖励+格式正则化奖励设计，仅关注任务最终成功与否[11] - 引入KL散度惩罚正则化机制，避免模型遗忘SFT阶段学到的基础推理能力[11] 技术优势 - 推理学习更高效，复用VLM已有能力，无需海量数据[12] - 动作学习更简单，推理作为显式规划将“一对多”的模糊映射转化为明确映射[12] - 具备错误恢复机制，模型在执行错误时能通过思维链显式引导实现自我修正[10]

视觉 - 语言 - 动作（VLA）模型

思维链（CoT）推理

Artificial Intelligence

视觉 - 语言 - 动作（VLA）模型

思维链（CoT）推理

Artificial Intelligence