交互式推理

搜索文档
MTRDrive:一种具备动态交互式推理的自动驾驶VLA框架(清华&小米)
自动驾驶之心· 2025-09-28 23:33
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 视觉-语言-动作模型(VLA)被认为是提升自动驾驶在长尾场景中推理能力的关键路径,但现有方法在应对长时程与高层级行为决策时仍面临显著挑战。 尤其在极少样本甚至零样本的复杂场景下,模型的泛化能力有限,难以在动态、不确定的道路环境中保持持续稳健的表现。当前的主要痛点可归纳为: 稳健的驾驶决策高度依赖于 感知准确性与推理可靠性 两大核心因素的深度协同。人类驾驶员在长期与环境交互的过程中,不仅依靠实时感知,更善于借助 经验积累实现动态预判与自适应调整,这一过程深刻契合了《论语》 "工欲善其事,必先利其器" 的古老智慧。其中,"器"不仅指驾驶工具,更指向驾驶员 通过经验凝练形成的认知工具库——包括对复杂路况的识别模式、风险预估策略以及应急决策流程。 人类驾驶行为本质上是一个 "感知–判断–决策–行动" 的动态闭环系统。驾驶员通过持续融合实时环境信息与历史经验,不断优化自身的反应策略,从而在不确定的交通场景中实现安全导航。例如,熟练驾驶 员能够依据前方车辆动态、路面状态乃至环境气象特征,提前做出减速或变道等预判性操作,体 ...