行业背景与问题 - 当前自动驾驶领域的大规模视觉语言模型在语义理解和逻辑推理上表现突出,但在真实道路场景中处理长尾场景、远距离目标和复杂博弈时,常出现看不清、定位不准、反应不稳定等低级错误[2] - 深层原因在于现有模型在空间感知和几何理解上的能力,远落后于其语义表达能力,导致其无法满足自动驾驶对精确空间理解的高要求[2] - 许多现有方案通过在训练中加入感知类问题来增强模型,但这仅停留在语义标签和粗略相对关系层面,未能让模型掌握可用于控制决策的强2D/3D感知能力,例如精确的检测框、分割结果和BEV感知信息[2] - 这种“弱感知的大模型”只能回答关于世界的问题,而非真正看清世界,不足以支撑自动驾驶和广义具身智能[2] 解决方案:Percept-WAM模型概述 - 引望智能与复旦大学的研究团队联合提出了面向自动驾驶的新一代大模型Percept-WAM,旨在将“看见世界”、“理解世界”和“驱动车辆行动”在一个统一模型中打通,形成从感知到决策的完整链路[3] - 该模型基于具备通用推理能力的VLM主干构建,在保留其语言与推理优势的同时,引入了World-PV和World-BEV世界Token,以统一PV和BEV视角下的2D/3D感知表示[5] - 模型接收多视角流式视频、可选的LiDAR点云以及文本查询作为输入,在同一模型上联合优化多种任务,包括PV下的2D检测、实例分割、语义分割、单目3D检测,BEV下的3D检测与BEV地图分割,以及基于多帧输入的轨迹预测任务[6] 核心技术:世界Token与统一表征 - Percept-WAM围绕World–Awareness–Action构建统一的世界Token空间,将多视角图像和3D场景压缩为一小组结构化World tokens,每个token显式携带语义特征、空间位置及置信度,用作下游任务的共享世界表征[9] - 在图像平面,World-PV tokens将每帧图像划分为规则栅格,每个栅格输出一组token,联合编码局部外观与2D/3D几何信息,基于此可统一建模2D检测、实例/语义分割、单目3D检测等任务[9] - 在鸟瞰视角,World-BEV tokens对应覆盖前方场景的固定分辨率BEV网格单元,通过与多视角PV特征的交互隐式建模PV到BEV的映射,聚合该区域的占据状态、语义类别和运动属性,显式刻画道路结构与交通参与者的空间关系[10] 核心技术:栅格条件预测与IoU感知 - 为提升城市场景中高密度目标预测的稳定性,模型引入了栅格条件预测和IoU-aware置信度回归两项关键设计[11] - 栅格条件预测将整个特征空间按PV/BEV栅格划分为多个子区域,围绕每个栅格构造局部自回归序列,不同栅格间通过注意力掩码隔离,限制跨区域无关交互,从而显著缩短单序列长度,提升高密度场景下的收敛性与训练推理效率[12] - IoU-aware置信度预测显式建模候选框的定位质量,在训练阶段监督置信度微调数据集的分值token,在推理阶段输出预测框与真实框的IoU预测结果,并将该IoU置信度分数与分类分数联合用于整体置信度排序,此设计在小目标、远距离目标及长尾类别上能提供更一致的候选排序,提升密集检测的可靠性[13] 核心技术:从感知到轨迹的决策链路 - 模型在感知类World tokens之上引入World–Action tokens,用于动作与轨迹预测的查询,这些tokens从感知tokens中聚合多视角图像与BEV表征的信息,并与车辆状态融合,在统一坐标系下直接生成未来规划轨迹或控制信号[16] - 相比“先产出BEV特征,再交由独立规划网络”的两阶段方案,World–Action在同一token空间内完成从世界建模到决策输出,使感知与规划在表示空间和时空对齐上天然一致[16] - 在轨迹解码方式上,采用轻量级MLP解码头驱动的基于查询的轨迹预测,World–Action由多组功能不同的查询组成,分别关注自车状态、PV侧特征、BEV侧特征或同时汇聚所有输入特征,以并行方式工作并输出最终轨迹[17] - 面向连续驾驶场景,模型引入流式推理,在时间维度上采用流式KV缓存策略复用历史帧的注意力缓存,仅对新帧做增量计算,同时通过更长片段训练方案和双重重计算KV缓存机制缓解训练-推理不一致带来的分布漂移与误差累积,从而在不显著牺牲规划精度的前提下降低多帧端到端推理的时延与计算开销[19] 实验结果:PV视角感知性能 - 在nuImages/nuScenes的PV任务上,Percept-WAM在2D与单目3D检测上整体匹配或超过专用模型[22] - 在2D检测上达到49.9 mAP,高于Mask R-CNN的47.8 mAP[22] - 在2D实例分割上取得41.7 mAP,高于Mask R-CNN的38.6 mAP[22] - 在单目3D检测上达到33.0 mAP,优于FCOS3D的32.1 mAP[22] - 实验观察到明显的2D–3D协同效应,在统一World-PV表征下联合建模2D与3D检测,可带来约+3.2 mAP的2D检测增益[23] - 对所有PV任务进行联合训练,各基准上性能基本维持一致或提升,说明统一的World-PV token空间有利于在多任务间共享几何与语义信息[23] 实验结果:BEV视角感知性能 - 在BEV空间中,Percept-WAM通过World-BEV tokens统一建模路面占据、动态目标与地图语义[27] - 在不使用时序信息且采用较低图像分辨率(448×796)的设置下,在nuScenes BEV 3D检测上取得58.9 mAP,整体表现优于PointPillars与SECOND等经典BEV检测器[27] - 在BEV地图分割任务上,模型可同时刻画车道线、可行驶区域、行人横穿区等静态语义要素,在部分关键类别(如可行驶区域、行人横穿区)上的分割结果可以超过BEVFusion等专用BEV模型[28] 实验结果:端到端轨迹规划性能 - 在端到端轨迹规划上,搭载World–Action轨迹解码头的Percept-WAM在nuScenes与NAVSIM上均取得有竞争力的表现[30] - 在nuScenes的开环轨迹评估中,Percept-WAM的平均轨迹L2误差约为0.36米,在同等设置下优于多数BEV-based方法(如UniAD)以及VLM-based方法(如DriveVLM)[31] - 在NAVSIM的闭环驾驶评测中,Percept-WAM采用对聚类轨迹打分的方式,获得约90.2的综合得分,同样优于大部分现有端到端方法[32] - 实验表明,两阶段训练策略(先在感知与中间任务上预训练,再在规划任务上微调)可以进一步提升端到端驾驶性能[32] 模型价值与行业意义 - Percept-WAM指出了一条面向未来的演进路径,即在统一大模型中做强世界感知,用World tokens一体化打通世界表征与行为决策,逐步沉淀可持续演进的自动驾驶世界模型[41] - 其价值不在于提供了一个更大的模型,而在于给出了一个更完整、工程上可落地的范式,即自动驾驶的大模型不应只是会聊天问答的“语文老师”,而应是一个真正能构建世界、理解世界并在其中安全行动的“世界大脑”[41]
Percept-WAM:真正「看懂世界」的自动驾驶大脑,感知到行动的一体化模型
机器之心·2025-12-10 02:09