十余所机构联合提出WorldLens:评测了所有开源自驾世界模型(中科院&新国立等)
自动驾驶之心·2025-12-16 00:03

文章核心观点 - 现有自动驾驶生成式世界模型在视觉真实性上已取得显著进展,但在几何一致性、时序稳定性和行为合理性方面存在明显缺陷,且缺乏标准化评估方法 [2][4] - 为解决此问题,研究团队提出了名为WorldLens的全方位评估基准,涵盖生成质量、重建性能、指令跟随、下游任务适配性和人类偏好五个核心维度,旨在引导模型向“不仅看起来真实,更能表现得合理”的方向发展 [2][8][36] - 为衔接客观指标与人类感知,团队构建了包含26,808条标注的WorldLens-26K数据集,并开发了基于人类反馈蒸馏的自动评估代理WorldLens-Agent,共同构成一个可扩展、可解释的评估生态系统 [7][19][20] 背景与问题 - 生成式世界模型已能生成视觉真实感类似行车记录仪的序列,但评估方法发展滞后,缺乏衡量几何结构保持、物理规律遵循和决策可靠性的标准化手段 [4] - 现有广泛使用的指标多侧重于帧质量和美学表现,难以反映物理因果关系、多视角几何一致性或控制场景下的功能可靠性,导致领域进展分散,研究结果缺乏可比性 [4] WorldLens评估框架 - 生成质量:衡量模型合成视觉真实、时间稳定且语义一致场景的能力,拆解为目标保真度、目标连贯性、目标一致性、深度差异度、时间一致性、语义一致性、感知差异度、跨视角一致性八个子维度 [9][11][13] - 重建性能:考察生成视频能否通过可微分渲染重建成连贯的4D场景,评估指标包括光度误差和几何差异度,以发现几何“漂浮物”等问题 [9][12] - 指令跟随:测试预训练动作规划器在生成世界中安全运行的能力,评估发现几乎所有现有世界模型都会导致碰撞或偏离车道等问题 [9][14] - 下游任务适配性:评估合成数据对基于真实数据训练的下游感知模型(如3D检测、跟踪)的支持效果,视觉效果出色的生成世界也可能导致检测或分割精度下降30%-50% [9][15] - 人类偏好:通过大规模人类标注捕捉世界真实感、物理合理性和行为安全性等主观评分,研究发现几何一致性强的模型通常被评为更“真实” [9][15] 实验结果与关键发现 - 生成质量:所有现有模型的表现均显著低于“经验最大值”,驾驶世界模型的视觉与时间真实感仍有巨大提升空间 [23] - 重建性能:MagicDrive的重建性能最差,其光度误差和几何差异度均比表现最佳的OpenDWM高出两倍以上,而OpenDWM和DiST-4D将光度误差和几何误差降低了约55% [24] - 指令跟随:在闭环仿真中,所有模型的路线完成率极低,频繁的失败表明当前合成数据仍无法在高级控制任务中替代真实世界数据 [25] - 下游任务适配性:DiST-4D在所有任务(地图分割、3D检测、跟踪)中均大幅领先,平均比第二名模型高出30%-40% [28] - 人类偏好对齐:所有模型的整体得分均较为温和(10分制中的2到3分),表明当前世界模型与人类级真实感仍有较大差距,DiST-4D在所有维度上的得分最为均衡 [30] 行业洞察与未来方向 - 全面评估至关重要:没有任何单一世界模型能在所有方面表现最优,视觉真实感、几何一致性和下游可用性是互补而非可替代的,凸显了多维度基准测试的必要性 [34] - 感知质量不代表可用性:感知得分优异的模型可能在下游任务中表现不佳,例如OpenDWM的3D检测得分比DiST-4D低30%,表明生成数据与目标域的对齐比感知真实感更为关键 [34] - 几何感知赋能物理连贯性:DiST-4D在重建和新视角任务中的优异表现,表明几何感知监督能显著提升生成场景的物理真实性和可重建性 [34] - 未来设计指南:物理接地世界模型的核心设计原则包括:将几何作为核心优化目标、稳定前景动态、确保自回归鲁棒性,以实现从视觉真实感向物理可靠性的进阶 [35]