Workflow
世界模型评估
icon
搜索文档
当世界模型不止「视频」该如何评估?WorldLens提出实用化评估新框架
机器之心· 2025-12-23 09:36
世界模型评估的现状与挑战 - 当前世界模型研究正从“能生成”走向“能用”,但评估体系滞后,传统视频质量指标(如LPIPS、FVD)无法衡量几何自洽、多视角一致、时序稳定、行为可执行等决定模型能否服务于仿真、规划、数据合成和闭环决策的关键世界属性[2] - 评估体系的不统一导致不同模型结论难以对齐,失败模式难以复现与归因,已成为制约世界模型规模化推进的瓶颈[8][10] WorldLens评测框架概述 - WorldLens是领域内首个体系化的世界模型评测框架,从生成、重建、指令跟随、下游任务和人类偏好五个互补维度进行综合评估[3] - 该框架旨在将评估对象从“视频”升级为“世界”,提供一套能覆盖世界属性、诊断失败来源、并在不同模型间公平对比的评测协议[10] - 评测工具包(EvalKit)已公开,包括论文、项目主页、开源代码库和官方排行榜[5][6] 评估维度一:生成 - 评估重点超越“帧级真实”,拆解到更贴近世界属性的层面,包括检查关键参与者(如车辆、行人)的外观与语义是否对齐[15] - 在时序层面检查对象身份稳定性,避免纹理闪烁、形状漂移等异常[15] - 将几何与多视角一致性置于中心,通过估计深度观察几何平滑演化,并通过跨视角匹配检验生成多视角世界的能力[15] 评估维度二:重建 - 核心是检验生成序列能否被还原成一个稳定的4D场景,并在新视角下仍然成立[12] - 方法是将生成视频统一提升为4D Gaussian Field,检验其空间与时间一致性[16] - 新视角评测能暴露典型失效模式,如“floaters”(悬浮、不连续的几何碎片),揭示感知真实不等于几何真实[16] 评估维度三:指令跟随 - 评估目的是测试生成世界是否为规划器提供了足够稳定、可信的可行动线索,而非给规划器打分[19] - 同时进行开环与闭环评测,闭环评测会显著放大生成世界中肉眼难以察觉的不一致,导致碰撞、越界、漂移等问题[19] - 对于服务决策与控制的世界模型,闭环评测是“必要条件”而非“可选项”[19] 评估维度四:下游任务 - 评估世界模型作为数据引擎的实用性,检验其生成数据对真实感知与预测模型的帮助或负迁移效应[12][20] - 直接将生成数据用于评测多个真实下游任务,包括BEV地图分割、3D检测、3D跟踪与语义Occupancy预测等[20] - 研究发现,一些画面漂亮的模型在下游任务上可能出现显著退化,性能降幅可达30–50%,表明纹理质量提升不能替代结构与时间层面的对齐[20] 评估维度五:人类偏好 - 构建了大规模人类偏好数据集WorldLens-26K,包含26808条样本,每条均有数值评分和解释异常的自然语言[22] - 利用该数据集训练自动评估代理WorldLens-Agent,使其能输出与人类偏好一致的评分及可解释理由,实现可扩展的主观评估[22] - 这一步将主观判断转化为可学习、可迭代的信号,为未来用偏好对齐优化世界模型提供了路径[23] 核心评测发现与洞察 - 不同评估维度间存在明显能力断层,生成指标领先的模型未必能在重建与新视角上表现良好,开环表现尚可的模型在闭环中往往迅速失稳[26] - 几何与时序稳定性是贯穿多个维度的“共同瓶颈”,几何不稳会表现为新视角下的floaters,并在闭环中放大为事故,进而拖累下游任务表现[27][28] - 闭环评测会放大缺陷,任何微小的不一致都会持续积累,最终导致碰撞、偏航与路线失败,这对用于仿真与安全测试的模型是直接提醒[29] - 人类偏好与自动指标既相关又不完全一致,人类解释能直接指出几何异常、物理违背等关键失败原因,为自动评估提供了训练依据[31] 行业发展趋势与意义 - 世界模型的发展正从“生成好看的片段”走向“构建可交互的世界”,相应的评估必须从“视频质量”升级为“世界属性”[34] - WorldLens的贡献在于提供了一套可执行的共同语言和协议,覆盖从视觉到几何、从功能到偏好的完整链路,为世界模型发展的“下半场”奠定了基础[34] - 未来世界模型的竞争将更侧重于能否生成一个在几何、物理、行为与人类判断上都经得起检验的世界[34]