Workflow
多视图理解
icon
搜索文档
GPT-4o不敌Qwen,无一模型及格!UC伯克利/港大等联合团队提出多模态新基准:考察多视图理解能力
量子位· 2025-05-14 06:07
多视图理解推理新标准 - 多视图理解指从不同视角整合视觉信息实现理解决策,对机器人在复杂环境中执行任务至关重要[1] - 过去因评估基准稀缺导致研究进展缓慢,UC伯克利等机构联合推出All-Angles Bench填补空白[2] - 该基准包含90个真实场景下2100组人工标注多视图问答对,数据集和评测代码已开源[2][3] 数据集构建 - 数据来源于EGO4D-EXO和EgoHumans数据集,涵盖六大挑战性任务:计数、属性识别、相对距离、相对方向、物体操控和相机位姿估计[8] - 构建过程分三阶段:1) 用GPT设计任务相关问题 2) 人工标注细化问题并交叉检查 3) 生成视角对应的成对问题并进行质量控制[12] 模型性能评估 - 测试27个领先MLLMs(包括GPT-4o、Gemini-2.0-Flash等),发现与人类水平存在显著差距[4][14] - 人类在相机位姿估计任务准确率达88.9%,顶尖模型落后超50%[16] - 开源模型Ovis2-34B和Qwen2.5-VL-72B在方向敏感任务上超越闭源模型[17] 关键发现 - 模型在成对问答中表现不一致:GPT-4o在相对距离任务IC得分达70%,所有模型在方向变化任务表现最差[20][22][23] - 跨视角整合碎片化信息能力弱,如GPT-4o会统计单视角最大数量而非跨视角总和[24][25] - 思维链方法对部分模型提升有限,需专门多视图训练实现根本性改进[31][32] - 相机位姿估计能力薄弱,难以对齐不同视角的变换[34]