ShotBench

搜索文档
看遍奥斯卡后,VLM达到电影摄影理解新SOTA|上海AI Lab开源
量子位· 2025-07-16 01:49
视觉语言模型(VLMs)在电影理解领域的突破 - 当前最强大的VLMs在理解电影方面存在局限性,平均准确率低于60%,尤其在细粒度视觉线索和复杂空间推理方面表现不佳 [1][3][6] - 上海人工智能实验室联合多所高校推出ShotBench基准、ShotVL模型及ShotQA数据集,填补了电影摄影语言理解的评测与训练空白 [1][3] - ShotBench包含3,572个高质量问答对,覆盖8个关键电影摄影维度,数据来自200多部奥斯卡提名电影 [1][8][14] ShotBench基准的特点 - 基准包含超过3.5k个专家标注的图像和视频片段问答对 [1] - 涵盖八个核心电影摄影维度:景别、取景构图、摄像机角度、镜头焦距、照明类型、照明条件、构图和摄像机运动 [1][11][16] - 采用严格的数据标注流程,结合专业标注员和专家监督确保数据质量 [8][9][10] ShotQA数据集与ShotVL模型 - ShotQA包含约7万个电影问答对,是首个大规模综合摄影语言理解数据集 [1][15] - ShotVL采用两阶段训练流程:大规模监督微调(SFT)和群体相对策略优化(GRPO) [15][19][20] - ShotVL-3B模型在ShotBench上平均准确率达65.1%,超越GPT-4o(59.3%)和Qwen2.5-VL-72B-Instruct(59.1%) [3][24][25] 模型性能比较 - 在24个主流VLM评测中,表现最好的现有模型平均准确率不足60% [3][6] - ShotVL-3B相比基础模型Qwen2.5-VL-3B-Instruct平均提升19.0% [3][24] - 开源模型与专有模型之间的总体性能差异微乎其微 [21] 技术实现细节 - 数据来源于奥斯卡最佳摄影奖提名电影,包含3,049张图片和464个视频片段 [8][14] - 标注流程包括数据策展、标注员培训、QA标注和严格验证 [9][10][14] - 两阶段训练中,GRPO策略显著提升了模型性能,尤其在摄像机运动维度 [26][27][28] 行业影响与开源贡献 - 该研究为AI驱动的电影理解和生成领域提供了专业模型基座 [29] - 团队开源了模型、数据和代码,促进该领域快速发展 [4][30] - 3B参数模型超越GPT-4o,为行业提供了高性能低成本的解决方案 [24][29]