Workflow
视频问答幻觉问题
icon
搜索文档
首个多轮、开放视角视频问答基准,系统分类9大幻觉任务
36氪· 2025-12-26 07:16
为填补这一空白,来自国防科技大学与中山大学的研究团队提出了WildVideo,一个面向真实世界视频-语言交互的、系统性的多轮开放问答评测基准。 新智元报道 【导读】基准WildVideo针对多模态模型在视频问答中的「幻觉」问题,首次系统定义了9类幻觉任务,构建了涵盖双重视角、支持中英双语的大规模高 质量视频对话数据集,采用多轮开放问答形式,贴近真实交互场景,全面评估模型能力。 近年来,大模型在多模态理解领域进展显著,已能够在开放世界中处理图文甚至视频内容。 然而,一个普遍且严重的问题「幻觉」始终制约着其实际应用。 尤其在动态、连续的视觉场景中,模型可能生成与视频内容矛盾、违背常识或在多轮对话中前后不一致的回答。 当前主流评测基准多集中于单轮、单视角、选择题型的设定,难以真实反映模型在开放、连续、交互式对话场景中的能力与缺陷。这一评测体系的局限, 阻碍了我们对模型在实际应用中表现的理解与优化。 论文地址:https://ieeexplore.ieee.org/document/11097075 项目主页:https://chandler172857.github.io/WildVideo-leaderboard ...