视频问答幻觉问题 - 财报，业绩电话会，研报，新闻 - Reportify

视频问答幻觉问题

搜索文档

首个多轮、开放视角视频问答基准，系统分类9大幻觉任务

36氪· 2025-12-26 07:16

为填补这一空白，来自国防科技大学与中山大学的研究团队提出了WildVideo，一个面向真实世界视频-语言交互的、系统性的多轮开放问答评测基准。新智元报道【导读】基准WildVideo针对多模态模型在视频问答中的「幻觉」问题，首次系统定义了9类幻觉任务，构建了涵盖双重视角、支持中英双语的大规模高质量视频对话数据集，采用多轮开放问答形式，贴近真实交互场景，全面评估模型能力。近年来，大模型在多模态理解领域进展显著，已能够在开放世界中处理图文甚至视频内容。然而，一个普遍且严重的问题「幻觉」始终制约着其实际应用。尤其在动态、连续的视觉场景中，模型可能生成与视频内容矛盾、违背常识或在多轮对话中前后不一致的回答。当前主流评测基准多集中于单轮、单视角、选择题型的设定，难以真实反映模型在开放、连续、交互式对话场景中的能力与缺陷。这一评测体系的局限，阻碍了我们对模型在实际应用中表现的理解与优化。论文地址：https://ieeexplore.ieee.org/document/11097075 项目主页：https://chandler172857.github.io/WildVideo-leaderboard ...

多模态大模型

视频问答幻觉问题

Artificial Intelligence

多模态大模型

视频问答幻觉问题

Artificial Intelligence