AAAI 2026|视频大语言模型到底可不可信?23款主流模型全面测评来了
机器之心·2025-12-15 10:00

视频大语言模型可信度评测基准发布 - 合肥工业大学与清华大学研究团队推出了首个面向视频大语言模型的综合可信度评测基准Trust-videoLLMs,该工作已被AAAI 2026接收[3] - 该基准对5款商业模型和18款开源模型进行了全面评估,总计涵盖23款主流视频大语言模型[3][8] - 评测体系包含真实性、鲁棒性、安全性、公平性、隐私五大核心维度,下设30项精心设计的任务[3][6] 评测体系与方法论 - 评测框架构建了系统化、多层次、可扩展的体系,特别设计了时空动态场景任务以区别于静态图像评测[6][9] - 评测任务涵盖生成式与判别式,并研究视频、文本等多模态输入的相互影响,进行跨模态交互分析[8][9] - 团队提供了采用统一接口和模块化设计的工具箱,便于模型交互和任务执行,并同步开源了大规模视频数据集(包含6955个视频)和统一评估工具箱[3][24] 主要评测结果与模型表现 - 闭源模型,特别是Claude和Gemini1.5系列,在整体可信度评测中普遍优于开源模型[13] - Claude4-sonnet位列综合排名第一,Claude3.7-sonnet和Gemini1.5-Flash紧随其后,GPT-4o排名第六[13] - 在开源模型中,InternVL2.5-78B和Qwen2.5-VL-72B获得最高排名(第五和第七位),展现了与商用模型相媲美的潜力,但大多数开源模型排名靠后[13] 各维度性能表现与关联性 - Claude4-Sonnet在安全性方面表现卓越,Gemini1.5-Flash在鲁棒性方面表现优异[13] - 可信性各子维度之间存在复杂关联:维度内相关性较强,尤其在真实性与安全性中明显;鲁棒性与安全维度高度相关,而时间鲁棒性与真实性维度呈现显著负相关;公平性维度则相对独立[14] 关键研究发现 - 研究发现模型规模与性能并非正比关系,更大的参数规模并不直接意味着更强的可信度表现[16] - 视频上下文对安全性影响显著,同一有害文本提示在搭配相关视频时,模型生成有害内容的概率会显著提升,表明视频内容会放大安全风险[18] - 公平性问题普遍存在,模型在处理性别、年龄、肤色等敏感属性时仍存在刻板印象,闭源模型通过数据清洗和伦理约束表现更好[19] - 隐私保护呈现双刃剑效应:模型能力越强,识别隐私内容的能力也越强,但自主推理出隐私信息的风险也越高[20]