Workflow
推理增强
icon
搜索文档
SALMONN 系列音视频理解大模型霸榜回归!推理增强、高帧率、无文本泄漏全线突破
机器之心· 2025-09-29 08:28
SALMONN 家族在首个通用音频理解模型(ICLR 2024)和首个全要素音视频理解模型 video-SALMONN(ICML 2024)基础上再次迎来重磅扩容, 霸 榜各大音视频理解榜单! 机器之心报道 机器之心编辑部 全新一代 video-SALMONN 2/2+、 首个开源推理增强 型音视频理解大模型 video-SALMONN-o1(ICML 2025)、 首个高帧率 视频理解大模型 F-16 (ICML 2025),以及 无文本泄漏 基准测试 AVUT(EMNLP 2025) 正式发布。新阵容在视频理解能力与评测体系全线突破,全面巩固 SALMONN 家 族在开源音视频理解大模型赛道的领先地位。 图像由 Nano-Banana 生成 新旗舰登场 video-SALMONN 2+ video-SALMONN 2+ 是 首个专注于高质量、完整视频描述 的音视频大语言模型。通过原子事件级的评估体系与 MrDPO 多轮强化学习优化,它大幅减少 信息遗漏和幻觉。在字幕完整性和准确性指标上取得最好结果(SOTA)。 | Model | Modalitv | | Our Caption Benchmark | ...