SALMONN 系列音视频理解大模型霸榜回归，推理增强、高帧率、无文本泄漏全线突破

SALMONN 家族在首个通用音频理解模型（ICLR 2024）和首个全要素音视频理解模型 video-SALMONN（ICML 2024）基础上再次迎来重磅扩容，霸榜各大音视频理解榜单！全新一代 video-SALMONN 2/2+、首个开源推理增强型音视频理解大模型 video-SALMONN-o1（ICML 2025）、首个高帧率视频理解大模型 F-16（ICML 2025），以及无文本泄漏基准测试 AVUT（EMNLP 2025）正式发布。新阵容在视频理解能力与评测体系全线突破，全面巩固 SALMONN 家族在开源音视频理解大模型赛道的领先地位。图像由 Nano-Banana 生成新旗舰登场，video-SALMONN 2+ 推理增强，让模型真正看懂，video-SALMONN-o1（ICML 2025）得益于对音频模态的同步利用，video-SALMONN 2+ 系列在 Video-MME 等榜单上，无字幕（端到端真实系统）与有字幕（外挂人工标注或商业语音识别系统生成的理想字幕）之间的性能差距小于 2%。这表明音视频联动能有效增强语义理解能力，并能在无人工字幕的视频与具身机器人等场景 ...