Workflow
SALMONN 系列音视频理解大模型霸榜回归,推理增强、高帧率、无文本泄漏全线突破
36氪·2025-09-29 08:18

SALMONN 家族在首个通用音频理解模型(ICLR 2024)和首个全要素音视频理解模型 video-SALMONN(ICML 2024)基础上再次迎来重磅扩容,霸榜 各大音视频理解榜单! 全新一代 video-SALMONN 2/2+、首个开源推理增强型音视频理解大模型 video-SALMONN-o1(ICML 2025)、首个高帧率视频理解大模型 F-16(ICML 2025),以及无文本泄漏基准测试 AVUT(EMNLP 2025) 正式发布。新阵容在视频理解能力与评测体系全线突破,全面巩固 SALMONN 家族在开源音 视频理解大模型赛道的领先地位。 图像由 Nano-Banana 生成 新旗舰登场,video-SALMONN 2+ 推理增强,让模型真正看懂,video-SALMONN-o1(ICML 2025) 得益于对音频模态的同步利用,video-SALMONN 2+ 系列在 Video-MME 等榜单上,无字幕(端到端真实系统)与有字幕(外挂人工标注或商业语音识别 系统生成的理想字幕)之间的性能差距小于 2%。这表明音视频联动能有效增强语义理解能力,并能在无人工字幕的视频与具身机器人等场景 ...