音频编码器
搜索文档
雷军:第二届音频编码器能力挑战赛明年9月将同步亮相Interspeech 2026,已开放报名
新浪财经· 2025-12-15 09:18
公司动态 - 小米公司联合萨里大学、清华大学、海天瑞声共同发起第二届音频编码器能力挑战赛,该赛事将于2026年9月同步亮相国际语音顶级会议Interspeech 2026,并已正式开放报名 [1][3][12] - 小米公司创始人、董事长兼首席执行官雷军亲自宣布此事,并明确表示挑战赛旨在推动音频编码器对音频大语言模型的增效 [1][12] 行业背景与挑战赛目标 - 当前音频大语言模型发展迅速,但大多数主流模型在音频前端编码器上选择非常单一,几乎均基于OpenAI Whisper Encoder,这种对单一技术的依赖限制了模型架构的多样化探索和整体能力的提升 [3][14] - 为应对音频理解能力不断增长的需求,本次挑战赛将聚焦于音频编码器这一核心模块,重点评估其在复杂真实场景下的理解与特征表示能力 [3][14] 挑战赛赛制与评测方法 - 挑战赛采用统一的端到端训练和评估框架,参赛者只需提交预训练的编码器模型,下游任务的训练和评估由主办方完成 [3][15] - 主办方提供了开源的评估系统XARES-LLM,该系统基于用户提供的音频编码器自动训练一个典型的音频大语言模型,并自动测试各种下游任务提供分数 [3][15] - 参赛者也可自行使用开源的XARES-LLM系统进行训练和评估,该系统只需GTX4090即可完成 [5][17] 训练数据规则与资源 - 挑战赛不规定具体的训练数据集,参赛者可以使用任何公开可访问的数据进行训练,包括网络抓取的数据,但不得使用私有保密数据 [5][18] - 参赛模型既可以基于任何开源的预训练模型参数,也可以从头训练 [5][18] - 联合主办方海天瑞声为比赛提供了一个免费的补充数据集,该数据集从八个商用数据集提取构建而成,内容涵盖丰富的日常环境噪声和特定干扰声 [5][6][18] 赛道设置与评估任务 - 挑战赛设置两个独立排名的赛道:赛道A关注大模型处理传统分类任务、输出分类标签的能力;赛道B关注大模型的理解和表达能力,所有提交作品将同时接受两个赛道的评估 [7][19] - 赛道A包含语音、声音、音乐等多个领域的分类任务,例如使用Speech Commands数据集进行关键词检测(30类),使用ESC-50进行环境声音分类(50类)等 [9][20] - 赛道B侧重于理解和表达任务,例如使用LibriSpeech-100h和AISHELL-1-100h进行语音识别,使用Clotho进行音频描述等 [10][21] 报名与提交信息 - 报名截止时间为2026年1月25日11:59 PM AoE,需通过指定链接填写 [11][22] - 编码器模型提交截止时间为2026年2月12日11:59 PM AoE,技术报告提交截止时间为2026年2月25日11:59 PM AoE [11][12][22][23] - 技术报告可同时作为会议论文向Interspeech官方系统投稿 [12][23]