翻译界的ChatGPT时刻,Meta发布新模型,几段示例学会冷门新语言
Meta PlatformsMeta Platforms(US:META) 36氪·2025-11-11 12:12

技术突破与性能表现 - 发布的Omnilingual ASR系统能自动识别转录1600多种语言,创造了语音识别覆盖语言数量的新纪录,其中包括500种此前从未被任何AI系统转录过的语言 [1][2][5] - 系统识别性能领先,在测试的1600多种语言中,有78%的语种其字符错误率低于10%;对于训练语料超过10小时的语种,该比例达到95%;即使在训练语料极少的低资源语言中,仍有36%实现了字符错误率低于10%的效果 [7][8] - 模型支持从约3亿参数的轻量级版本到高达70亿参数的强力版本,训练使用了超过430万小时的语音音频,涵盖1239种语言的素材,是有史以来最大规模、多样性最高的语音训练语料之一 [16][18] 核心创新与可扩展性 - 系统引入了零样本的上下文学习机制,用户可通过提供少量音频和文本示例,在推理过程中即时让模型学会一种新语言,无需大规模语料收集和专业训练 [10] - 凭借少样本学习能力,该系统的潜在语言覆盖能力理论上可以扩展到超过5400种语言,几乎涵盖所有有文字记录的人类语言,实现了从静态封闭到动态自适应的范式转变 [10] - 模型架构采用自监督预训练的wav2vec 2.0语音编码器,并结合传统CTC解码和融入Transformer的大模型文本解码器,后者赋予了模型强大的上下文学习能力 [16] 开源策略与社区合作 - 公司选择将整套多语种ASR系统在GitHub上完全开源,采用Apache 2.0许可发布模型和代码,可供免费使用、修改和商用 [11] - 同步释放了一个巨大的多语言语音数据集——Omnilingual ASR语料库,包含350种语料稀缺语言的转录语音数据,所有数据以CC-BY协议开放提供 [13][14] - 开发过程与全球语言组织和社区合作,如Mozilla基金会的Common Voice项目、非洲的Lanfrica/NaijaVoices等机构,采用社区共创模式收集大量语音样本 [14][15]