编码器 - 解码器架构
搜索文档
T5Gemma模型再更新,谷歌还在坚持编码器-解码器架构
机器之心· 2025-12-19 03:42
文章核心观点 - 谷歌在密集发布模型后,于年底推出了意料之外的T5Gemma 2模型,这是新一代编码器-解码器架构模型,旨在打破该架构被边缘化的现状,并展示了其在多模态、长上下文等任务上的独特优势 [1][3][30][31] 模型发布与定位 - T5Gemma 2是谷歌新一代编码器-解码器模型,也是首个多模态和长上下文的编码器-解码器模型,建立在Gemma 3的强大功能之上 [9] - 谷歌向社区发布了270M–270M、1B–1B以及4B–4B三种规模的预训练模型,是社区中首个支持超长上下文(最高128K token)的高性能编解码器大语言模型 [9] - 谷歌是为数不多仍在坚持编码器-解码器架构大模型的玩家,此次更新是建立在今年上半年发布的、反响热烈的开放模型Gemma 3系列之上 [7] 技术架构与创新 - T5Gemma 2延续了“适应”训练路线,将一个预训练的纯解码器模型适配为编解码器模型,同时底座采用Gemma 3模型,并将技术扩展到了视觉-语言模型领域 [5][13] - 模型进行了重要的架构创新:1) 在编码器与解码器之间共享词嵌入参数,以降低参数量;2) 在解码器中采用合并注意力机制,将自注意力与交叉注意力融合,以减少参数和复杂度,提升并行化与推理效率 [15][16] 核心能力升级 - **多模态能力**:通过引入高效的视觉编码器,模型能够同时理解和处理图像与文本,完成视觉问答和多模态推理等任务 [11][17] - **超长上下文**:借助Gemma 3的局部—全局交替注意力机制,T5Gemma 2能够支持最长达128K token的上下文输入 [11][18] - **大规模多语言支持**:通过在更大、更多样化的数据集上训练,模型开箱即用即可支持140多种语言 [11][19] - **效率提升**:通过上述架构创新,实现了效率提升 [11] 性能表现 - **强大的多模态性能**:在多个基准测试中超越Gemma 3,成功将原本仅支持文本的Gemma 3基础模型(270M与1B)适配为高效的多模态编解码器模型 [25] - **卓越的长上下文能力**:相较于Gemma 3和T5Gemma,在生成质量上取得显著提升,处理长上下文问题表现更佳 [25] - **全面提升的通用能力**:在代码、推理和多语言等任务上,T5Gemma 2整体上均优于其对应规模的Gemma 3模型 [25] - 实验表明,该适配策略在不同模型架构与模态上具有良好的通用性,验证了编解码器架构在长上下文建模方面的独特优势 [29] - 在预训练阶段的性能可达到或超过其Gemma 3对应模型,而在后训练阶段则取得了显著更优的表现 [29] - 详细性能表格数据显示,T5Gemma 2在不同参数规模(270M-270M, 1B-1B, 4B-4B)下,于多项基准测试(如MMLU、GSM8K、代码任务、多语言、多模态、长上下文任务)中,普遍优于或接近对应的Gemma 3及T5Gemma模型 [27][28]
编码器-解码器架构的复兴?谷歌一口气发布32个T5Gemma模型
机器之心· 2025-07-10 08:35
行业动态 - xAI发布Grok 4大模型,引发AI社区高度关注 [1] - 谷歌同期更新Gemma系列模型,包括MedGemma和T5Gemma [2][3][5] MedGemma模型 - 包含4B和27B两种参数规模的多模态模型,专注于医疗AI应用 [3] - 能够根据医疗图像和文本描述辅助诊断并提供建议 [4] T5Gemma模型架构 - 采用编码器-解码器架构,包含32个不同变体 [8][9] - 基于Gemma 2框架,参数规模包括2B和9B [8] - 支持不同大小的编码器与解码器组合,如9B编码器配2B解码器 [18] 技术特点 - 使用"适应"技术将预训练的仅解码器模型转换为编码器-解码器架构 [15] - 支持PrefixLM和UL2两种训练目标 [8] - 在GSM8K数学推理任务上延迟显著降低 [22][23] 性能表现 - T5Gemma 9B-9B在GSM8K得分比Gemma 2 9B高出9分 [28] - 在DROP阅读理解任务上得分高出4分 [28] - 平均性能优于仅解码器架构 [30] - 指令微调后MMLU得分提高12分,GSM8K从58%提升至70.7% [31] 应用优势 - 在摘要、翻译、问答等任务中表现优异 [7] - 可根据任务需求灵活配置编码器-解码器规模 [19] - 在质量-效率边界上占据主导地位 [21][29]