Quantization
搜索文档
五年,终于等来Transformers v5
机器之心· 2025-12-02 06:47
产品发布与市场地位 - Transformers v5 发布首个候选版本 v5.0.0rc0,标志着从 v4 到 v5 长达五年的技术周期跨越 [1][2] - 该库日下载量从2020年11月v4发布时的2万次激增至如今的超过300万次,总安装量突破12亿次 [2] - 支持的模型架构从最初的40个扩展至超过400个,社区贡献的模型权重超过75万个 [2] 核心战略方向 - v5版本将PyTorch确立为唯一核心后端,聚焦于四大维度进化:极致的简洁性、从微调迈向预训练、与高性能推理引擎的互操作性、将量化提升为核心功能 [2] - 在人工智能领域,公司将“重塑”视为保持长盛不衰的关键,需要不断演进以保持其相关性 [2] 简洁性与标准化 - 团队首要关注点是简洁性,旨在实现更广泛的标准化、更强的通用性和更全面的生态支持 [3][4] - 大力推进模块化设计,使维护更简单、集成速度更快,并促进社区协作 [6] - 引入抽象层如AttentionInterface来简化通用辅助函数的管理 [8] 模型集成与工具 - 目标是收录所有最新模型架构,成为模型定义的唯一可信来源,过去5年平均每周新增1-3个新模型 [4] - 构建工具通过机器学习识别新模型与现有架构的代码相似度,并致力于自动化模型转换流程以减少手动工作 [9][10] - 对建模文件和标注相关文件进行大规模重构,使建模代码只保留核心部分 [11] 训练能力扩展 - v5版本加大了对大规模预训练和完整训练的支持,重新设计了模型初始化方式并加入对优化算子的支持 [15][16] - 已与torchtitan、megatron、nanotron等工具实现更广泛的兼容 [16] - 继续与Python生态系统中的微调工具紧密合作,并与JAX生态中的工具兼容 [17] 推理优化 - v5优化推理方向,包括专用内核、更干净的默认设置、新的API,以及优化对推理引擎的支持 [18][19] - 定位并非取代vLLM、SGLang等专业推理引擎,而是实现与这些引擎的兼容 [21] - 与ONNXRuntime、llama.cpp和MLX密切合作,确保良好的互操作性,并推动设备端直接运行 [23][24] 量化技术 - 量化被提升为核心能力之一,确保与主要功能完全兼容,并为训练与推理提供可靠的量化框架 [25][27] - 许多SOTA模型如今以低精度格式发布,如8-bit和4-bit [25]