Post-Training
搜索文档
Mid-Training 会成为未来的 Pre-Training 吗?
机器之心· 2025-11-23 01:30
Mid-Training 会成为未来的 Pre-Training 吗 行业动态与公司布局 - OpenAI 在2024年7月低调成立“中期训练”(Mid-Training)部门,负责改进旗舰模型,成果包括GPT4-Turbo和GPT-4o,团队贡献显著[6] - OpenAI 当前Safety Systems team的职位描述中包含“通过有针对性的预训练和mid-Training干预措施,使后续的协调工作更加有效和高效”[6] - xAI 也被报道在不同渠道的招聘说明中阐述了对Mid-Training人才的需求[6] - 微软、零壹万物等机构在2024年的研究论文中接连提及对“Mid-Training”不同程度的投入[6] 概念定义与业界关注 - “Mid-Training”在字面上与“Pre-Training”“Post-Training”高度关联,被描述为介于两者之间的环节,但截至2024年底,不同工作对该术语的定义、理论和算法实现存在诸多差异[7] - 2025年7月,OpenAI研究员Noam Brown在播客中将Mid-Training描述为“新的Pre-Training”,称当前的预训练模型就像能衍生出其他模型的半成品,mid-training就像是派生时的预训练,post-training则完成最终的细化与优化[7] - Mid-Training是通过某些有趣的方式为模型添加新的能力或特性的一种手段,与预训练和后训练间的界限非常模糊,难以给出严谨定义,但它不同于pre-training中对大规模语料的广泛学习,也不是post-training中针对具体用途的微调,而是一个独立阶段,可以拓展模型的泛化能力和实用性[7] 研究进展与框架探讨 - 北大和美团的研究者在10月底发布综述“A SURVEY ON LLM MID-TRAINING”,尝试明确当下Mid-Training的定义,并通过数据管理、训练策略和模型架构优化框架三个层面探讨现有的Mid-Training工作[8] - 该综述将Mid-training定义为衔接预训练和后训练之间的一个关键阶段(vital stage),其特点是使用的中间数据(intermediate data)和计算资源(computational resources)[8] - Mid-training阶段的定位在于系统地增强LLM的特定能力(如数学、编程、推理、长上下文扩展),且必须保持模型基础能力不下降[9] 优化策略与历史溯源 - Mid-Training的优化策略主要从数据整理、训练策略和模型架构优化三个维度进行,核心目标包括优化用于Mid-training的数据质量和分布、调整训练配置以提高效率和效果、以及调整或利用模型特性来配合Mid-training[10] - 数据整理维度探讨数据清洗与增强以及合成数据的利用,训练策略维度包括学习率退火、上下文扩展和权重平均,模型架构优化维度涉及MoE路由和注意力机制的调整[10] - “Mid-Training”词源最早可以追溯到Google Research的ACL 2020论文“BLEURT”和该团队后续的WMT 2020研讨会论文,并非2024年新出现的词汇[11]