Workflow
后训练大一统
icon
搜索文档
后训练的「分」与「合」,SFT&RL 大一统才是正解?
机器之心· 2025-09-14 01:30
后训练的「分」与「合」:SFT&RL 大一统趋势 - 后训练阶段需将大语言模型原始能力与人类价值观、偏好及意图对齐 关键阶段包括监督微调(SFT)和强化学习(RL)[7][8] - 传统「先 SFT 后 RL」范式存在流程僵化、资源消耗巨大及 RL 阶段不稳定性等问题 成为业界公认痛点[9] - SFT 作为模仿学习存在三大局限:灾难性遗忘导致预训练知识退化、过拟合与泛化能力不足、静态性质无法动态适应新信息[11][12] - RL 优势在于探索能力 可生成训练数据中未出现的回答并通过奖励信号判断优劣 在处理创造性或主观任务时泛化性能优于 SFT[13][14] - 「合」的思潮试图打破 SFT 与 RL 壁垒 将其视为同一优化过程在不同假设下的体现 目标均为最大化期望奖励同时约束模型偏离程度[10] - 混合范式通过 SFT 锚定基本行为范围并为 RL 提供高质量起点 约束探索空间以提升训练效率[14][15] - RL 算法本身存在复杂性及超参数敏感性 微小调整可能导致训练崩溃 奖励模型与策略优化目标不一致性也是不稳定根源[16] AI 硬件生态竞争与形态创新 - Meta、OpenAI、苹果和谷歌等巨头积极布局 AI 硬件 竞争焦点在于生态优势形成[2] - 无屏幕依赖摄像头和麦克风的便携 AI 设备可能成为新一代随身交互入口[2] - AI 能力将逐步从「外挂」式应用转变为每台设备的「隐形能力」 用户感知差异成为关键[2] - 无感交互技术试图让用户「忘记手机」 但需验证是否为技术噱头[2] - 行业探索奇形怪状的新硬件形态 但需评估其实际生活渗透可行性[2] AI 对搜索行业的重塑作用 - 生成式 AI 可能成为搜索的「替代品」或推动查询量与用户意图扩张的「增长引擎」[3] - 多模态交互与对话式 AI 搜索正在重新定义用户完成任务的方式[3] - AI 驱动搜索增长同时提升广告流量和商业价值[3] - 谷歌选择逐步融入 AI 智能体能力而非等待技术成熟 反映其产品与战略思路[3] 行业动态规模 - 本周 AI & Robotics 赛道共收录 29 项要事速递 含技术方面 12 项 国内方面 9 项 国外方面 8 项[4] - 本期通讯总字数 26535 字 免费试读比例 8%[5]