Workflow
SFT
icon
搜索文档
后训练的「分」与「合」,SFT&RL 大一统才是正解?
机器之心· 2025-09-14 01:30
后训练的「分」与「合」:SFT&RL 大一统趋势 - 后训练阶段需将大语言模型原始能力与人类价值观、偏好及意图对齐 关键阶段包括监督微调(SFT)和强化学习(RL)[7][8] - 传统「先 SFT 后 RL」范式存在流程僵化、资源消耗巨大及 RL 阶段不稳定性等问题 成为业界公认痛点[9] - SFT 作为模仿学习存在三大局限:灾难性遗忘导致预训练知识退化、过拟合与泛化能力不足、静态性质无法动态适应新信息[11][12] - RL 优势在于探索能力 可生成训练数据中未出现的回答并通过奖励信号判断优劣 在处理创造性或主观任务时泛化性能优于 SFT[13][14] - 「合」的思潮试图打破 SFT 与 RL 壁垒 将其视为同一优化过程在不同假设下的体现 目标均为最大化期望奖励同时约束模型偏离程度[10] - 混合范式通过 SFT 锚定基本行为范围并为 RL 提供高质量起点 约束探索空间以提升训练效率[14][15] - RL 算法本身存在复杂性及超参数敏感性 微小调整可能导致训练崩溃 奖励模型与策略优化目标不一致性也是不稳定根源[16] AI 硬件生态竞争与形态创新 - Meta、OpenAI、苹果和谷歌等巨头积极布局 AI 硬件 竞争焦点在于生态优势形成[2] - 无屏幕依赖摄像头和麦克风的便携 AI 设备可能成为新一代随身交互入口[2] - AI 能力将逐步从「外挂」式应用转变为每台设备的「隐形能力」 用户感知差异成为关键[2] - 无感交互技术试图让用户「忘记手机」 但需验证是否为技术噱头[2] - 行业探索奇形怪状的新硬件形态 但需评估其实际生活渗透可行性[2] AI 对搜索行业的重塑作用 - 生成式 AI 可能成为搜索的「替代品」或推动查询量与用户意图扩张的「增长引擎」[3] - 多模态交互与对话式 AI 搜索正在重新定义用户完成任务的方式[3] - AI 驱动搜索增长同时提升广告流量和商业价值[3] - 谷歌选择逐步融入 AI 智能体能力而非等待技术成熟 反映其产品与战略思路[3] 行业动态规模 - 本周 AI & Robotics 赛道共收录 29 项要事速递 含技术方面 12 项 国内方面 9 项 国外方面 8 项[4] - 本期通讯总字数 26535 字 免费试读比例 8%[5]
大模型微调到底有没有技术含量,或者说技术含量到底有多大?
自动驾驶之心· 2025-08-10 23:32
大模型微调技术 数据工作 - 直接继承现有数据而不检查质量是最基础的做法 [7] - 开源数据构建需形成"system+query+answer"结构化集合 [8] - 利用GPT4生成数据时需注重prompt多样性和抗噪性设计 包括人工校验标注标准 [8] - 用户交互日志驱动数据构造 结合规则或GPT4分析feedback提升answer质量 [9] - 通过任务拆解解决复杂问题 如将长篇小说写作分解为大纲生成和分段创作 [9] 训练代码 - 直接复用现有代码仅修改路径参数属于初级操作 [11] - 深入研究训练参数如offload/sequence_parallel机制 分析dataloader数据处理逻辑 [11] - 提出参数优化建议 包括epoch数量(3次可能过多)、学习率调整(7B模型适用性)、warmup步数设置 [11] - 框架优化方向涉及deepspeed与megatron结合 以及rope计算耗时等性能瓶颈突破 [12] 实验分析 - 基础评估仅依赖预设测试集 负收益时简单归因数据质量问题 [14] - 深度分析需结合pretrain模型对比 识别bad case类型(幻觉/过拟合/能力不足等) [14] - 训练过程监控需综合tensorboard日志 关注loss曲线形态(如阶梯形变化)、channel_loss异常等 [15] - benchmark测试揭示通用能力下降现象 研究任务训练与能力跷跷板效应关系 [15] - 诊断技术包括token概率观测、错误发生位置定位 以及pattern过拟合根因分析 [17] 自动驾驶技术生态 行业社区 - 已建立近百个技术交流群 覆盖大模型/VLA/端到端等30+技术方向 [18] - 社区规模近4000人 吸引300余家企业和科研机构参与 [18] - 重点技术领域包括BEV感知、多模态融合、3DGS、世界模型等前沿方向 [19]