课程学习 - 财报，业绩电话会，研报，新闻

课程学习

搜索文档

大模型微调范式认知再被颠覆？UIUC、Amazon团队最新研究指出SFT灾难性遗忘问题或被误解

机器之心· 2025-10-21 03:43

研究核心观点 - 领域特定的监督微调（SFT）并不总是会严重削弱大模型的通用能力，灾难性遗忘问题更多源于训练策略的选择而非SFT范式本身 [2] - 采用更小的学习率进行SFT，可以在保持目标领域性能的同时，大幅缓解模型在数学推理、代码生成、指令跟随等通用能力上的退化 [2] - 研究团队提出了Token自适应Loss重加权（TALR）方法，进一步优化了在较大学习率下领域性能与通用能力之间的平衡 [19][20] 实验设计与设置 - 实验选取了两个现实强相关的领域和数据集：MedCalc（医疗推理，10.1k训练/1.05k测试）和ESCI（电商商品多分类，49k训练/10k测试）[5][8] - 使用了多种规模的开源LLM进行实验，包括Qwen3-8B、Qwen2.5-7B、Gemma3-4B等Instruct模型 [6] - 核心控制变量为学习率，设置了1e-6、5e-6、2e-5三档，其他训练超参遵循常规SFT实践 [6] - 在MetaMathQA（395k训练样本）大规模数学推理数据集上进行了补充实验，采用DeepSeek-Coder-7B作为基础模型 [12][14] 关键研究发现 - 更小的学习率（如1e-6）能带来更优的性能折中，在MedCalc和ESCI任务上，模型在保持目标领域强性能的同时，显著减轻了通用能力的下降 [11] - 对于仅需最终标签的分类问题（如ESCI w/o CoT），实现理想折中的学习率范围更宽，5e-6的学习率表现与1e-6相当 [12] - 即便在大规模数据集MetaMathQA上，更小的学习率（5e-6）也能在保持数学领域性能的同时，显著缓解模型原有编码能力的退化 [14] - 理论分析表明，较小的学习率能够严格收紧通用性能下降的上界，而训练目标仅包含最终标签时，模型遇到的“难token”数量减少，从而拓宽了可接受的学习率范围 [15][17] TALR方法及其效果 - TALR通过建立约束优化问题，根据每个token的预测概率自适应分配权重，置信度低（概率小）的token权重更小，以削弱这些hard token在训练中的过度梯度贡献 [20][21] - 在MedCalc基准上的实验显示，当学习率较大（5e-6）时，TALR相比L2正则化、LoRA、Wise-FT等方法，能实现更优的Pareto前沿，在保持领域增益的同时显著减少通用性能损失 [26] - TALR在训练中自发呈现出“课程学习”机制，由易到难动态调整学习路径，优先通过高置信度token驱动优化，再逐步纳入难点token [32] 行业影响与展望 - 研究重申了SFT作为大模型能力提升基石的重要性，挑战了“RL可以解决一切”的行业观点，指出高质量的SFT是RL有效发挥作用的先决条件 [34] - 该工作为更好的领域适配提供了重要启发，特别是在医学等专业场景中，如何在注入领域知识的同时保留基础模型的通用能力是关键方向 [35] - 未来研究需探索更强大的缓解策略，以在必须使用大学习率追求最高领域性能的场景下，更好地兼顾通用能力，同时需在更大规模模型和更广泛数据集上进行验证 [27][35]

亚马逊(US:AMZN)

灾难性遗忘

Token自适应Loss重加权 (TALR)

课程学习

Artificial Intelligence

SFT（监督微调）

灾难性遗忘

Token自适应Loss重加权 (TALR)

课程学习

Artificial Intelligence

SFT（监督微调）

沉寂一个月，openPangu性能飙升8%！华为1B开源模型来了

机器之心· 2025-09-05 04:31

端侧AI模型技术突破 - 华为发布专为昇腾端侧硬件打造的高性能语言模型openPangu Embedded-1B 通过软硬件协同设计显著降低推理延迟并提升资源利用率采用多阶段训练策略增强任务表现[1] - 模型仅10亿参数但实现性能与效率高度协同树立"小模型大能力"新标杆成功将强大AI能力带入端侧设备[2] 性能表现与基准测试 - 模型在多个权威基准上创下10亿参数级别全新SOTA纪录整体平均分达63.90 持平更大规模Qwen3-1.7B模型(63.69分)[3] - 数学推理能力突出 GSM8K数学基准达82.76% MATH数学题集达81.83% 大幅领先同类模型[3] - 相比上月开源版本V1 V1.1版本平均分实现8%以上大幅跃升显示开源盘古系列加速迭代升级[5] 软硬件协同优化 - 针对昇腾Atlas硬件特性定制网络超参数隐藏层规模与前馈网络维度匹配高效吞吐配置确保计算单元充分利用[9] - 在Atlas 200I A2硬件上首字输出延迟仅约1.8秒后续每词生成约0.156秒速度优势显著[12] 创新训练方法 - 采用两阶段课程学习式微调第一阶段专注理性推理能力第二阶段训练快速作答激活深层推理能力[15][23] - 引入离线On-Policy知识蒸馏方法学生模型自主作答后教师模型针对性指导提升准确率和泛化能力[18][24] - 采用多源奖励强化学习机制数学代码任务使用规则奖励复杂任务采用轻量级LLM评估结合格式规范奖励策略[22][25] - 开发昇腾NPU集群高效并行方案减少约30%设备空闲通过主机-设备权重共享优化大规模强化学习运行效率[21] 技术发展前景 - 提出自适应快慢融合方案模型可根据问题难度自动选择快速作答或深入推理在保持精度的同时提高易答问题效率[29] - openPangu-Embedded-7B模型已应用该策略并在7B量级取得领先升级版本即将开源[30]

成本暴降88%！通义实验室、北大发布ZeroSearch，无需搜索即可激活LLM检索能力

机器之心· 2025-05-29 04:53

核心观点 - 提出ZeroSearch框架无需真实搜索即可激活大语言模型搜索能力通过模拟搜索引擎和课程学习策略降低成本88%并在多项任务性能超越真实搜索方法[1][4][13] - 采用结构化训练模板引导模型划分思维步骤提升推理路径清晰度格式化的输出便于奖励计算[8][14] - 通过模拟微调策略解决Prompt生成内容与真实搜索风格差异问题并引入正确答案扩充知识边界[9][10] - 基于课程学习逐步降低文档质量通过指数函数控制Noisy文档生成概率实现训练难度平滑过渡[11][13][14] - 奖励函数设计改用F1 Score抑制冗余答案模型能自主生成结构规范回答[17][18] 方法创新 - 引入大语言模型作为模拟搜索引擎避免传统方法频繁调用API的高成本公式化表示为最大化奖励与KL散度约束的优化问题[4] - 采用损失屏蔽技术仅对策略模型自生成token计算损失防止记忆模拟文档[4] - 轨迹采集-质量评估-监督微调三步法构建高质量训练集 7B模型仅需30分钟微调[15] - 课程学习策略分三阶段：初期缓慢提升难度学习基础逻辑中期快速提升强化推理后期稳定应对低质量文档[22][34] 性能表现 - 在NQ/TriviaQA等7个数据集平均表现超越基线：ZeroSearch-base达40.93分超过Search-R1-base的39.51分[20] - 参数量扩展性：3B模型激发基础能力 7B接近Google效果 14B实现超越 Google对比分为32.81 vs 34.47[28][33] - 域内外数据集均显示优势单跳问答任务NQ最高43.6分多跳问答HotpotQA达34.6分[20][21] - 奖励曲线显示训练后期超越真实搜索波动更小最终奖励提升更显著[32] 技术细节 - 模拟搜索设定中SFT-7B达到33.53分超过Prompt-7B的31.39分验证微调必要性[28] - 交互轮数呈现U型变化：初期冗余调用导致高轮数中期效率提升轮数下降后期为应对低质量文档轮数回升[30][34] - 课程学习策略显著优于随机难度训练验证系统性能力提升路径的有效性[36]

国产人形机器人破全球纪录！连续空翻一镜到底，量产3.99w起售

量子位· 2025-03-14 11:22

文章核心观点国产人形机器人取得进展，NOETIX Robotics松延动力的N2机器人实现连续空翻且价格亲民，其背后是硬件、算法和工程化的创新，清华创业团队展现出强大的技术和产品化能力，推动行业发展 [1][7][33] 分组1：N2机器人亮点 - 全球首个在「室内外多场景」连续空翻一镜到底的机器人，动作稳定流畅，落地后能站稳 [1][2][3] - 身高1.2米，体重30公斤，小巧灵活，具备大步行走、奔跑、单双脚跳跃及舞蹈等多种运动能力，奔跑速度实测最快可达每秒3.5米 [3] - 全身有18个自由度，单腿各有5个自由度，单臂各有4个自由度，能完成高难度动作 [9] - 单脚跳跃稳健，抗干扰能力强，摔倒后能迅速恢复正常运行 [10][11][12] - 已将量产提上日程，3.99万起售，标配二次开发接口，有三种颜色可选 [13][14] - 机身集成多个外置硬件接口，方便开发者进行二次开发，可用于科研、安防巡检等领域 [15] 分组2：N2实现连续空翻的技术路径 - 硬件架构：采用自由度精简策略，主打轻量化和抗摔性能，减少非核心自由度，选用球轴承和高强铝合金 [19][21][23] - 算法融合：实现模型预测控制（MPC）与强化学习（RL）的协同，采用课程学习技术分阶段训练 [24] - 工程化实践：以抗摔设计驱动迭代效率，采用成本导向的可靠性设计，零部件高度国产化，结构易于生产装配 [25][26][28] 分组3：清华创业团队情况 - 准00后创业团队，核心成员来自清华、浙大、南加大等高校，创始人姜哲源本科清华电子系，研究方向为深度强化学习足式机器人运动控制 [30] - 成立一年多完成三大产品布局，包括运动员N2、通用型人形机器人E1、仿生机器人Hobbs，技术和应用场景各有侧重 [31] - 一年多收获5轮2亿融资，团队能力、技术水平和产品化能力获资本认可 [32] 分组4：行业发展情况 - 春节以来国产人形机器人持续有新动作，体现「硬件 - 算法 - 场景」三角闭环下的产业技术升级 [33] - 更多本土化年轻团队崭露头角，成为行业发展主力军 [34] - N2之后团队还将推出升级版新品E1系列 [36]