Workflow
AWE算法
icon
搜索文档
和理想基座模型负责人交流我之前说的对理想有帮助的字节论文
理想TOP2· 2025-09-17 05:01
核心观点 - 理想汽车和字节跳动在2025年8月至9月期间独立探索Agent技术时发现了相同的关键问题 即模型学习信号的强度(梯度大小)与决策不确定性(熵)存在有害的耦合关系 并基于各自业务特点提出了类似的解决方案 [2][4] - 理想汽车的AWE算法更偏向高效实用的工程解决方案 聚焦于监督微调(SFT)中的token级处理 而字节跳动的EMPG框架有更形式化的数学定理支撑 覆盖强化学习(RL)中的step级处理 并额外解决信用分配问题 [3][6][27] - 两者核心思路一致 都采用自适应或动态调制方法 利用模型自身的预测不确定性来校准学习信号 而非对所有token或step一视同仁 [4][27] 技术方案对比 - 理想汽车的AWE算法(自适应权重估计算法)应用于MindGPT 3.1中期训练阶段 动态调整每个token对参数更新的影响力 降低高难度和已掌握token的权重 集中学习中等难度token以提升训练效率和稳定性 [9][24] - 字节跳动的EMPG框架包含两个组件:自校准梯度缩放(动态干预学习信号强度 对低熵动作放大梯度、高熵动作衰减梯度)和未来清晰度奖励(引导Agent选择低熵路径的内部奖励机制) [10][11] - AWE主要解决梯度大小问题 相当于EMPG中的自校准梯度缩放组件 但不包含未来清晰度奖励部分 [5][6][28] 应用场景差异 - 理想方案聚焦token级处理 认为解决token不确定性即可自然扩展到step级 主要应用于模型SFT/RL算法本身 [7][28] - 字节方案同时处理token和step级不确定性 特别针对长序列RL任务中的学习效率和信用分配问题 其未来清晰度奖励组件与智能体场景强相关 [7][17][28] 行业技术发展 - 强化学习领域近期重点关注奖励函数设计 包括基于规则(如代码、数学)、基于量规(如写作、医疗)和基于模型自学习(如熵置信度)三类方法 [29] - 理想汽车在MindGPT 3.1中应用的ASPO算法借鉴了DeepSeek R1 GRPO的选择性学习思想 并进行了创新优化 显示公司具备快速学习并内化行业优秀技术的能力 [20] - Agent技术代表AI从被动信息处理器向主动任务执行者演进 能自主思考、规划并调用工具完成复杂任务(如理想卡片大师) [18] 时间线与行业影响 - 理想汽车于2025年8月21日发布MindGPT 3.1 其Agent能力(如卡片大师)和AI产品化潜力被市场低估 [20] - 字节跳动于2025年9月11日在arXiv发布EMPG论文 为长序列LLM Agent提供理论框架 其研究结论与理想汽车实践经验相互印证 [20][21] - 两家公司独立发现相同问题并给出类似解决方案 反映行业对Agent训练过程中梯度-熵耦合问题的普遍关注 [2][4]