强化学习
搜索文档
别克至境L7增程轿车全国首秀
环球网· 2025-09-16 11:03
产品发布与定位 - 新能源智能豪华轿车至境L7于2025年9月15日首次公开亮相,作为别克高端新能源子品牌“至境”的首款旗舰轿车 [1] - 产品已到达全国别克经销商展厅并开启早鸟计划 [1] 设计与舒适性 - 车身尺寸为5032mm x 1952mm x 1500mm,轴距达3000mm,采用星空展翼外观设计和豪华溜背造型 [3] - 配备超静谧NVH全车无框车门、隐藏门把手和20吋星光涡扇轮毂,以及银河星空展翼大灯和星轨浮光展翼尾灯 [3] - 座舱采用全新纯净浮岛设计美学,提供270°皮质环绕包覆,内饰呈现典雅东方意蕴 [3] - 四座全功能悬浮层座椅采用无修全粒面Nappa高级真皮包覆,副驾搭载同级首款双120°零重力座椅 [5] - 副驾座椅配备可伸长103mm的4向电动腿托和一键小憩模式 [5] - 首发搭载27扬声器Buick Sound剧院级豪华音响,采用全主动3分频音响技术,全四座多模式头枕音响可随乘客头部移动智能调整声场 [5] - 座舱具备22分贝图书馆级宁静空间氛围 [5] - 豪华底盘采用前双叉臂、后五连杆悬架结构,后悬采用6球头设计,配备RTD连续阻尼可变悬架进行毫秒级阻尼调节 [5] 动力系统与能效 - 基于全新别克“逍遥”超级融合整车架构打造,首发搭载行业顶级“真龙”增程系统 [6] - “真龙”增程系统采用252kW行业大功率增程单电驱,动力相当于3.0T V6发动机 [6] - 满电0~100km加速仅需5.9秒,80-120km/h超车加速3.8秒,亏电状态下差异均少于0.1秒 [6] - 百公里综合能耗低至0.5L,发动机介入噪声小于0.5dB [6] - 纯电续航达302km,综合续航里程达1420km,支持130kW快充,30%~80%补能仅需18分钟 [6] - 采用奥特能2.0增混专用高性能电池,继承“15亿公里0自燃”安全基因,实现纯电续航64万公里低衰减 [8] 智能驾驶与座舱 - 率先搭载别克“逍遥智行”辅助驾驶系统,全球首发基于端到端“强化学习”的Momenta R6飞轮大模型 [9] - 提供“无断点”城市NOA和业内首批“不停车一键泊入”全场景辅助驾驶功能,能流畅应对复杂路况 [9] - 别克辅助驾驶累计安全行驶里程已超10亿公里 [9] - 智能座舱首发搭载高通最新一代SA8775P芯片,神经网络算力达72 TOPS [11] - 配备50吋全景AR-HUD抬头显示系统,能融合15组以上驾驶信息与真实道路场景 [11] - 15.6吋智能中控屏支持分屏显示和用户自定义分屏比例 [11] - 具备同级领先的低能耗哨兵模式,可360°全方位洞察车周风险事件 [11] - 手机场景式备车功能可自由组合车内功能,匹配不同出行场景 [11] - 配备“千人千面”记忆空间和基于端云大模型架构的AI智能语音助手 [11]
一文读懂GPT-5的绝招,这是决定AI未来的隐形武器
36氪· 2025-09-16 10:43
通用验证器的技术背景与需求 - 通用验证器被视为大模型能力提升的关键技术 旨在突破传统RLVR在开放性领域应用的局限性[2] - RLVR技术依赖二元奖励机制 在数学、编程等有标准答案的领域效果显著 但在医疗、教育、创意等主观领域表现不佳[2] - 通用验证器需具备多维度评估能力 将非结构化经验数据转化为有效学习信号 可能引发强化学习范式革新[2] 基于评分细则的验证器开发路径 - ScaleAI提出Rubrics as Rewards框架 通过"专家立法-模型释法-AI执法"三步构建多维评分体系[12][14] - RaR方法使Qwen2 5-7B模型在医疗领域得分从0 0818提升至0 3194 性能提升近四倍[21] - 在HealthBench-1k测试中 RaR相比Simple-Likert方法实现28%相对性能提升 接近需专家撰写参考答案的Reference-Likert方法效果[22] - 蚂蚁集团与浙江大学开发Rubicon系统 包含超10,000个评分标准 使用5,000+样本训练使Qwen-30B模型在开放式基准测试中实现5 2%绝对提升[27] - Rubicon通过否决机制、饱和度感知聚合和非线性函数解决奖励黑客问题和跷跷板效应 采用分阶段训练提升模型综合能力[28][30] 增强裁判模型的验证方法 - 阿里夸克团队提出Writing-Zero方法 通过强制生成批判性分析提升评分可靠性 解决传统奖励模型存在的Reward Hacking问题[36][38] - 采用BRPO算法进行成对比较偏好训练 在WritingBench测试集上达到8 29分 优于基准模型的6 89分[40][43] 基于模型自评的验证路径 - SEALab提出VeriFree方法 用模型自身对答案的自信度作为奖励信号 在Qwen3-8B测试中效果媲美传统强化学习方法[45][52] - UC Berkeley开发INTUITOR框架 通过自确定性指标实现无监督强化学习 在MATH500测试集达到61 2%准确率 接近GPRO的63 6%[55][59] - INTUITOR训练后的模型展现跨领域泛化能力 在LiveCodeBench代码任务上实现65%相对性能提升[60] 技术路径的局限性与发展方向 - 立法式验证方法依赖专家构建领域特定框架 扩展性存在挑战[24][69] - 内观式验证方法受限于预训练知识边界 无法验证未见过的外部事实[69] - Richard Sutton提出的OaK架构设想完全基于运行时经验的智能系统 通过8步循环实现自主认知构建[70][76] - 当前RaR的评分细则与INTUITOR的自信度指标分别对应OaK架构中子问题和价值函数的早期雏形[78]
上汽通用汽车“至境L7”公开亮相
中证网· 2025-09-16 06:13
产品发布 - 上汽通用汽车别克品牌旗下高端新能源子品牌"至境"的首款旗舰轿车至境L7于9月15日在上海首次公开亮相 [1] - 至境L7已到达全国别克经销商展厅并开启早鸟计划 消费者在9月28日前下订可享终身免费保养 [1] 技术配置 - 至境L7采用"真龙"增程技术 搭载"逍遥智行"辅助驾驶系统 [1] - 车型首发上车基于端到端"强化学习"的Momenta R6飞轮大模型及高通最新一代SA8775P芯片 [1] - 作为C级中大型豪华轿车 纯电续航里程302公里 综合续航里程1420公里 [1] 市场定位 - 公司表示至境L7以全球造车底蕴叠加本土创新智慧 凭借行业领先增程技术和第一梯队智能体验进击新能源汽车市场第一阵营 [1] - 该车型有望为别克品牌在新时代发展开创新局面 [1]
蚂蚁集团大模型数据智能算法工程师招聘(可内推)
自动驾驶之心· 2025-09-15 23:33
文章核心观点 - 文章主要介绍蚂蚁集团大模型数据认知方向的职位招聘信息,详细阐述了该职位的职责范围、技术方向以及对候选人的要求 [1][2][3] - 同时文章推广“大模型之心Tech”知识星球,旨在打造一个万人规模的大模型技术交流社区,提供科研、应用、求职等综合性服务 [9][10][11] 职位职责与技术方向 - 负责设计和开发先进算法,解决大模型数据生产中的关键问题,直接影响蚂蚁大模型的训练效果和性能表现 [1] - 工作涉及数据知识体系生成,研究基于LLM的自动知识图谱生成技术,构建高效、可扩展的大模型数据知识体系 [1] - 涵盖语料自动分类,基于数据知识体系研究和开发语料分类算法,指导大模型数据的拓展方向 [1] - 包括权威评测集建设,研究业界现有评测集缺陷,构建标准化、多样化评测集以评估大模型性能 [1][5] - 涉及语料质量评估与合成,建立数据驱动体系,开发质量评估算法识别噪声数据,并研究数据驱动的语料合成技术以提升模型迭代效率 [1][5] - 包含智能标注链路研发,基于标注需求研发辅助打标算法,设计AI辅助的标注质量检验与提效算法链路 [1][5] - 要求技术创新与优化,持续跟踪学术界和工业界最新研究成果,探索前沿技术应用并提出创新解决方案 [1][5] 候选人要求与优先条件 - 职位要求计算机科学、人工智能、深度学习或相关领域的硕士及以上学历 [2][6] - 候选人需熟练掌握PyTorch、TensorFlow等深度学习框架,理解大模型训练数据需求并熟悉模型数据链路 [2][6] - 要求具备优秀的定义、分析、解决问题能力,自我驱动,并拥有较强的学习、创新应用和沟通协调能力 [2][6] - 优先考虑拥有大模型数据体系设计、语料分类、评测集建设、数据标注算法等相关项目实践经验的候选人 [3][6] - 优先考虑有大模型、智能体、强化学习、数据标注算法等相关技术领域工作经验的候选人 [4][6] - 优先考虑在计算机视觉、自然语言处理、人工智能相关领域顶级会议有论文发表,或在相关算法竞赛中获得top排名的候选人 [4][6] 知识星球社区服务 - 社区宗旨为打造一个万人聚集的国内外前沿大模型技术交流学习社区 [10] - 提供科研、应用、求职、问答、课程、行业动态六位一体的综合性服务 [10] - 社区聚焦于学术界和大模型应用第一线,涵盖RAG、Agent、大模型微调、部署等技术方向 [10][11][12] - 分享内容包含时效性三天内的最新前沿技术文章、顶会顶刊一手信息 [11] - 提供独家招聘信息,包括实习、校招、社招、转行、跳槽等一手内部资源 [11] - 社区嘉宾包括行业知名算法专家、学术界大佬、大模型行业高管及算法负责人、国内外高校教授 [11]
论文解读之港科PLUTO:首次超越Rule-Based的规划器!
自动驾驶之心· 2025-09-15 23:33
PLUTO模型技术架构 - 采用典型的两段式网络架构作为端到端自动驾驶的Planner模型 [1] - 不基于BEV特征图进行下游控制任务,而是直接对感知输出的结构化信息(如边界框、车道线等)进行编码 [1] - 将编码后的结构化信息作为序列标记输入到解码器中 [1] - 二段式端到端架构非常适合新人入门练手 [1] PLUTO模型训练机制 - 包含三个主要损失函数,主任务损失由回归损失和分类损失共同组成模仿学习损失 [7] - Agent轨迹预测损失有专门设计 [7] - 添加了多个辅助损失以帮助模型收敛 [9] 端到端自动驾驶技术发展趋势 - 端到端自动驾驶已发展出多个技术方向,需要掌握多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等知识 [13] - 技术发展迅速,去年的技术方案已不适合当前环境 [13] - VLA(视觉语言动作)范式是当前端到端自动驾驶的皇冠,上限高但难度大,行业招聘需求旺盛 [29] - 基于扩散模型输出多模轨迹成为学术界和工业界追捧的热点,多家公司尝试落地 [26] 课程内容体系 - 第一章介绍端到端算法发展历史,涵盖从模块化方法到端到端的演变,分析一段式、二段式和VLA范式的优缺点 [20] - 第二章重点讲解端到端涉及的背景知识,包括大语言模型、扩散模型、强化学习、BEV感知等,这些是未来两年求职面试频率最高的技术关键词 [20][21][27] - 第三章聚焦二段式端到端,分析经典算法PLUTO、CVPR'25的CarPlanner和最新工作Plan-R1 [21] - 第四章涵盖一段式端到端与VLA,包括基于感知的方法(UniAD、VAD、PARA-Drive)、基于世界模型的方法(Drive-OccWorld、OccLLaMA)、基于扩散模型的方法(DiffusionDrive、Diffusion Planner、DiffE2E)和基于VLA的方法(ORION、OpenDriveVLA、ReCogDrive) [22][24][26][29] - 第五章设置RLHF微调大作业,提供预训练模块和强化学习模块的搭建实践 [31] 课程特色与目标 - 基于Just-in-Time Learning理念,通过通俗易懂的语言和案例帮助学员快速掌握核心技术栈 [15] - 帮助学员构建领域框架,梳理端到端自动驾驶研究发展脉络,形成自己的研究体系 [16] - 理论结合实践,配备实战环节完成从理论到实践的完整闭环 [17] - 学完课程能够达到1年左右端到端自动驾驶算法工程师水平,掌握端到端技术框架和关键技术 [36] - 可复现扩散模型、VLA等主流算法框架,将所学应用到实际项目中 [37]
字节跳动这篇论文对理想有帮助的
理想TOP2· 2025-09-15 15:32
文章核心观点 - 字节跳动一篇论文揭示了当前LLM Agent训练中的核心困境:在最终结果“非成即败”的长任务中,学习信号的强度与模型决策时的不确定性存在有害的耦合关系,导致训练效率低下且不稳定 [2][3] - 论文提出了一种名为“熵调制策略梯度”的新方法,通过自校准梯度缩放和未来清晰度奖励两个组件,强行解耦上述有害关系,旨在从根本上引导模型找到更优策略并提升训练稳定性 [4][5][6] 传统强化学习方法的缺陷 - 传统方法在长任务完成后,无论个体步骤贡献如何,成功则所有步骤均获奖励,失败则所有步骤均受惩罚,这种稀疏奖励机制效率极低 [3] - 现有解决方案要么需要高昂代价的人工标注中间奖励,要么存在理论缺陷,例如利用模型自身不确定性作为信号易导致模型陷入“自信地犯错”的恶性循环 [3] 有害耦合关系的具体表现与影响 - 耦合关系表现为:模型非常自信时调整力度天然很小,非常迷茫时调整力度天然很大 [4] - 这种关系导致三大有害影响:自信正确的步骤仅得微调、自信错误的步骤仅受微调、不确定的探索步骤却承受最剧烈奖惩,造成训练非常不稳定 [2][4] - 其后果是模型在训练到一定程度后易陷入性能平台期,学习停滞,甚至在后期出现策略崩溃和性能雪崩 [6] EMPG方法的构成与原理 - 自校准梯度缩放组件通过放大自信步骤的梯度更新幅度和衰减不确定步骤的梯度更新幅度来修正梯度大小,解决熵-梯度耦合问题 [4][5] - 未来清晰度奖励组件提供额外内在激励,奖励那些能引导智能体进入更确定、更清晰未来状态的动作,激励模型主动寻找可预测的解决方案路径 [5][6] - 两个组件角色互补,梯度缩放提升模型在域外任务的泛化能力,未来清晰度奖励帮助模型掌握域内任务的分布规律 [7][8] EMPG方法的优势与效果 - 该方法能帮助智能体突破性能瓶颈,达到原本无法企及的更高性能水平,其效果不只是加速学习,更是引导模型找到更优策略 [6] - 实验数据显示,加入EMPG后,基线方法的KL损失全程保持平稳,证明了其有效的正则化效果和训练稳定性 [6] - 该研究创新地在步骤级别而非词元级别分析熵,指出步骤级别的熵动态变化必须在相应层面进行调整 [8]
进击新能源第一阵营 “增程豪华轿车新标杆”别克至境L7全国首秀
扬子晚报网· 2025-09-15 13:57
产品发布与定位 - 至境L7作为别克高端新能源子品牌"至境"的首款旗舰轿车于9月15日首次公开亮相 [1] - 该车型定位为新能源智能豪华轿车,旨在进击新能源第一阵营并重塑品牌价值 [1][20] - 至境L7已到达全国别克经销商展厅并开启早鸟计划,9月28日前下订可享终身免费保养 [1][3] 技术平台与架构 - 至境L7诞生于百万级"逍遥"超级融合架构,汇集驱动、辅助驾驶、豪华舒适等领域的王牌技术 [1][3] - 该架构依托通用汽车增程技术积淀和泛亚本土化研发实力 [5] 增程系统性能 - 搭载行业顶级"真龙"增程系统,采用252kW行业最大功率增程单电驱,动力相当于3.0T V6发动机 [5] - 满电0-100km/h加速5.9秒,80-120km/h超车加速3.8秒,亏电状态下差异均少于0.1秒 [5] - 百公里综合能耗低至0.5L,发动机介入噪声小于0.5dB,实现安静平顺的无感介入 [5] - 纯电续航达302km(同级最长),综合续航1420km,支持130kW快充,30%-80%补能需18分钟 [5] - 采用奥特能2.0增混专用高性能电池,继承15亿公里0自燃安全基因,纯电续航64万公里低衰减 [7] 智能驾驶系统 - 率先搭载"逍遥智行"辅助驾驶系统,全球首发基于端到端强化学习的Momenta R6飞轮大模型 [1][8] - 提供无断点城市NOA、业内首批不停车一键泊入等全场景辅助驾驶功能 [8] - 别克辅助驾驶累计安全行驶里程已超10亿公里 [8] 智能座舱配置 - 首发搭载高通最新一代SA8775P芯片,神经网络算力达72 TOPS专为智舱服务 [9][11] - 配备50吋全景AR-HUD抬头显示系统,可融合15组以上驾驶信息与真实道路场景 [9][13] - 15.6吋智能中控屏支持分屏显示,用户可自定义分屏比例实现主副驾专屏专用 [9] - 具备同级领先低能耗哨兵模式、同级唯一手机场景式备车功能及AI智能语音助手 [9] 外观与内饰设计 - 车身尺寸5032mmx1952mmx1500mm,轴距3000mm,属C级中大型豪华轿车 [14] - 采用星空展翼外观、豪华溜背造型、无框车门、隐藏门把手和20吋星光涡扇轮毂 [14] - 内饰采用全新纯净浮岛设计美学,提供270°皮质环绕包覆,营造典雅东方意蕴 [16] 舒适性与豪华配置 - 拥有同级最宽裕座舱空间,同级唯一四座全功能悬浮层座椅采用Nappa高级真皮包覆 [18] - 副驾搭载同级首款双120°零重力座椅,配103mm伸长4向电动腿托和一键小憩模式 [18][20] - 首发27扬声器Buick Sound剧院级豪华音响,配合22分贝图书馆级宁静空间氛围 [18] - 采用前双叉臂、后五连杆悬架结构,后悬同级唯一6球头设计,配备RTD连续阻尼可变悬架 [20]
张小珺对话OpenAI姚顺雨:生成新世界的系统
Founder Park· 2025-09-15 05:59
文章核心观点 - 语言是人类实现泛化的核心工具,是构建通用人工智能系统的最本质要素 [4][7][77] - AI Agent发展已进入下半场,重点从模型训练转向任务定义和环境设计 [5][62][63] - 创业公司最大机会在于设计新型人机交互界面,而非重复ChatGPT模式 [110][112][113] - 未来AI生态将呈现既单极又多元格局,由不同超级应用共同定义智能边界 [5][146][154] 姚顺雨背景与研究历程 - 清华姚班本科、普林斯顿博士,2019-2024年在普林斯顿攻读博士学位 [13] - 2016年接触多模态嵌入技术后转向深度学习,2018年系统性开始深度学习研究 [14][15] - 博士期间从计算机视觉转向语言模型研究,因认为语言是实现AGI的更核心方向 [15] - 专注Language Agent研究6年,2024年加入OpenAI [4][19] AI Agent技术演进 - 技术发展三阶段:符号主义AI(规则系统)→深度强化学习(环境特定)→大语言模型(泛化推理)[40][41][43] - 语言智能体与传统Agent本质区别在于具备推理能力从而实现泛化 [36][38][39] - ReAct框架成为最通用方案,实现推理与行动的协同 [26][50] - 代码环境是数字智能体最重要的"手",提供天然机器表达形式 [53][54][55] 任务与环境设计 - 当前瓶颈从方法创新转向任务定义和环境设计 [62][63] - 优秀任务需具备:结果导向奖励机制、基于规则的白盒评估、可解释性 [64][66][71] - 任务分类标准:可靠性需求型(如客服)vs创造力需求型(如证明猜想)[70][72] - 评估指标需区分Pass@k(多次尝试成功率)和Pass^k(每次成功率)[74] 产业发展与创业机会 - 模型能力溢出为创业公司创造机会,关键在于设计新型交互界面 [110][112] - 成功案例包括Cursor(编程副驾驶)、Manus(通用交互)、Perplexity(研究型搜索)[117][127][129] - 数据飞轮形成需三个条件:自主训练能力、清晰奖励信号、数据好坏分离 [123][124] - 成本不是核心瓶颈,真正关键在于找到价值超过成本的应用场景 [139][141] 未来生态展望 - OpenAI五级能力划分:聊天机器人→推理者→智能体→创新者→组织者 [44][45] - 未来12-24个月趋势:Chatbot系统自然演进为Agent系统,新型Copilot应用涌现 [165][166] - 记忆系统(Memory)将成为核心竞争壁垒,特别是上下文管理能力 [51][158][159] - 最终生态将由多个超级应用共同定义,呈现中心化与分布式并存格局 [146][152][154]
攻克强化学习「最慢一环」!交大字节联手,让大模型RL训练速度飙升2.6倍
量子位· 2025-09-13 08:06
强化学习训练效率瓶颈 - 强化学习训练效率低下 投入巨大但产出缓慢 成为AI基础设施的阿喀琉斯之踵 [1] - Rollout阶段占训练时间超过80% 受内存带宽限制和自回归特性制约 [1] RhymeRL技术创新 - 基于历史数据复用实现效率提升 训练吞吐量提升2.6倍 [2] - 发现相邻训练周期存在95%的历史Token可复用 序列相似性极高 [3] - 响应长度排序稳定 长度分布相似性显著 [4] - 采用HistoSpec技术将投机解码引入RL 以历史响应作为草稿模板 [9] - 通过树状草稿总结和批量验证 将逐字生成转为并行验证 [11][12] - 草稿接受率极高 打破内存带宽限制提升计算密度 [13] - HistoPipe实现跨步互补调度 奇数步由短到长处理 偶数步由长到短处理 [17] - 通过削峰填谷策略将GPU资源浪费降至最低 [19] 性能提升效果 - 在数学和代码任务上实现端到端训练吞吐量提升2.61倍 [21] - 适用于不同模型大小和响应长度场景 加速效果显著 [23] - 减少资源需求并缩短训练时间 加速AI技术迭代 [22] 行业意义 - 提出基于历史信息端到端加速强化学习的新范式 [23] - 充分发挥系统调度能力与硬件算力资源 适配现有训练算法 [23]
如何准备RL面试相关的问题?
自动驾驶之心· 2025-09-12 16:03
GRPO策略类型分析 - GRPO最初设计和常用实现是在线策略(on-policy)方法 其优势估计依赖于当前策略生成的样本[3][6] - 通过重要性采样等技术可扩展为离线策略(off-policy)版本 已有工作研究这种扩展在样本效率和稳定性方面的权衡[3][4] - 原始GRPO使用当前策略生成的一组候选完成来计算组内相对优势 并在此批次上构造类似PPO的代理目标更新策略[5][6] 重要性采样技术 - 重要性采样是离线策略评估的核心方法 通过行为策略数据评估目标策略价值[8] - 核心公式使用重要性权重修正分布差异 单步权重为$w_t=\frac{\pi_t(a_t|s_t)}{\pi_b(a_t|s_t)}$ 轨迹权重为$W_T=\prod_{t=0}^T w_t$[12][13] - 加权重要性采样通过归一化权重降低方差 公式为${\hat{V}}^{\pi_t}(s_0)=\sum_{i=1}^N\left(\frac{W_T^{(i)}}{\sum_{j=1}^N W_T^{(j)}}\right)\cdot G_0^{(i)}$[16] GSPO与DAPO算法改进 - GSPO解决GRPO/PPO在长序列训练中的高方差问题 将重要性比率提升到序列级并做长度归一化[18][22] - DAPO针对长思维链训练提出四项工程技术:非对称裁剪 动态采样 token级策略梯度损失和过长奖励整形[20][24] - GSPO目标函数为$J_{\mathrm{GSPO}}(\theta)=\mathbb{E}_{x\sim D,\{y_i\}\sim\pi_{\mathrm{id}}}\left[\frac{1}{G}\sum_{i=1}^G\operatorname*{min}\Bigl(s_i(\theta)\hat{A}_i,\mathrm{clip}(s_i(\theta),1-\varepsilon,1+\varepsilon)\hat{A}_i\Bigr)\right]$[23] 熵崩溃问题与解决方案 - 熵崩溃指策略熵急速下降导致确定性输出 在训练阶段需要避免以保持探索能力[27][33] - 解决方案包括熵正则化 KL约束 非对称裁剪 动态采样和序列级重要性比率[32][37] - 监控指标包括策略熵曲线 KL距离变化和奖励分布特征[35][36] 奖励劫持与熵崩溃关系 - 奖励劫持是目标错位问题 熵崩溃是策略行为失衡症状 二者常相互强化形成恶性循环[41][51] - 奖励劫持导致策略快速确定化 熵崩溃使系统难以跳出奖励劫持的局部最优[43][44] - 解决方案需从奖励设计和训练稳定性两端入手 包括修正奖励函数 增加惩罚项和使用多样化评价信号[47][51] MLA加速推理技术 - MLA通过低秩潜在向量压缩Key/Value 只缓存潜在向量而非完整K/V[52][55] - 在内存带宽受限场景可减少45% KV缓存内存 实现1.3-1.8倍推理加速[52][64] - 技术实现包括潜在向量压缩和实时上投影计算 公式为$C_t = X_t W_C$ $K = C W_{K\_up}$ $V = C W_{V\_up}$[54][61]