长上下文推理

搜索文档
东吴证券晨会纪要-20250911
东吴证券· 2025-09-10 23:30
宏观策略 - 美国8月新增非农就业2.2万人,远低于预期的7.5万人,前值由7.3万上修至7.9万,前两月累计下修2.1万,修正后的6月新增非农由初值14.7万下调至-1.3万,为2021年以来首次转负,失业率4.324%,预期4.3%,前值4.248%[2][16][20] - 美国就业数据全面降温令9月降息几无悬念,基准情形下预计9月降息25bps,点阵图指引全年额外1-2次降息,但全年降息预期仍存在调整空间[1][16][21] - 黄金价格突破3600美元/盎司关口再创新高,全周大涨4%至3586.7美元/盎司,10年期美债利率降15.4bps至4.07%,2年期美债利率降10.8bps至3.51%,均为4月以来新低[1][16] - 美国8月ISM制造业PMI录得48.7,略逊于预期的49,服务业PMI升至52,预期51,新订单指数升至51.4,前值47.1,价格指数降至63.7,前值64.8[16][28] - 9月9日将进行非农年度初步校准,预计50万以上的下修幅度可能令市场加码押注就业疲软,9月10日PPI和9月11日CPI数据将决定9月FOMC会议基调[1][16][21] 固收金工 - 绿色债券周度新发行19只,合计发行规模87.67亿元,较上周增加16.51亿元,周成交额合计482亿元,较上周减少40亿元[3][26] - 二级资本债周成交量合计约1469亿元,较上周减少113亿元,无新发行二级资本债[6][31] - 应用ERP指标衡量股债性价比,截至2025年9月4日ERP处于2015年以来0-1倍标准差内且处于下行趋势,预计10Y国债收益率上行幅度较为温和,顶部或是1.85%[4][5][27] - 黄金在当前具有较强的配置价值,美债收益率曲线接近平行下移,期限利差约50-60bp,短端胜率更大、长端赔率更大[6][28][30] - 国内商业银行不缩表的原因包括经济增速下滑期间缩表将加剧经济下行、央行货币政策偏宽松流动性充裕、国有资本为主需服务实体经济、监管助力关键指标持续合格[7][34][35] 行业 - 电子行业Rubin CPX切入百万Token痛点,重塑推理架构基础,具备30PFLOPS算力,2026年落地路径明确,海外算力链受益加速[10] - 新能源行业25H1逆变器持续增长,风电排产高增,光伏主链分化、辅链持续承压,推荐高景气度方向逆变器及支架、供给侧改革受益硅料龙头、新技术龙头及海风陆风标的[11] - 券商IT&互联网金融板块基本面及估值均处于低位,具有显著配置价值,推荐同花顺、东方财富、恒生电子三家龙头公司及弹性标的九方智投控股、指南针[12] - 联邦制药2025H1实现收入75.19亿元同比增长4.8%,净利润18.94亿元同比增长27.02%,扣除UBT251首付款后约实现净利润7.9亿元,UBT251成功授权诺和诺德,国内销售峰值有望达43亿元[13][14] - 福斯特2025年中报胶膜盈利持续稳健,电子材料增长迅速,预计25-27年归母净利润为16/22/30亿元,同比增长25%/37%/32%[15]
长上下文不再难:KV Cache 全生命周期优化实战
AI前线· 2025-08-07 10:08
长文本大语言模型的应用与挑战 - 支持长上下文的大语言模型已成为主流,如Gemini支持千万级token上下文窗口,显著提升下游任务效果[5] - 长上下文能力使模型可处理完整代码库(如Python项目repo)或超长视频信息(如《指环王》三部曲)[5] - 计算复杂度导致延迟瓶颈:A100 GPU上处理100万token输入需超30分钟,服务化需数十张GPU[6] - KV Cache存储压力:单个请求存储开销可达数十GB,制约多请求并发处理能力[6] KV缓存优化技术 - MInference减少预填充阶段延迟达10倍,RetrievalAttention在RTX 4090上支持128K上下文推理[11] - Prefix Cache复用技术可跨请求共享KV Cache,主流框架采用哈希函数提升缓存命中率[17] - 语义级匹配机制识别相似请求,配合局部重算提升缓存利用率[18] - 四阶段优化框架:生成阶段采用动态稀疏化,存储阶段应用8bit量化,检索阶段引入语义哈希,加载阶段优化数据布局[21][22] 动态稀疏注意力机制 - 注意力机制存在96.4%稀疏性,仅需3% KV Cache即可恢复95% Attention Recall[40] - MInference 1.0通过离线模式搜索和在线动态估计实现10倍加速,A100需求从60张降至8张[47] - 多模态场景下注意力呈现网格状结构,通过排列变换适配GPU计算特性[55][61] - MMInference处理混合模态输入时,通过两级注意力机制和边界优化提升效率[63] 基准测试与性能评估 - SCBench包含12个子任务,覆盖13种长上下文建模方法,平均输入长度227K token[27][28] - 在Llava-Video-7B测试中,优化方法保持57.6平均分同时减少52.7%计算量[74] - RetrievalAttention在RTX 4090实现每秒5 token推理速度,1M token处理延迟仅0.172秒[99][100] - 多轮解码需O(n)内存存储能力,token级压缩会导致性能随轮次衰减[31] 行业应用与未来方向 - 技术已应用于vLLM、SGLang等推理框架及Qwen-Turbo-1M线上场景[105] - 动态稀疏性可延伸至预训练和强化学习阶段,实现训练-推理协同优化[107] - 视频生成场景(如快手)利用类似技术处理数百K量级上下文窗口[88] - 社区涌现Top-K策略、参数化估计等新方法提升稀疏模式准确性[82][84]
Cache Me If You Can:陈丹琦团队如何「抓住」关键缓存,解放LLM内存?
机器之心· 2025-06-24 14:07
核心观点 - 普林斯顿大学陈丹琦团队提出「KV足迹」作为统一度量标准,用于比较不同KV缓存优化方法的效率[10] - 团队定义「关键KV足迹」为模型性能保持90%以上时的最小KV足迹,确保优化方法实用性[12] - 提出PruLong方法,通过端到端学习注意力头专业化,将KV足迹比先前方法降低12%[15][36] KV缓存问题 - Transformer模型自回归解码时需存储所有先前token的注意力状态(KV缓存),内存消耗随文本长度线性增长[3] - 处理128K token提示时,Llama-3-70B模型需分配42GB内存专用于KV缓存[5] - 现有稀疏注意力方法难以横向比较,因优化目标(预填充/解码阶段)和评估指标不一致[6][9][20] KV足迹度量框架 - 将KV条目分为活跃/非活跃/被驱逐三类,KV足迹定义为所有时间步中未被驱逐条目的归一化比例[24][26] - 支持分块预填充和多轮交互场景的评估,覆盖完整推理流程的内存使用[21][22][23] - 实验显示KV足迹与吞吐量强相关,但具体排名受实现细节影响[27] 现有方法分类 | 方法类型 | 代表技术 | 特点 | |---------|---------|------| | 动态稀疏 | NSA/MoBA | 提升吞吐量但未减少KV内存[29] | | 预填充优化 | MInference/FTP | 加速预填充但不影响解码阶段[29] | | 新近度驱逐 | StreamingLLM/DuoAttention | 固定窗口减少KV占用,可能丢失远距信息[30] | | 后填充驱逐 | H2O/SnapKV | 预填充阶段峰值内存高,长生成场景效果有限[30] | PruLong技术创新 - 训练目标:直接优化下一个token预测损失,而非隐藏状态重建误差[37] - 离散掩码:通过伯努利分布参数化实现端到端二进制掩码学习[38] - 数据改进:采用自然长上下文数据(代码/书籍)替代合成数据[39] - 实验结果:在召回任务中保持原始性能,同时显著降低内存占用[15][36]
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
量子位· 2025-06-01 03:40
核心观点 - 提出两种新型注意力机制GTA和GLA,在保持模型性能不变的情况下,解码速度和吞吐量最高提升2倍,显著优化长上下文推理能力[1][2][5] - GTA是GQA的有效替代品,KV缓存用量减少约50%[2][3][25] - GLA是MLA的实用替代品,解码速度更快,某些情况下比FlashMLA快2倍[2][3][29] 注意力机制优化 - 针对推理阶段的内存冗余、计算低效、长上下文瓶颈等问题重新设计注意力机制[8] - GTA通过参数绑定实现更彻底的KV重复利用,减少内存传输次数[15][16] - GLA采用双层结构,提高硬件效率并保持并行可扩展性[17][18] 实验验证 - 在四种规模模型(183M-1471M)上测试,GTA在中大型模型上优于GQA,GLA与MLA质量相当[21][22] - GTA相比GQA减少约50%的KV缓存,验证参数绑定+分组重用的有效性[25][26] - GLA在序列长度从1K增加到64K时,解码速度比FlashMLA快2倍[29] - 在DeepSeek Coder V2 Base模型上,GLA-8在长上下文处理中吞吐量明显高于MLA[33] 作者背景 - 三位作者均来自普林斯顿大学,Tri Dao因提出Mamba架构和FlashAttention系列工作闻名学界[38][44][46][47] - Tri Dao是生成式AI初创公司Together AI的首席科学家[44] - 其他作者Ted Zadouri和Hubert Strauss在机器学习和Transformer优化方面有丰富经验[39][40][41][42][43]