Workflow
内存优化
icon
搜索文档
Z Tech|对话Meta FAIR研究科学家:利用Confidence动态过滤,告别低效推理
Z Potentials· 2025-09-05 02:27
DeepConf方法核心创新 - 利用大型语言模型内部置信度信号动态过滤低质量推理轨迹 实现推理效率与性能双重提升 [1] - 无需额外模型训练或超参数调优 可无缝集成现有服务框架 [8] - 分为离线和在线两种操作模式 适应不同推理场景需求 [8] 技术实现机制 - 采用组置信度、底部10%组置信度及尾部置信度作为核心评估指标 [8] - 在推理过程中或生成后实施动态过滤机制 [1] - 在线模式下相比全并行推理最多减少84.7%生成Token [10] 性能表现数据 - 离线模式DeepConf@512在GPT-OSS-120B模型上达到99.9%准确率 显著超越传统多数投票97.0%的基准 [10] - 在AIME2025等多个推理基准测试中均表现优异 [10] - 在线模式下在减少生成Token的同时实现准确率提升 [10] 研究人员背景 - Jiawei Zhao为Meta FAIR研究科学家 拥有加州理工学院博士学位 专注大型语言模型优化方法 [5] - Yichao Fu为加州大学圣地亚哥分校博士生 聚焦LLM推理优化与系统优化 [8] - 团队在NeurIPS 2024、ICML 2024等顶级会议发表多项相关研究成果 [8][12] 相关技术研究 - GaLore方法利用梯度低秩结构显著节省内存和计算资源 发表于ICML 2024 [12] - Mini-Sequence Transformers针对长序列训练进行中间内存优化 发表于NeurIPS 2024 [12] - HeadInfer通过head-wise offloading实现内存高效推理 S²FT为模型微调策略 均发表于NeurIPS 2024 [12]
小米取得内存优化方法相关专利
金融界· 2025-08-26 05:28
公司专利动态 - 北京小米移动软件有限公司于2025年8月26日获得"内存优化方法、装置及计算机存储介质"专利授权 授权公告号CN113722080B 申请日期为2020年5月 [1] - 公司专利总量达5000条 注册资本148.8亿人民币 [1] 公司经营概况 - 北京小米移动软件有限公司成立于2012年 主营业务为软件和信息技术服务业 [1] - 公司对外投资4家企业 参与招投标项目139次 持有行政许可123项 [1]
内存压缩技术新突破,提高AI推理效率!
半导体芯闻· 2025-04-25 10:19
核心观点 - ZeroPoint Technologies与Rebellions合作开发下一代内存优化AI加速器 旨在通过硬件内存压缩技术显著提升AI推理性能并降低成本 计划2026年推出新产品 目标实现前所未有的代币/秒/瓦特性能水平[2][5] 技术合作与产品规划 - 两家公司基于ZeroPoint的内存压缩、压缩和内存管理技术开发AI加速器 通过增加内存带宽和容量优化基础模型推理工作流程[2] - 新产品计划于2026年发布 声称有望实现突破性代币/秒/瓦特性能水平[2] - 合作聚焦无损模型压缩 在保持准确性的同时减少模型尺寸和能耗[5] 技术原理与性能优势 - ZeroPoint基于硬件的内存优化引擎比软件压缩方法快1000倍 在纳秒级窗口内完成压缩/解压缩、数据聚合及内存管理三项操作[2][5] - 技术以64字节缓存行粒度运行 相比ZSTD等传统技术使用的4-128kB数据块更精细[5] - 可实现内存容量/带宽提升2-4倍 每瓦性能提高50% 总拥有成本大幅降低[5] - 测试显示软件压缩结合内联硬件解压缩已使LLM等应用的可寻址内存、带宽和代币/秒性能提升约50%[5] 市场影响与成本效益 - 100GB HBM的基座模型工作负载可等效150GB HBM运行 带来数十亿美元成本节省[5] - 技术为AI芯片制造商挑战NVIDIA主导地位提供基础 通过功率和成本效率创新参与全球竞争[5] - 内存中超过70%数据为冗余 无损压缩技术可显著提升数据中心效率[5] 行业技术背景 - Marvell和英特尔在HBM领域的进展已提升性能 但硬件加速内存压缩技术可带来进一步改进[5] - 内存优化技术预计从竞争优势发展为高性能推理加速器解决方案必备组件[5]