Workflow
国产推理生态
icon
搜索文档
华为发布AI推理“黑科技” 助力解决AI推理效率与用户体验难题
中国基金报· 2025-08-12 07:50
行业趋势与重心转移 - AI产业从追求模型能力极限转向追求推理体验最优化,推理体验成为衡量AI模型价值的黄金标尺[2] - 随着AI迈入代理式人工智能时代,模型规模化扩张、长序列需求激增,导致KV Cache容量增长超出显存承载能力[7] - Token经济时代来临,训练和推理的效率与体验均以Token为表征,巨大的Token处理量带来高昂运营成本[8] 华为UCM技术核心与性能 - UCM是一款以KV Cache为中心的推理加速套件,通过分级管理记忆数据来扩大推理上下文窗口,实现高吞吐、低时延[3] - UCM通过动态KV逐层卸载、位置编码扩展等技术,将超长序列Cache分层卸载至外置存储,实现10倍级推理上下文窗口扩展[7] - UCM可根据记忆热度在HBM、DRAM、SSD等存储介质中实现数据按需流动,融合稀疏注意力算法使长序列场景下TPS提升2至22倍[8] - 该技术可支持用户输入超过17万Tokens的超长序列推理,解决超长序列模型推不动的问题[10] 国内外技术对比与生态构建 - 国外领先芯片厂商通过硬件迭代、软件优化和生态绑定构建AI推理“铁三角”,短期内难以被替代[7] - 中国企业在单点硬件技术上有所突破,但国产软件及生态适配仍有较大差距[7] - 华为计划在9月开源UCM,首发于魔擎社区,后续逐步贡献给主流推理引擎社区及共享架构的存储厂商和生态伙伴[2] - 随着信息技术应用创新产业国产化改造提速,各行业意识到需加速构建国产推理生态[7] 商业应用与性能提升 - 华为AI推理加速方案结合UCM与OceanStor A系列存储技术,已与中国银联开展智慧金融AI推理加速应用试点[9] - 落地三大业务场景分别为客户之声、营销策划和办公助手[9] - 国外主流AI大模型单用户输出速度已进入200 Tokens/s区间(时延5ms),而中国主流AI大模型单用户输出速度普遍小于60 Tokens/s(时延50至100ms)[8]
AI重磅!华为“黑科技”来了
中国基金报· 2025-08-12 07:37
华为AI推理技术UCM发布 - 华为正式发布AI推理"黑科技"UCM(推理记忆数据管理器),旨在解决AI推理效率与用户体验难题 [2] - UCM是一款以KV Cache为中心的推理加速套件,融合多类型缓存加速算法工具,可分级管理推理过程中产生的KV Cache记忆数据 [7] - UCM通过动态KV逐层卸载、位置编码扩展等组合技术,实现10倍级推理上下文窗口扩展 [8] AI推理行业发展趋势 - AI产业已从"追求模型能力极限"转向"追求推理体验最优化",推理体验成为衡量AI模型价值的关键指标 [4] - 随着AI应用向各类实际场景深度渗透,用户规模和请求量急剧攀升,模型分析和生成的Token数呈现指数级增长态势 [11] - 国外主流AI大模型的单用户输出速度已进入200 Tokens/s区间(时延5ms),而我国主流AI大模型的单用户输出速度普遍小于60 Tokens/s(时延50至100ms) [11] UCM技术优势 - UCM可根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动,融合多种稀疏注意力算法实现存算深度协同 [11] - 在长序列场景下,UCM可使TPS(每秒处理token数)提升2至22倍,从而降低每个Token的推理成本 [11] - UCM支持用户输入超过17万Tokens的超长序列推理,避免超长序列模型推不动的问题 [15] 商业化应用进展 - 华为计划在9月开源UCM,将在魔擎社区首发,后续逐步贡献给业界主流推理引擎社区 [5] - 华为AI推理加速方案结合UCM与华为AI存储技术,与中国银联开展智慧金融AI推理加速应用试点 [12] - 三大落地业务场景分别是客户之声、营销策划、办公助手 [12]