Workflow
华为发布AI推理创新技术
半导体芯闻·2025-08-12 09:48

AI推理技术创新 - 华为联合中国银联发布AI推理创新技术UCM(推理记忆数据管理器),旨在实现高吞吐、低时延的推理体验 [2] - UCM技术以KV Cache为中心,融合多类型缓存加速算法工具,分级管理推理记忆数据,扩大推理上下文窗口,降低每Token推理成本 [3] AI推理行业趋势 - AI正从训练向推理结构性转变,推理体验成为AI应用的关键,包括时延、准确度和复杂上下文推理能力 [2] - 国外主流模型单用户输出速度达200 Tokens/s(时延5ms),而国内普遍小于60 Tokens/s(时延50-100ms),提升推理效率迫在眉睫 [2] 其他行业动态 - 半导体行业投资规模达10万亿 [4] - 芯片巨头市值出现大幅下跌 [4] - 黄仁勋评价HBM为技术奇迹,Jim Keller认为RISC-V将胜出 [4]