智慧金融AI推理加速方案

搜索文档
每Token成本显著降低 华为发布UCM技术破解AI推理难题
环球网· 2025-08-18 07:40
【环球网科技报道 记者 张阳】8月12日,2025金融AI推理应用落地与发展论坛在上海举行。在此次论坛上,华为发布了AI推理创新技术——UCM推理记忆 数据管理器,该技术旨在推动AI推理体验升级,提升推理性价比,加速AI商业正循环。与此同时,华为与中国银联携手,率先在金融典型场景开展UCM技 术试点应用,并联合发布了智慧金融AI推理加速方案应用成果。 当前,人工智能已进入发展深水区,AI推理正成为下一个爆发式增长的关键阶段,推理体验和推理成本也因此成为衡量模型价值的重要标准。华为公司副 总裁、数据存储产品线总裁周跃峰博士在论坛上强调:"AI时代,模型训练、推理效率与体验的量纲都以Token数为表征,Token经济已经到来。"为了保障流 畅的推理体验,企业需要持续加大算力投入,然而,如何在推理效率与成本之间找到最佳平衡点,成为全行业亟待解决的重要课题。 华为数据存储产品线AI存储首席架构师李国杰对记者表示,从"模型智能"全面转向"数据智能",已在业内形成高度共识,且这一拐点正在加速到来。他进一 步解释道:"一方面,商业侧开始追问AI的闭环变现与最终用户体验;另一方面,当端到端模型能力提升遇到天花板时,系统化地转 ...
2025金融AI推理应用落地与发展论坛在金融数据港成功举办
搜狐财经· 2025-08-15 17:35
论坛活动 - 2025金融AI推理应用落地与发展论坛于8月12日在金融数据港AI创新中心举行 [1] - 中国银联执行副总裁涂晓军和华为数字金融军团CEO曹冲出席并发表致辞 [1] 技术发布与合作 - 华为公司副总裁周跃峰博士发布AI推理创新技术UCM推理记忆数据管理器 [3] - 华为与中国银联在金融典型场景开展UCM技术试点应用 [3] - 双方联合发布智慧金融AI推理加速方案应用成果 [3][5] 未来规划 - 中国银联将依托国家人工智能应用中试基地 [5] - 联合华为、上海市金融数据港等生态伙伴共建"AI+金融"示范应用 [5] - 推动技术成果从实验室验证走向规模化应用 [5]
华为AI推理新技术犀利!中国银联大模型效率提高了125倍
21世纪经济报道· 2025-08-12 14:11
技术发布 - 华为发布AI推理创新技术UCM 专门优化大模型推理过程的缓存管理技术 旨在提升推理速度 效率和成本效益 [1] - UCM是以KV Cache为中心的推理加速套件 融合多类型缓存加速算法工具 分级管理推理过程中产生的KV Cache记忆数据 扩大推理上下文窗口 [1] - 技术通过推理框架 算力 存储三层协同 实现高吞吐 低时延的推理体验 降低每Token推理成本 [1][5] 技术原理 - KV Cache是一种优化Transformer模型推理速度的技术 通过缓存历史token的Key和Value矩阵 避免重复计算 提升推理速度并降低计算成本 [3] - KV Cache采用用内存换计算的工程优化手段 作为模型推理过程中的记忆本临时保存计算中间结果 [3] - UCM包含三大组件:推理引擎插件Connector 支持多级KV Cache管理及加速算法的功能库Accelerator 高性能KV Cache存取适配器Adapter [5] 性能提升 - 依托UCM层级化自适应的全局前缀缓存技术 系统可直接调用KV缓存数据 使首Token时延最大降低90% [5] - 在中国银联客户之声业务场景试点中 大模型推理速度提升125倍 仅需10秒即可精准识别客户高频问题 [5] - 国外主流模型单用户输出速度达200 Tokens/s(时延5ms) 而国内普遍小于60 Tokens/s(时延50-100ms) [4] 行业应用 - 华为联手中国银联在金融典型场景开展UCM技术试点应用 联合发布智慧金融AI推理加速方案 [1] - 金融行业因数字化属性强且对速度 效率 安全要求高 成为验证技术的标杆场景 [5] - 中国银联将依托国家人工智能应用中试基地 联合华为等生态伙伴共建AI+金融示范应用 推动技术成果规模化应用 [6] 技术优势 - UCM将专业存储能力引入分级缓存管理 在软硬件协同与卸载方面做了大量工作 包括直通加速 KV检索索引与底层文件系统元数据融合 [8] - UCM具备KV Cache生命周期管理的完整机制 包括预热 分级 淘汰等功能 [8] - 相比业界仅停留在Prefix Cache层面 UCM将稀疏全流程算法 后缀检索算法等投入商用 提供更丰富可靠的算法库 [8] 生态建设 - UCM通过开放统一的南北向接口 可适配多类型推理引擎框架 算力及存储系统 [9] - 计划于今年9月正式开源 后续逐步贡献给业界主流推理引擎社区 [9] - 华为在AI布局上持续进行产业链各环节升级 实现从单点算力模组转向系统性优化的趋势 [9]