Token经济 - 财报，业绩电话会，研报，新闻

Token经济

搜索文档

证券时报网· 2025-08-12 10:16

行业背景与挑战 - AI推理技术直接影响用户交互体验包括回答时延答案准确度和复杂上下文推理能力 [1] - 国外主流模型单用户输出速度达200 Tokens/s（时延5ms）而国内普遍低于60 Tokens/s（时延50-100ms）存在明显技术差距 [2] - 高延迟和高成本是AI推理领域发展的主要挑战 [3] - 中国互联网企业AI领域投资规模仅为美国的十分之一推理体验不足导致用户流失形成"体验差-投资收缩-技术受限"的恶性循环 [4] - AI应用渗透使Token数指数级增长火山引擎2025年5月日均Token调用达16.4万亿较2024年同期激增137倍 [5] 技术解决方案 - 华为推出UCM推理记忆数据管理器以KV Cache为中心融合多类型缓存加速算法工具 [1][3] - 通过层级化自适应全局前缀缓存技术实现任意物理位置和输入组合的KV前缀缓存重用使首Token时延最大降低90% [3] - 根据记忆热度在HBM/DRAM/SSD存储介质中自动分级缓存融合稀疏注意力算法使长序列场景TPS提升2-22倍 [3] - 采用动态KV逐层卸载/位置编码扩展/Prefill稀疏等组合技术将超长序列Cache分层卸载至外置存储实现10倍级推理上下文窗口扩展 [3] 商业应用价值 - UCM在算力基础设施投入不变前提下显著优化推理体验推动"体验提升-用户增长-投资加大-技术迭代"的商业正循环 [4] - 已在中国银联"客户之声""营销策划""办公助手"三大业务场景开展智慧金融AI推理加速应用试点 [4] - Token经济时代来临训练和推理效率量纲都以Token为表征最大化单Token智能承载力成为厂商核心目标 [5] 生态建设计划 - 华为计划2025年9月正式开源UCM 在魔擎社区首发后续贡献给主流推理引擎社区 [5] - 将技术共享给所有Share Everything存储厂商和生态伙伴推动行业推理框架和标准形成 [5]

Token经济

Artificial Intelligence

UCM

Token经济

Artificial Intelligence

UCM

华为发布AI黑科技UCM，下个月开源

证券时报网· 2025-08-12 09:23

AI时代下，推理技术关系用户与AI交互的体验，包括回答问题的时延、答案的准确度以及复杂上下文的推理能力等，在此背景下，华为最新推出AI推理黑科技UCM(推理记忆数据管理器)，可大幅降低推理时延与成本，并大幅提升推理效率。 8月12日，华为举行发布会，正式发布AI推理创新技术UCM。据了解，目前，国外主流模型的单用户输出速度已进入200Tokens/s区间(时延5ms)，而我国普遍小于 60Tokens/s(时延50—100ms)，如何解决推理效率与用户体验的难题迫在眉睫。 "高延迟、高成本是当下AI推理领域发展的主要挑战。"华为数字金融军团CEO曹冲在会上表示。华为方面介绍，作为一款以KVCache为中心的推理加速套件，UCM融合了多类型缓存加速算法工具，分级管理推理过程中产生的KVCache记忆数据，可扩大推理上下文窗口，以实现高吞吐、低时延的推理体验，降低每Token推理成本。在具体技术实现路径以及方面，华为相关负责人表示，UCM通过层级化自适应的全局前缀缓存技术，可实现任意物理位置、任意输入组合上的KV前缀缓存重用，在多轮对话、RAG知识检索等场景中直接调用KV缓存数据，避免重复计算， ...

中国基金报· 2025-08-12 07:40

行业趋势与背景 - AI产业从追求模型能力极限转向追求推理体验最优化推理体验成为衡量AI模型价值的黄金标尺[1] - AI推理是AI产业下一阶段发展重心直接关联用户满意度和商业可行性[1] - 模型规模化扩张、长序列需求激增及推理任务并发量增长导致KV Cache容量超出显存承载能力[2] - 国外领先芯片厂商通过硬件迭代、软件优化和生态绑定构建AI推理时代"铁三角" 中国企业单点硬件有突破但软件及生态适配仍有较大差距[2] - 信息技术应用创新产业国产化改造提速各行业加速构建国产推理生态[2] 技术方案与性能 - UCM是以KV Cache为中心的推理加速套件融合多类型缓存加速算法工具分级管理推理记忆数据[2] - 通过动态KV逐层卸载和位置编码扩展技术将超长序列Cache分层卸载至外置专业存储实现10倍级推理上下文窗口扩展[3] - 根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动融合稀疏注意力算法实现存算深度协同[4] - 长序列场景下TPS提升2至22倍降低每个Token的推理成本[4] - 支持用户输入超过17万Tokens的超长序列推理解决超长序列模型推不动的问题[5] 性能对比与行业影响 - 国外主流AI大模型单用户输出速度达200 Tokens/s（时延5ms）中国主流模型普遍小于60 Tokens/s（时延50-100ms）[4] - AI应用向实际场景深度渗透用户规模和请求量急剧攀升模型分析和生成Token数呈指数级增长[4] - Token处理量增长导致服务器维护和电力消耗等运营成本持续攀升保障流畅推理体验需加大算力投入[4] - Token经济时代来临训练和推理效率与体验量纲都以Token为表征[5] 商业化应用 - 华为AI推理加速方案结合UCM与OceanStor A系列存储技术与中国银联开展智慧金融AI推理加速应用试点[5] - 三大落地业务场景包括客户之声、营销策划和办公助手[5] - 华为计划9月在魔擎社区开源UCM 后续逐步贡献给主流推理引擎社区共享给所有Share Everything存储厂商和生态伙伴[1]

华为AI存储（OceanStor A系列）

华为AI存储（OceanStor A系列）

tokens消耗量高速增长，算力经营成为新业态

德邦证券· 2025-08-04 06:56

核心观点 - 算力需求爆发驱动资本开支激增，AI基础设施建设进入黄金期，海外科技巨头资本支出大幅增长，微软二季度资本支出同比增长27%至242亿美元，Meta预计2025年资本支出达660-720亿美元[4] - Token经济商业模式得到验证，大模型Token处理量呈现爆发式增长，谷歌每月处理超980万亿tokens，ChatGPT周活跃用户突破7亿，国产算力需求因安全问题加速[4] - "人工智能+"政策密集出台，国常会审议通过《关于深入实施"人工智能+"行动的意见》，上海发放10亿元算力券、模型券和语料券，青岛计划到2027年人工智能产业规模突破200亿元[4] 投资策略算力基础设施 - 海外科技巨头业绩与资本开支双增，微软二季度净利润272.3亿美元(同比+24%)，Meta净利润183.4亿美元(同比+36%)，OpenAI年化收入翻倍至120亿美元[4] - 英伟达新一代GPU性能提升显著，GB300和B300的TDP分别达1.4KW和1.2KW，HBM容量增加50%至288GB，堆叠方案升级为12层HBM3E[4] - 马斯克计划5年内上线等效5000万块H100 GPU的算力，谷歌云业务营收136亿美元(同比+32%)，Alphabet上调2024年资本支出13%[4] Token经济与国产算力 - 大模型Token消耗量快速增长，7月21日周消耗量达3T，较1月20日的527B增长近5倍，DeepSeek和Qwen系列模型单日Token用量环比分别增长31%和5倍[4] - 英伟达芯片安全问题引发国产替代需求，国家网信办约谈英伟达要求说明H20芯片漏洞后门风险[4] 政策催化与应用落地 - 国常会明确推进人工智能规模化商业化应用，强化算力、算法和数据供给，构建开源生态体系[4] - 上海推出6亿元算力券、3亿元模型券和1亿元语料券，青岛计划整合1000P智能算力，培育100家人工智能重点企业[4] 行业要闻海外科技巨头动态 - 微软二季度营收764.4亿美元(同比+18%)，净利润272.3亿美元(同比+24%)，Meta营收475.2亿美元(同比+22%)，净利润183.4亿美元(同比+36%)[14] - Meta计划投资数千亿美元建设超大规模数据中心，微软计划2025年投入800亿美元建设AI智算中心[14] 国内政策与金融支持 - 八大银行联合发布"AI+制造"金融产品，计划到2027年提供不少于4000亿元授信额度，中银推出AI算力贷，中信银行推出AI智造专享贷[18] - 我国卫星互联网建设加速，7月27日和30日连续完成两次发射任务，间隔仅3天[17] 市场表现 - 本周通信(中信)指数上涨4.12%，跑赢上证指数(-0.57%)和沪深300(-1.25%)，光模块(CPO)板块领涨9.86%[19] - 个股方面，长飞光纤(+25.85%)、天孚通信(+25.17%)涨幅居前，*ST高鸿(-10.55%)、万马科技(-8.11%)表现较弱[21][22] 重点公司推荐 - 算力产业链：中际旭创、新易盛、天孚通信、润泽科技[4][14] - 国产替代：中芯国际、寒武纪、中兴通讯、浪潮信息[15] - 卫星互联网：超捷股份、海格通信、国博电子[17]