Workflow
Token经济
icon
搜索文档
Token消耗藏着财富密码|AI产品榜·网站榜2025年10月榜
36氪· 2025-11-11 13:35
文章核心观点 - Token消耗量是衡量AI产品影响力和商业潜力的关键指标,揭示了AI时代的财富密码[4][8] - 企业服务类AI应用在Token消耗榜中占据主导地位,15个产品占比达到50%[5] - 用户规模大的传统平台(如Canva、Indeed)即使AI功能不彻底,也能产生巨大的Token消耗量[6] - 电商平台通过客服机器人、商品描述自动化等应用成为重要的Token消耗场景[7] 全球AI产品Token消耗榜 - Canva以1185.58万用户规模位居Token消耗榜首位,属于消费级应用类别[9] - Indeed招聘平台以455.91万用户排名第二,是企业服务领域的代表[9] - 拉美电商平台Mercado Libre以288.13万用户位列第三,显示电商AI应用的活跃度[9] - 前10名产品用户规模均超过1000万,Perplexity答案引擎以264.01万用户排名第四[9] - 语言学习平台Duolingo以201.80万用户进入前五,消费级应用表现突出[9] 全球总榜TOP100网站访问量 - ChatGPT以63.7亿月访问量稳居第一,同比增长4.43%[13] - New Bing以13.7亿访问量排名第二,但出现0.27%的小幅下滑[13] - Gemini以12.2亿访问量位列第三,实现11.74%的显著增长[13] - 深度求索(DeepSeek)以3.56亿访问量排名第四,增长7.36%[13] - GitHub Copilot以3.02亿访问量位居第五,作为代码助手增长6.10%[13] 增速表现突出的AI产品 - meta.ai实现105.15%的惊人增长,月访问量达到2305万[15] - Sora视频生成工具增长93.90%,访问量达6858万[15] - Creati视频生成工具增长1475.58%,虽然基数较小但增速惊人[22] - 多个AI视频生成工具表现亮眼,Wan AI增长38.42%,Viggle增长39.48%[24] 国内AI产品表现 - 深度求索以3.56亿访问量位居国内榜首,增长7.36%[18] - 纳米AI搜索以2.60亿访问量排名第二,但出现12.10%的下滑[18] - 豆包(抖音)以8843万访问量排名第四,增长2.77%[18] - 百度AI搜索以4886万访问量进入前五,增长9.65%[18] - 文心一言访问量472万,大幅下滑20.47%,面临较大竞争压力[19] 垂直领域AI应用排名 - AI搜索领域New Bing以13.7亿访问量领先,但Perplexity以29.12%增速追赶[27] - AI聊天机器人ChatGPT绝对领先,Gemini、Grok、Claude等竞争激烈[28] - 图片生成工具SeaArt以3382万访问量领先,但Higgsfield以50.82%增速表现突出[31] - 视频生成领域Sora以6858万访问量和93.90%增速双领先[33] - 音乐生成Suno.com以5993万访问量位居第一,增长25.45%[35] 开发者工具与代码助手 - GitHub Copilot以3.02亿访问量遥遥领先,增长6.10%[13] - 代码助手领域竞争激烈,Hostinger、Airtable、Lovable.dev等产品访问量均超千万[36] - cursor代码助手以1749万访问量实现14.78%的较快增长[36] - 国内云服务商普遍面临访问量下滑,阿里云下滑12.97%,腾讯云下滑14.90%[38]
存力中国行北京站释放信号:AI推理进入存算协同深水区
搜狐财经· 2025-11-11 12:38
AI推理时代的发展趋势与挑战 - AI产业已从模型研发阶段进入规模化应用阶段,推理应用呈现爆发式增长,推动Token调用量呈指数级攀升[3] - 金融风控、医疗辅助诊断、电商推荐、投研分析等场景的深度渗透标志着“Token经济”时代到来[3] - 推理阶段的性能、效率与成本控制成为决定技术落地价值的“最后一公里”[1] AI推理规模化落地的核心痛点 - 数据层面:多模态数据爆发式增长使存储面临PB到EB级容量压力,数据格式异构导致高质量数据集构建成本高昂[3] - 性能层面:KV Cache技术广泛应用对存储的高带宽、低时延提出严苛要求,传统架构难以满足存算协同需求[3] - 成本层面:HBM等高端存储介质价格昂贵,叠加推理负载的潮汐性特征,导致中小企业智能化转型门槛居高不下[3] - 存储系统带宽和IOPS不足导致GPU等昂贵算力资源长时间空闲,阻碍AI应用落地[3] 存储架构的技术创新与突破 - 存储架构正经历从“被动存储”到“智算协同”的根本性转变,核心路径在于构建以KV Cache为中心的推理记忆数据湖[4] - 华为UCM统一缓存管理技术通过HBM-DRAM-SSD三级缓存架构,将非活跃KV Cache从显存动态卸载至高性能SSD[4] - UCM技术实现首Token时延最高降低90%、系统吞吐率提升22倍、上下文窗口扩展10倍以上的突破性效果[4] - UCM已于2025年9月在魔擎社区开源,向全行业开放接口,降低中小企业获取先进推理加速能力的门槛[4] 产业生态协同与标准化发展 - 中国信息通信研究院联合华为、中国移动、浪潮等企业成立“先进存力AI推理工作组”,围绕技术研究、标准制定、方案落地与生态构建四大任务[5] - 芯片厂商的3D堆叠技术、存储厂商的架构创新、云服务商的平台优化形成良性互动,实现软硬件协同增效[5] - 移动云探索以太网协议栈替代RDMA方案,为存量资源复用提供可行路径[5] 中国存力产业发展现状 - 截至2025年6月,全国存力总规模达1680EB,先进存储占比提升至28%[5] - 国产分布式存储产品、AI存储系统多次斩获国际权威测试冠军,232层三维闪存芯片达到业界先进水平[5][6] - 闪存主控芯片实现商用突破,产业链自主可控能力持续增强[5][6] 先进存力的战略价值与未来展望 - 先进存力已从“数据容器”转变为AI智算体系中的“协同中枢”,成为破解AI推理性能、成本与效率瓶颈的关键[7] - 通过破解内存墙、容量墙与成本墙,先进存力推动智能化转型从大企业的“奢侈品”转变为中小企业的“必需品”[7] - AI价值不再仅由参数规模定义,而取决于在真实业务场景中实现“快、准、省”的能力[7]
Token经济时代,AI推理跑不快的瓶颈是“存力”?
钛媒体APP· 2025-11-07 04:08
行业结构性转向 - 大模型产业正经历从算力军备竞赛向推理效率商业竞争的结构性转向 [1] - 决定AI体验、成本和性能的关键因素从GPU集群转向存储能力 [1] - 先进存力从后台工程角色转变为推动AI真正落地的主动力量 [1] 存储市场前景 - 受益于AI需求强劲拉动,2025年第四季度存储价格有望持续看涨 [1] - AI应用对存储提出更高要求,服务器端对高阶DRAM和HBM需求增长挤占了消费级DRAM产能 [1] 推理负载变化 - 长上下文和复杂任务让KVCache容量随输入长度呈指数级增长 [4] - 多模态扩展至图像、音频、视频使简单顺序读写I/O模式无法满足实时推理需求 [4] - 训推一体化趋势要求推理系统在高负载下保持一致性、低延迟和稳定性 [4] 存力瓶颈影响 - GPU利用率下降主因是数据供给不上而非算力不足,经常出现"等数据"现象 [5] - 推理侧每提升20%算力利用率可带来15%—18%整体成本下降 [5] - 算力资源无谓空转直接推高推理成本 [5] 存储技术演进 - 行业通过分层缓存+动态调度提升KVCache管理效率,划分为本地极速层、共享扩展层与冷备层 [6] - 中国移动云推进基于CXL的新型高速互联,将CPU内存、GPU显存及云主机闪存统一池化 [6] - 华为针对AI推理研发UCM推理记忆数据管理技术,通过集中高质数据、提速AI训练、优化推理效能打造解决方案 [7] 优化实践成效 - 华为对万卡集群全栈存力优化后,训练可连续运行22天不间断,算效提升超过50% [9] - 硅基流动AI infra工具链适配100多款开源大模型,通过公有云服务平台提供大模型服务 [9] - 结合UCM技术卸载KVCache释放显存,基于存储的KVCache方案可大幅提升系统吞吐 [9] 未来产业共识 - GPU不再是最稀缺资源,真正稀缺是"喂饱GPU的能力",提高GPU利用率比继续堆卡更具价值 [10] - 多模态数据爆炸让存储从"存放数据"走向"管理数据",成为AI系统主动组件 [10] - 训推一体化使存储系统"实时性"从可选变为必选,存储成为业务链路一部分 [10] - CXL架构将重塑AI基础设施内存与存储边界,构造算力存力一体化可能 [11]
申万宏源研究晨会报告-20250925
申万宏源证券· 2025-09-25 00:43
核心观点 - 康农种业作为育繁推一体化玉米种子企业,凭借品种优势实现快速增长,2022-2024年营收CAGR达30.5%,利润CAGR达42.1%,核心品种康农玉8009推动全国市场扩张,目标市值45亿元对应90%上涨空间 [2][3][5][8][11] - 玉米种子行业供需失衡,24/25年供需比达175%,但高产优质品种仍享有溢价,同质化品种竞争激烈 [11] - 建材行业2025H1营收同比下降4.1%至2775.7亿元,但利润同比增长38.9%至148.2亿元,水泥和玻纤板块表现亮眼 [12][15] - 新版建材行业稳增长工作方案强调盈利提升,水泥产能预计收缩4亿吨以上,玻璃行业淘汰落后产能加速 [16][18] - AI应用商业化加速,2025H1中国大模型Tokens调用量达537万亿,编程、视频、企业软件等细分领域实现亿美元级ARR [17][19][22] - 光伏行业政策转向反内卷和多能综合利用,从单一电力消纳向绿氢制储等方向延伸 [22] 指数表现 - 上证指数收盘3854点,单日涨0.83%,近5日涨0.73%,近1月跌0.59% [1] - 深证综指收盘2506点,单日涨1.56%,近5日涨4.69%,近1月跌0.2% [1] - 中盘指数单日涨1.9%,近1月涨8.66%,近6月涨22.64%,表现优于大盘和小盘指数 [1] - 电子化学品行业涨幅居前,单日涨5.48%,近6月涨46.02% [1] - 游戏Ⅱ行业近6月涨65.53%,表现突出 [1] - 元件Ⅱ行业单日跌2.12%,但近6月仍涨82.01% [1] - 股份制银行Ⅱ行业近1月跌8.6%,近6月跌4.1% [1] 康农种业业务与增长 - 公司主营杂交玉米种子,2017年打通育种、扩繁、推广环节,2021年开拓黄淮海和北方春播新市场 [11] - 短期增长由康农玉8009驱动,该品种为密植小棒型,上市首年销量超300万亩,次年超760万亩,预售火热 [11] - 通过自繁制种降本,以2024年毛利率35.8%为基准,2025年毛利率预计提升1.2-5.0个百分点 [11] - 西南市场通过品种迭代巩固优势,黄淮海市场由8009领航,东北市场预计2027年起规模销售 [11] - 转基因品种储备充足,布局西南领跑、黄淮海跟进、东北提升的格局 [11] 行业供需与价格 - 2025/2026年国内玉米供需紧平衡,价格预计稳定,种植积极性较好 [11] - 种子市场高库存需2-3年改善,高产优质品种享有溢价,同质化品种价格承压 [11] 财务预测与估值 - 预测2025-2027年归母净利润分别为0.96亿元、1.23亿元、1.50亿元 [11] - 最新市值对应PE分别为25倍、19倍、16倍,可比公司2025年PE均值47倍 [11] - 给予2025年47倍PE,目标市值45亿元,较当前有90%涨幅空间 [11] 建材行业表现 - 2025H1样本企业营收2775.7亿元,同比下降4.1%,但降幅较2024年收窄10.7个百分点 [12] - 归母净利润148.2亿元,同比增长38.9% [12] - 水泥行业营收1188亿元,同比下降7.5%,利润54亿元,同比增长1110.5%,受益于价格改善和成本下降 [12][13] - 玻纤行业营收311.0亿元,同比增长20.9%,利润32.9亿元,同比增长127.0%,复价和特种布布局贡献增长 [15] - 消费建材营收687.6亿元,同比下降2.7%,利润43.5亿元,同比下降13.2%,但三棵树、科达制造等个股表现突出 [15] - 玻璃行业营收246亿元,同比下降17.0%,利润10亿元,同比下降60.3%,仍处于周期底部 [15] 政策与行业动向 - 新版建材工作方案重点提升盈利,水泥产能需在2025年底前统一备案与实际产能,预计收缩4亿吨以上 [16] - 玻璃行业依法淘汰落后产能,推动环保绩效低企业退出,加快煤改气 [18] - 政策支持发展先进无机非金属材料,如人工晶体、高性能纤维等,推动"人工智能+建材"行动 [18] AI应用商业化 - 2025H1中国大模型Tokens调用量达537万亿,2024年全年为114万亿 [22] - OpenAI的ARR达120亿美元,AI编程公司Anysphere的ARR达5亿美元 [19] - AI视频、编程、企业软件等领域多家公司迈入1亿美元ARR门槛 [19] - 生成式推荐系统在META、字节、快手等公司落地 [19] - 企业级AI软件在数据分析、ITSM、ERP方向落地周期约6-18个月 [19] 光伏政策导向 - 政策推动从单一电力消纳向多能综合利用转变,重点发展绿氢制储、绿色合成氨等方向 [22] - 2025年1-7月全国光伏发电利用率94.7%,同比下降2.4个百分点 [22] - 行业反内卷政策密集落地,支持技术创新驱动降本增效 [22]
GenAI系列报告之64暨AI应用深度之三:AI应用:Token经济萌芽
申万宏源证券· 2025-09-24 12:04
行业投资评级 - 报告对AI应用行业持积极态度 投资评级为看好 [4] 核心观点 - AI应用Tokens消耗量大幅增长体现落地进展加速 大模型实现大规模商业化且收入向头部集中 OpenAI年化收入达到120亿美元 [4] - AI视频工具已迈入1亿美元ARR台阶 大规模商业化节点即将到来 [4] - AI编程为最热门融资方向 商业模式已跑通并加速兑现收入 Anysphere实现5亿美元ARR [4] - 企业级AI软件商业化偏慢 但具备坚实应用场景的AI法律 招聘 客服等领域已渐次兑现收入 [4] - 互联网巨头通过AI推荐系统升级和AI应用孵化推动商业化 META业绩已体现生成式推荐系统效果 [4] AI应用总览 - 大模型API调用量2025年后增长明显 OpenRouter平台显示谷歌Gemini Anthropic Claude OpenAI GPT等模型竞争格局高波动 [11] - 互联网公司AI Chatbot成为核心算力消耗场景 ChatGPT周活跃用户达8亿 谷歌Gemini月活用户达4.5亿 [14] - 微软Tokens消耗量从2024Q1的20万亿增长至2025年3月的400万亿 谷歌Tokens消耗量从2024年5月的9.7万亿增长至2025年7月的980万亿 [13] - 初创公司商业化进展分化 OpenAI估值3000亿美元 Anthropic拟以1700亿美元估值融资 xAI估值1130亿美元 [16] - AI视频工具Runway ARR达8400万美元 Synthesia ARR达1亿美元 Midjourney年营收预计3亿美元 [16] - AI编程工具Anysphere估值99亿美元 ARR达5亿美元 Replit估值30亿美元 ARR达1.4亿美元 [18] - 垂类AI应用Scale AI年营收预计20亿美元 Surge AI年营收超10亿美元 ElevenLabs ARR达1亿美元 [22] 互联网巨头进展 - 生成式推荐架构正替代传统DLRM模型 META GRs 快手OneREC 字节HLLM等方案推动推荐系统升级 [34] - META生成式推荐系统使Facebook用户使用时长提升7% Instagram提升6% 广告转化率提升5% [42] - 谷歌AI搜索功能AI Overview月活用户超20亿 AI Mode月活达1亿 Gemini月活达4.5亿 [47] - OpenAI年化收入120亿美元 其中C端订阅55亿 B端订阅36亿 API收入29亿 [53] - Anthropic年化收入50亿美元 其中API收入31亿(60%来自编程工具) 编程工具Claude Code ARR达4亿美元 [53] AI编程领域 - AI编程工具ARR总和超30亿美元 GitHub Copilot用户达2000万 Cursor ARR从1亿快速提升至5亿 [61] - 应用层公司仍需完成代码库感知 编辑器整合 UI优化等工作 具备独立竞争壁垒 [65] - Cursor通过VS Code集成 影子工作区验证 多模型智能路由等技术实现出色用户体验 [68] - 长期看AI编程可能演进为UGC应用程序平台 降低开发门槛并丰富应用生态 [73] 企业级AI软件 - 企业级AI部署前期需3-18个月完成数据清洗 工作流结合等工作 大规模落地节点或在2026年后 [80] - 定制化AI平台更适合企业落地 ServiceNow AI ACV订单达2.5亿美元 指引2026年达10亿美元 [77] - 竞争壁垒来自数据获取能力和行业Know-how Palantir Snowflake ServiceNow SAP等公司具优势 [85] - Palantir通过数据层归一化 逻辑层模型结合 行动层人工审核等构建企业AI操作系统 [91] 内容生产工具 - AI视频工具Runway Synthesia ARR接近1亿美元 但文本忠实度等仍有提升空间 [96] - 设计软件市场分化 Adobe面向专业设计者市场 Figma Canva面向传播者市场 [99] - Figma高价值客户数量高速增长 超过1万美元ARR客户达11107家 超过10万美元客户达1031家 [101] - 多邻国Max会员渗透率达8% 定价29.99美元/月 高于Super会员的12.99美元 [109] 国内AI应用 - 2025H1中国大模型公有云服务Tokens调用量达537万亿 2024全年为114万亿 [112] - 互联网公司通过推荐系统升级 AI Chatbot和云业务推动AI落地 [115]
行业观察 | Token市场占据半壁江山,火山引擎在打什么牌?
搜狐财经· 2025-09-22 15:16
中国AI云市场竞争格局 - 2025年中国AI云市场竞争激烈 阿里云 火山引擎 百度智能云均公开宣称自身优势[2] - 火山引擎2024年营收超110亿元 增速超60% 2025年营收目标超200亿元[2] - 火山引擎在IDC五份报告中的四份跻身前列 两份报告位居首位[2] 火山引擎市场地位 - 2025上半年火山引擎在大模型公有云服务市场份额达49.2% 接近半壁江山[3] - 2024年全年火山引擎在大模型公有云服务市场份额为46.4%[3] - 2024年AI基础设施市场份额9%居国内第三 生成式AI基础设施市场份额14.2%居国内第二[3] Token调用量核心指标 - 火山引擎更关注Tokens调用量而非GPU算力规模 认为这更能反映大模型产业落地真实水温[6] - 2024年中国云厂商Token调用收入总和不超过10亿元 但正以10倍以上速度成长[7] - IDC数据显示2024年6-12月中国大模型调用量增长近10倍[7] Token市场增长数据 - 2025上半年中国大模型公有云Tokens调用总量达537万亿次[7] - 火山引擎方舟平台Token调用量同比增长3.98倍[7] - 字节跳动内部产品Tokens消耗量未被统计 若计入市场份额会更大[7] Token经济模式优势 - Token收入可能在未来1-2年增长至百亿元规模 年增速可达3-10倍[8][9] - 相比低价销售GPU资源的"一锤子买卖" Token模式带来经常性收入[9][10] - 按Token计费降低开发门槛 使算力计费更清晰 ROI更易衡量[11] 行业发展趋势 - AI算力消耗从训练转向推理 "卖Token"模式正变得越来越流行[12] - 2024年初中国日均Token消耗量1000亿 2025年6月底突破30万亿 一年半增长300多倍[12] - 2024年7月火山引擎率先降价90% 引发行业跟进 2025年2月DeepSeek模型走红推动爆发[13] 未来增长预测 - 2025年底-2026年初多模态模型和Agent成熟将推动新一轮Token消耗增长[17] - 单次视觉任务消耗算力可能超10万Tokens 是文本对话的成千上万倍[17] - 预计2027年豆包大模型日Tokens消耗量超100万亿 较2024年增长至少100倍[18] 字节跳动生态优势 - 字节跳动内部AI需求领先外部市场约4-5个月[19] - 豆包大模型2025年5月日均Tokens调用量16.4万亿 较2024年5月1200亿增长137倍[29] - 月均Tokens调用量超500万亿 超过谷歌2025年5月的480万亿[23][29] 技术实力表现 - 字节跳动Seedream 4.0图像模型文字转图像能力全球第一 图像分析能力全球第二[30][33] - 豆包App月活跃用户1.41亿 居国内AI原生App第二[34] - 火山引擎AI基础设施吞吐效率更高 每秒Token输出量达其他厂商2.6倍[35] 国际对标与战略目标 - 谷歌Gemini模型2025年7月月处理Tokens达980万亿 带动谷歌云营收增速提升10个百分点[23] - 火山引擎目标在MaaS市场保持份额第一 2030年前成为千亿级云和AI公司[35] - Token模式成为AI时代改变云计算竞争格局的新武器[36]
到2030年全球半导体营收将突破1万亿美元,受“Agentic AI”与“Physical AI”兴起驱动
Counterpoint Research· 2025-08-28 02:02
全球半导体营收预测 - 全球半导体营收预计从2024年到2030年几近翻番 规模超过1万亿美元[4][5] - 主要催化剂是先进AI服务器基础设施建设 受AI应用持续且可能加速的需求驱动[5] - 短中长期大部分需求来自超大规模云服务商 推动多模态GenAI成熟并为物理AI奠定基础[5] AI发展三阶段演进 - 第一阶段基础设施铺设伴随应用从基础文本转向结合文本 图像 音频和视频的多模态GenAI 提升Token消耗[7] - 第二阶段支持Agentic AI的Token生成量呈指数级增长 从复杂对话式AI到全链路多媒体内容生产[7] - 第三阶段支撑物理AI到来 推动人形机器人 工业机器人与车辆等自主机器崛起[7] AI价值分布与演进 - 当前AI价值更多集中在半导体侧 超大规模云厂商 二线云玩家与企业加速建设AI基建[7] - 2024年AI市场以硬件为主 约80%直接营收来自基础设施与端侧的半导体[10] - 长期价值将由AI价值链中的应用与API进一步释放 格局正转向由AI Token经济驱动的新阶段[9][10] 半导体行业驱动因素 - 芯片是AI经济支柱 驱动从云平台 模型与框架到应用的一切 包括GPU 加速器 存储器与光互连[7] - 下一波AI浪潮最大价值在于运营成本显著降低 包括劳动力生产率提升和广泛自动化带来的效率收益[10] - Token正成为新的AI货币 对云与端两端的算力 内存与网络提出巨大需求[7]
每Token成本显著降低 华为发布UCM技术破解AI推理难题
环球网· 2025-08-18 07:40
行业趋势与挑战 - AI推理成为人工智能发展关键阶段 推理体验和成本成为衡量模型价值重要标准 [3] - 行业从"模型智能"转向"数据智能"拐点加速到来 数据治理和价值挖掘成为核心议题 [3] - 金融行业面临长序列输入"推不动"、并发低时延长"推得慢"、KV重复计算"推得贵"三大核心挑战 [5] 技术创新方案 - 公司推出UCM推理记忆数据管理器 由推理引擎插件、功能库和高性能存取适配器三大组件构成 [4] - 通过层级化自适应全局前缀缓存技术使首Token时延最大降低90% [4] - 实现推理上下文窗口10倍级扩展 长序列场景下TPS提升2-22倍 [4] - 智能分级缓存可在HBM、DRAM、SSD等存储介质中按需流动 [4] 应用成果验证 - 与中国银联合作在"客户之声"业务场景实现大模型推理速度提升125倍 [5] - 仅需10秒即可精准识别客户高频问题 有效促进服务质量提升 [5] - 联合发布智慧金融AI推理加速方案应用成果 [1] 生态发展计划 - 公司公布UCM开源计划 9月正式开源并贡献给主流推理引擎社区 [6] - 开放统一南北向接口 可适配多类型推理引擎框架、算力及存储系统 [6] - 通过开源推动全栈协同发展 促进推理架构进步和标准落地 [7]
破解效率与成本难题:华为UCM技术推动AI推理体验升级
央广网· 2025-08-13 06:13
行业趋势与背景 - AI推理成为人工智能发展关键阶段 衡量模型价值的重要标尺是推理体验和推理成本 [3] - 企业需持续加大算力投入保障推理体验 但需在效率与成本间寻找平衡点 [3] - Token经济已经到来 模型训练和推理效率的量纲都以Token数为表征 [3] 技术创新与产品发布 - 华为推出UCM推理记忆数据管理器 包含推理引擎插件 功能库和高性能存取适配器三大组件 [3] - UCM通过层级化自适应全局前缀缓存技术 使首Token时延最大降低90% [3] - UCM将超长序列Cache分层卸载至外置专业存储 实现推理上下文窗口10倍级扩展 [3] - UCM具备智能分级缓存能力 在HBM DRAM SSD等存储介质中实现按需流动 [4] - UCM融合多种稀疏注意力算法 使长序列场景下TPS提升2-22倍 [4] 应用成果与商业价值 - 华为携手中国银联在金融典型场景开展UCM技术试点应用 [1] - 在中国银联客户之声业务场景下 大模型推理速度提升125倍 [4] - 客户高频问题识别时间缩短至10秒 促进服务质量提升 [4] - 技术显著降低每Token推理成本 为企业减负增效 [4] 生态建设与开源计划 - 华为公布UCM开源计划 通过开放统一南北向接口适配多类型推理引擎框架 算力及存储系统 [4] - UCM将于今年9月正式开源 后续逐步贡献给业界主流推理引擎社区 [4] - 中国银联将联合华为等生态伙伴共建AI+金融示范应用 推动技术成果从实验室验证走向规模化应用 [4]
华为 上新“AI黑科技”
上海证券报· 2025-08-12 15:56
华为UCM技术发布 - 华为发布AI推理记忆数据管理器UCM,旨在实现更快的推理响应、更长的推理序列和更低的推理成本 [1] - UCM包含三大组件:推理引擎插件、功能库和高性能KV Cache存取适配器,通过三层协同实现"更优体验、更低成本" [5] - 技术特点包括首Token时延最大降低90%,推理上下文窗口10倍级扩展,长序列场景下TPS提升2-22倍 [5][6] 技术性能对比 - 国外大模型服务单用户输出速度达200 tokens/s(时延5ms),国内普遍小于60 tokens/s(时延50-100ms) [5] - OpenAI O3 mini的每秒Token输出能力约为国内某开源大模型的10倍 [5] - 在中国银联试点中,UCM使大模型推理速度提升125倍,10秒即可识别客户高频问题 [10] 开源计划与行业应用 - 华为计划于2023年9月正式开源UCM,后续将贡献给主流推理引擎社区 [3][12] - UCM采用开放接口设计,可适配多类型推理引擎框架、算力及存储系统 [12] - 金融行业成为首个应用领域,与中国银联合作验证技术价值,推动"AI+金融"示范应用建设 [7][10] 商业目标与行业影响 - 目标是在算力投入不变前提下优化推理体验,推动AI推理进入商业正循环 [6] - Token经济时代到来,模型训练和推理效率以Token数为重要衡量标准 [1][4] - 金融行业因IT信息化领先和数据挖掘需求成为技术落地首选场景 [7]