大模型推理

搜索文档
大模型推理需求爆发催化推理算力占比上升,科创半导体ETF(588170)开盘冲高大涨1.40%!
每日经济新闻· 2025-08-13 02:33
指数表现与ETF动态 - 上证科创板半导体材料设备主题指数截至2025年8月13日09点56强势上涨1.57% [1] - 成分股中船特气上涨20.01% 上海合晶上涨8.36% 金宏气体上涨4.94% 中巨芯和沪硅产业等个股跟涨 [1] - 科创半导体ETF(588170)上涨1.40% 最新价报1.09元 近1月累计上涨4.09% [1] - ETF盘中换手率7.74% 成交额3385.34万元 近1月日均成交5408.33万元 [1] - 近1周规模增长589.47万元 份额增长600.00万份 但最新资金净流出425.17万元 [1] 算力市场发展趋势 - IDC预测到2027年中国智能算力中推理算力占比将从2023年41%上升至72.6% [2] - 大模型服务调用量和推理计算量将翻倍 基础设施重心向推理偏移 [2] - 国内AI领域资本开支有望保持较快增长 [2] 半导体产业政策环境 - 国家网信办于2025年7月31日约谈英伟达公司 要求就H20算力芯片漏洞后门安全风险问题进行说明 [2] - 中国加速构建安全可控算力基座 华为昇腾为代表的国产算力芯片及供应链迎来发展机遇 [2] 半导体ETF投资价值 - 科创半导体ETF(588170)跟踪上证科创板半导体材料设备主题指数 覆盖半导体设备(59%)和材料(25%)领域 [3] - 半导体材料ETF(562590)同样聚焦半导体设备(59%)和材料(24%)上游环节 [3] - 行业具备国产化率较低和国产替代天花板较高属性 受益于AI革命需求扩张和技术进展 [3]
对话后摩智能CEO吴强:未来90%的数据处理可能会在端边
观察者网· 2025-07-30 06:41
公司动态 - 后摩智能在WAIC 2025首次展示M50系列芯片,包括M50芯片、力谋®BX50计算盒子、力擎LQ50 Duo M2卡等核心产品 [1] - M50芯片专为大模型推理设计,面向AI PC和智能终端场景,实现160TOPS INT8、100TFLOPS bFP16物理算力,搭配48GB内存和1536GB/s带宽,典型功耗仅10W [4] - 公司已启动下一代DRAM-PIM技术研发,目标突破1TB/s片内带宽,能效提升三倍,推动百亿参数大模型在终端设备普及 [9] 产品技术 - M50芯片支持1.5B到70B参数的本地大模型运行,具有"高算力、低功耗、即插即用"特点 [4] - 力擎LQ50 Duo M2卡采用标准M2规格,为AI PC和陪伴机器人提供即插即用的端侧AI能力 [4] - 公司通过存算一体技术实现AI大模型"离线可用、数据留痕不外露"的特性 [4] - 2024年初公司推出优化版M30芯片,针对大模型进行调整 [7] 市场战略 - 公司定位端边AI计算市场,CEO认为未来90%数据处理将在端和边完成 [1] - 意向客户包括联想的AI PC、讯飞听见的智能语音设备、中国移动的5G+AI边缘计算设备 [8] - 重点布局消费终端、智能办公、智能工业三大领域,包括平板电脑、智能语音系统、运营商边缘计算等场景 [8] - 将机器人视为新兴垂直赛道,类比十年前的智能驾驶市场 [8] 行业趋势 - 大模型发展呈现从训练向推理迁移、从云端向边端迁移两大趋势 [1] - 端边AI具有实时响应、低成本、数据隐私和用户体验优势,预计将成为未来趋势 [7] - 5G+AI边缘计算被视为重要发展方向 [8] - 公司CEO提出"让大模型算力像电力一样随处可得"的愿景 [5]
斯坦福大模型推理课免费了,谷歌推理团队创始人主讲
量子位· 2025-07-25 07:59
大模型推理能力 - 大模型推理指大语言模型在给出最终答案前的中间思考步骤,这种推理过程与人类思维无关,关键在于生成大量中间内容[5][9] - 有推理过程的回答会先分解问题并逐步推导(如拆分单词找字母),而非直接输出结果,这显著提升答案准确性(数学题正确率从随机猜测提升至逐步推导)[8][15][17] - 中间步骤使复杂问题可解:对于布尔电路规模T的问题,生成O(T)中间步骤后固定大小的Transformer即可解决,否则需极深模型或无法处理[11][12] 推理能力提升机制 - 思维链(CoT)赋能:引入CoT后无需扩展模型规模即可让Transformer解决任何问题,理论上可模拟多项式大小电路的计算,缩小与图灵机差距[12][13] - 解码方式优化:通过CoT-decoding从top-k解码路径中选择含推理且置信度高的路径,效果接近指令微调模型[25][26] - 监督微调改进:采用自我改进(模型自生成步骤纠错)和强化学习微调(验证器引导生成正确答案),后者成为当前最强推理引出方法[27][28][29][31] 前沿方法与未来方向 - 聚合与检索方法:通过边缘化自一致性(高频答案筛选)、通用自一致性(模型自主选择)及检索+推理(先回忆相关知识再解题)提升效果[40] - 未来突破方向:解决非唯一可验证答案任务(如开放式问题),构建实际应用而非仅优化基准测试[35][40] 核心研究背景 - 理论奠基:Denny Zhou与马腾宇等证明足够长思维链可使Transformer解决所有问题,其论文《Chain of Thought Empowers Transformers...》奠定领域基础[2][12][31] - 技术应用:Google DeepMind推理团队通过思维链、自洽性、任务分解等方向推动AGI发展,目标实现完美泛化[37]
AI真的需要「像人类」那样思考吗?AlphaOne揭示属于大模型的「思考之道」
机器之心· 2025-06-23 07:44
核心观点 - 研究提出AI模型应采用「先慢后快」的推理策略,而非模仿人类的「先快后慢」模式 [4][5] - AlphaOne框架通过引入全局推理调控超参数α,显著提升模型准确率和效率 [6][16] - 该方法无需额外训练,仅需在测试阶段调整α值即可实现推理优化 [6][13] 方法论 - 通过α-moment统一调控推理节奏,之前引导慢思考,之后切换快思考 [16][18] - 慢思考阶段采用Bernoulli过程插入wait标记,概率由调度函数控制 [20][21] - 快思考阶段用</think>标记终止慢思考,避免推理惯性 [24][25] 实验结果 - 在1.5B模型上准确率提升+6.15%,生成token数减少14% [29][30] - 线性衰减调度策略在多项任务中表现最优 [32] - α值可灵活调控思考预算,存在性能最优区间 [34] - 后α-moment调控机制对性能提升至关重要 [43] 应用场景 - 在数学解题、代码生成、科学问答等六大推理任务中验证有效性 [27] - 成功案例包括化学混合题,失败案例包括多角恒等式推理 [47] 未来方向 - 开发更复杂的慢思考调度策略 [48] - 摆脱对特定标记的依赖 [48] - 扩展至多模态推理场景 [48]
半壁江山都来了!中国AI算力大会演讲嘉宾全揭晓,同期异构混训、超节点两大研讨会议程公布
傅里叶的猫· 2025-06-17 15:30
2025中国AI算力大会概况 - 大会将于6月26日在北京中关村东升科技园万丽酒店举行,由智一科技旗下智猩猩、智东西联合主办,芯东西协办,是"智领未来"北京人工智能系列活动之一 [1] - 大会设置主会场、分会场和展览区,主会场包含高峰论坛、AI推理算力专题论坛和智算中心专题论坛,分会场将举行智算集群异构混训技术研讨会和超节点技术研讨会(闭门制) [1][2] - 已邀请近30位重量级嘉宾参会,包括中国信息通信研究院、摩尔线程、中昊芯英、魔形智能科技等机构和企业代表 [1][4][5] 主会场核心议题与演讲亮点 高峰论坛 - 摩尔线程副总裁王华将分享基于FP8的国产万卡集群训练实践,其夸娥(KUAE)智算集群解决方案已从千卡扩展至万卡规模,支持FP8精度计算满足DeepSeek V3/R1等大模型需求 [12][13] - 趋境科技陈祥麟将探讨千亿大模型私有化门槛降低10倍的技术路径,包括开源框架KTransformers实现单卡运行千亿大模型等创新 [31][32] - 中昊芯英CEO杨龚轶凡拥有74项中国专利和15项国际专利,曾参与Google TPU 2/3/4研发,将分享高端芯片设计经验 [16][17] AI推理算力专题论坛 - 安谋科技产品总监鲍敏祺将发布新一代"周易"NPU产品,采用大模型优化架构设计提升端侧算力,推动AI从云端下沉至终端设备 [39][40] - 实在智能欧阳小刚将展示Agent智能体技术在端侧的轻量化应用,包括模型高效推理引擎优化策略 [45] - 白山云科技李金锋将介绍边缘AI推理四大技术突破:异构资源弹性调度、智能网关全网调度、算力单元推理优化及模型加载优化技术 [49][50] 智算中心专题论坛 - 图灵新智算洪锐提出基于Token生成能力的智算集群效能评价体系,量化计算资源利用率 [5] - 趋动科技张增金倡导软件定义AI算力模式,通过虚拟化技术实现GPU资源池化,提升智算中心资源调度效率 [65][66] - 百度智能云郝玉涛分享AIDC技术突破:实现单体IDC万卡到3万卡集群部署,具备10万卡集群技术能力 [60][61] 分会场闭门研讨会重点 智算集群异构混训技术研讨会 - 壁仞科技丁云帆、中国移动王升等专家将探讨混合架构下的分布式训练优化方案 [68] - 商汤大装置技术产品总监刘叶枫将分享大规模异构算力调度经验 [68] 超节点技术研讨会 - 阿里云卢晓伟将解析基础设施异构硬件解决方案 [71] - 曦智科技孟怀宇聚焦光计算技术在超节点架构中的应用 [71] 行业技术发展趋势 - 大模型训练需求推动算力基础设施升级:模型参数量从千亿迈向万亿,万卡集群成为行业标配 [12] - 编译技术成为AI基础设施关键环节:中科加禾崔慧敏、魔形智能徐凌杰均指出其可解决硬件异构性和模型复杂性挑战 [22][26] - 边缘计算与中心云协同趋势明显:白山云等企业推动"云-边-端"全域智能范式演进 [49][50]
10% KV Cache实现无损数学推理!这个开源方法解决推理大模型「记忆过载」难题
量子位· 2025-06-16 04:49
大模型推理优化技术R-KV - 核心观点:R-KV是一种通过实时压缩KV缓存解决大模型推理冗余问题的高效方法,显著降低显存占用并提升吞吐量,同时保持100%准确率 [1][2][3] 技术原理 - 采用三步流程:冗余识别+重要性评估+动态淘汰,通过链式思考(CoT)优化推理路径 [5] - 实时对token进行排序,保留信息丰富且多样化的token,阻断显存膨胀 [7][9] - 结合多头注意力评估贡献度(重要性打分)和余弦相似度检测重复内容(冗余打分),按优先级动态调度KV配额 [9] 性能优势 - 显存降低90%,吞吐量提升6.6倍,准确率保持100% [1] - 在DeepSeek-R1-Llama-8B模型中,解决AIME数学题时KV缓存从4.1GB大幅压缩 [6] - 相比SnapKV等现有方法,R-KV覆盖范围更广(保留题目关键词、中间值及最终答案),避免误删关键信息 [13][14][15] 基准测试结果 - 数学任务表现:R1-Llama-8B在MATH-500准确率34%,R1-Qwen-14B在AIME24准确率25%,均超越基线 [19] - 16K序列长度下,固定1024预算时显存节省93.75%,最大批处理402次,吞吐量达3188.82 tok/s [20] - 比例压缩模式下(10%预算),8K序列吞吐量达3809.15 tok/s,显存节省90% [20] 应用场景 - 边端设备长链推理:消费级GPU甚至手机NPU可运行 [22] - 多轮Agent复杂流程:如反思-重写-自评,突破显存限制 [22] - 强化学习加速:training-free方法即插即用 [22] 技术实现细节 - 可视化对比显示R-KV能跨段保留关键信息,而SnapKV聚焦局部片段导致重复 [12][13][14] - 计算开销被注意力成本降低抵消,序列越长收益越显著 [20][21] - 主要吞吐提升源于支持更大批处理规模,而非直接速度优化 [21]
SGLang 推理引擎的技术要点与部署实践|AICon 北京站前瞻
AI前线· 2025-06-13 06:42
SGLang 开源推理引擎发展现状 - 截至2025年6月 GitHub Stars达15K 月均下载量突破10万次 [1] - 已被xAI Microsoft Azure NVIDIA AMD LinkedIn 美团等行业巨头采用 [1] - 成为DeepSeek R1官方推荐推理引擎 并实现首个完全开源的大规模专家并行部署方案 [1] 核心技术优势 - 采用PD分离架构控制尾延迟 推测解码提升Token生成速度 KV缓存落盘优化显存 [2] - 实现RadixAttention Overlap Scheduling等高效架构设计 复现PD分离 大规模EP等前沿技术 [3] - 支持离线批处理最大化GPU利用率 线上推理优先保障Token生成速度的差异化部署策略 [4] 并行部署技术挑战 - 专家并行实现中面临通讯与Prefill/Decode传输KV缓存的时间重叠问题 [4] - 网卡资源争抢 CPU负载过大 Python GIL锁释放不及时等工程挑战突出 [4] 社区生态建设 - 开源模式吸引广泛参与 技术分享增强社区认同感 [5] - 超过100k显卡规模的工业部署经验反哺技术演进 [5] 关键技术解析 - PD分离使Decode延迟均匀稳定 允许采用不同并行策略提升资源利用率 [6] - 推测解码通过隐藏层信息一次预测多个Token 显著提升Decode速度 [6] - KV缓存落盘将历史上下文存储至大容量设备 避免重复Prefill计算 [6] 部署实践洞察 - 参数配置调试是影响上线效率的关键环节 需精细化优化而非依赖"开箱即用" [7] - 模型规模持续扩大背景下 多GPU与高效并行策略是实现高性价比部署的必经之路 [7] 行业活动预告 - AICon全球人工智能开发与应用大会将深入解析大模型推理关键技术 [2][7] - 聚焦AI Agent构建 多模态应用 大模型推理优化等前沿议题 [7]
大模型推理,得讲性价比
虎嗅APP· 2025-06-06 10:10
华为MoE架构技术突破 - 华为推出昇腾平台原生设计的Pangu Pro MoE 72B模型,大幅降低计算开销,在SuperCLUE千亿内模型并列国内第一[3] - 通过系统级软硬协同优化、高性能算子融合优化、模型原生投机算法优化,Pangu Pro MoE推理性能提升6~8倍[3] - 在昇腾300I Duo上单卡吞吐可达321 tokens/s,在昇腾800I A2上更可飙升至1528 tokens/s[3] 分层混合并行(H2P)优化 - 提出创新性的H2P分层混合并行策略,根据任务特性"分工开小会",让每个部分在各自的通信域内高效执行[6] - Attention模块采用DP2+TP4并行方案,Expert模块采用TP2+EP4策略,共享专家以TP8全芯并行[6] - 相比纯TP方案,Decode吞吐性能提升33.1%[7] 通信瓶颈优化(TopoComm) - 提出SlimRing算法合并相邻通信步的后同步与前同步操作,同步次数降低35%[10] - 提出NHD算法通过拓扑亲和的分级通信等效提高链路有效带宽21%[10] - 引入INT8 AllGather + FP16 Reduce-Scatter混合量化通信策略,实现通信数据压缩25%,AllGather通信耗时降低39%[10] 计算&通信融合(DuoStream) - 提出DuoStream算子级多流融合通算优化方案,实现计算与通信的细粒度并发调度[11] - 构建GMMRS与AGMM两大融合策略,克服通信与数据搬运和计算之间的瓶颈[11] - 显著提升模型在昇腾平台上的推理效率,最大化释放硬件资源潜能[11] 融合算子优化 - 打造MulAttention和SwiftGMM两支精锐融合算子特种部队[16] - MulAttention实现Attention计算加速4.5倍,达成89%以上的数据搬运流水占用率[17] - SwiftGMM实现GMM计算加速2.1倍,解码阶段整网推理时延降低48.7%[20] 推理算法加速 - 提出专家动态剪枝算法PreMoE,实现推理吞吐提升10%+[25] - 提出TrimR反思压缩算法,推理步数降低14%[27] - 提出SpecReason反思投机算法,推理吞吐提升30%[27] 昇腾平台性能表现 - 昇腾800I A2平台在BS=456时单卡吞吐达1148 tokens/s,较72B和32B稠密模型分别提升97%和18%[30] - 结合MTP投机推理技术,单卡BS可提升至146,最高吞吐突破1528 tokens/s[30] - 昇腾300I Duo平台在BS=128时单卡吞吐最高达321 tokens/s,提供更具性价比的MoE推理解决方案[32]
MoE推理「王炸」组合:昇腾×盘古让推理性能狂飙6-8倍
机器之心· 2025-06-06 09:36
混合专家模型技术突破 - 华为推出昇腾平台原生设计的Pangu Pro MoE 72B模型,显著降低计算开销并在SuperCLUE千亿内模型评测中并列国内第一 [2] - 通过软硬协同优化实现推理性能提升6~8倍,昇腾300I Duo单卡吞吐达321 tokens/s,昇腾800I A2单卡吞吐飙升至1528 tokens/s [3] - 采用分层混合并行(HP)策略,Decode吞吐性能相比纯TP方案提升33.1%,通过模块化分工优化通信效率 [5][6][7] 通信与计算协同优化 - 提出TopoComm优化方案,同步次数降低35%,链路有效带宽提高21%,通信数据压缩25%,AllGather通信耗时降低39% [9] - 开发DuoStream多流融合方案,实现计算与通信细粒度并发调度,解决Expert模块通信瓶颈 [12] - 构建GMMRS与AGMM融合策略,关键通信路径流水掩盖,显著提升硬件资源利用率 [12] 高性能算子创新 - 开发MulAttention融合算子,Attention计算加速4.5倍,数据搬运流水占用率89%,访存带宽利用率87% [16] - 推出SwiftGMM矩阵计算引擎,GMM计算加速2.1倍,解码阶段整网推理时延降低48.7% [18] - 算子优化实现KV缓存搬运效率提升,路由专家权重搬运瓶颈突破 [15][16][18] 推理算法创新 - 专家动态剪枝算法PreMoE保持模型准确率同时提升推理吞吐10%+ [21] - TrimR反思压缩算法通过小模型监测大模型思考过程,推理步数降低14% [22] - SpecReason反思投机算法结合大小模型优势,推理吞吐提升30% [22] 昇腾平台性能表现 - 昇腾800I A2平台4卡部署下,大并发场景单卡吞吐1148 tokens/s,较72B/32B稠密模型提升97%/18%,MTP技术下最高吞吐达1528 tokens/s [24] - 昇腾300I Duo平台4卡部署实现小并发延迟50ms,大并发单卡吞吐201 tokens/s,MTP技术下吞吐最高321 tokens/s,提供高性价比解决方案 [26] - 预填充阶段2卡2路并发实现2k序列输入延迟1.94s,单卡吞吐1055 tokens/s [26]
中移齐鲁创新院发布“迅测”工具:助力国产芯片选型效率跃升
齐鲁晚报· 2025-06-06 08:15
行业趋势 - 大模型推理成本持续下降和国产芯片快速发展推动政务、金融、医疗等数据敏感行业加速推进推理模型国产化本地部署 [1] - 国产智算芯片型号众多、性能差异显著,高效准确压测模型推理性能成为筛选高性能低成本芯片的关键挑战 [1] 技术创新 - 中移齐鲁创新院自主研发"迅测"芯片推理性能自动压测工具,创新构建"配置即测试"压测模式并集成数据自动解析能力 [1] - "迅测"工具单轮测试人工值守时长从平均8小时降至0.5小时,数据整理耗时减少70%,整体芯片选型效率提升3倍 [1] - 工具核心技术亮点包括基于vLLM的智能自动压测和压测数据自动汇总及可视化分析 [3] 技术细节 - 通过智能调度vLLM引擎实现一键化操作,用户仅需设定并发请求量即可自动执行多轮压力测试 [3] - 支持本地和宿主机远程两种压测模式,适配不同芯片的单节点或多节点部署需求 [3] - 采用标准化数据存储机制自动计算生成错误率、单路输出速度等核心性能指标,确保跨平台测试结果可比性 [3] - 内嵌数据可视化引擎直观呈现芯片性能差异,自动化日志解析技术解决海量日志人工汇总痛点 [3] 应用成果 - 已完成DeepSeek系列大模型在天数智芯、华为昇腾、壁仞科技、瀚博半导体等主流国产计算平台上的推理性能测试 [3] - 生成精细化对比报告包含多项关键参数对比矩阵,为国产大模型推理芯片选型提供重要参考依据 [3]