大模型推理 - 财报，业绩电话会，研报，新闻 - Reportify

大模型推理

搜索文档

DeepSeek引爆国产AI芯片：寒武纪、华胜天成、和而泰三大龙头热度爆棚，5000亿“寒王”市值超五粮液

金融界· 2025-08-22 06:50

DeepSeek-V3.1 发布及技术升级 - 混合思考模式、更高思考效率和更强智能体能力三大核心升级 [1] - 采用UE8M0 FP8 Scale技术支持下一代国产芯片生态 [2] - 国产AI生态实现全环节闭环：国产AI芯片-国产开源模型-下游应用 [2] 寒武纪市场表现及驱动因素 - 股价盘中最高1240元单日涨幅超19% 市值突破5000亿元 [3] - 成交额超130亿元市场交投异常活跃 [3] - 自去年924以来累计涨幅超460% 近一个月实现股价翻倍 [4] - 受益国产替代加速、大模型推理需求爆发及技术实力认可三大因素 [4] 华胜天成业务亮点及市场表现 - 作为华为昇腾芯片合作伙伴深度参与智算中心建设 [6] - 天津人工智能计算中心项目投资8.6亿元将提供300P算力 [6] - 持有物联网芯片公司泰凌微9.92%股权 [6] - 近一个月最大涨幅达130% 本轮行情涨幅超2倍 [6] 和而泰投资布局与业务发展 - 持有国产GPU厂商摩尔线程1.244%股份 [8] - 摩尔线程为首个支持原生FP8的国产GPU厂商启动科创板IPO [8] - 智能控制器业务覆盖汽车电子、储能及AIoT三大领域 [8] - 自去年924以来涨幅达300% 单日成交额超50亿元 [8]

华胜天成(SH:600410)

大模型推理

大模型推理

大华股份（002236）：服务器业务有望开启新增长点

华泰证券· 2025-08-19 02:04

投资评级 - 维持"买入"评级，目标价28.56元人民币[1][6] - 基于2025年24.4倍PE估值（可比公司均值），较当前股价18.19元存在56.9%上行空间[1][6][19] 核心观点 - 服务器业务成为新增长引擎：1H25中标中国移动AI推理服务器、南方电网等集采项目，合计金额或超10亿元，构建从训练到推理的全场景算力解决方案[9][12] - 大模型推理需求爆发：国内日均token消耗量达30万亿（1年半增长300倍），Google月均token调用量960万亿，驱动算力基础设施需求[9][13] - 1H25业绩表现：营收151.81亿元（yoy+2.12%），归母净利24.76亿元（yoy+36.8%），经营性现金流6.39亿元创上市同期新高[8][15] - 创新业务高速增长：1H25营收30.23亿元（yoy+22.83%），子公司华睿科技拟分拆赴港上市[10][16] 业务分析服务器业务 - 技术适配：深度适配DeepSeek-R1/V3系列大模型，鲲鹏服务器主频2.5GHz，性能领先业界15%，能效比领先60%[12] - 产品矩阵：GS4498-G02（云端中心算力）、GS2298（推理应用）、DH-RS2297系列（24-64核配置）形成完整解决方案[12][13] 分业务表现 - G端业务：1H25营收18.51亿元（yoy+4.68%），公共民生/交管领域表现突出[10][16] - B端业务：1H25营收42.19亿元（yoy+8.17%），央国企订单强劲但中小企业下滑超10%[10][16] - 海外业务：1H25营收76.28亿元（占比50.25%），关税影响致增速放缓至1.91%[10][16] 财务预测 - 收入调整：2025-2027年营收预测下调至332.75/351.65/380.02亿元（原344.92/378.24/421.31亿元）[6] - 盈利预测：2025-2027年EPS 1.17/1.18/1.28元，对应PE 15.6x/15.4x/14.2x[5][6] - 盈利能力：1H25毛利率回升至41.61%，2025E ROE提升至9.83%[5][8][24] 行业比较 - 可比公司估值：海康威视/视源股份/浪潮信息2025E平均PE 24.4倍，大华股份15.6倍存在折价[19] - 算力产业趋势：国家数据局统计显示AI算力需求呈指数级增长，服务器本地化替代加速[9][13]

大华股份(SZ:002236)

大模型推理

AI服务器（GS4498 - G02

华启智慧R机型鲲鹏服务器（DH - RS2297系列）

大模型推理

AI服务器（GS4498 - G02

华启智慧R机型鲲鹏服务器（DH - RS2297系列）

链式思维是幻象吗？从数据分布视角重新审视大模型推理，马斯克回复，Grok破防

机器之心· 2025-08-14 09:11

思维链(CoT)提示技术的本质 - 核心观点：CoT提示技术生成的推理链条可能并非真正的逻辑推理，而是对训练数据分布内模式的复现，当输入任务与训练数据分布存在差异时，推理链条会迅速失效[2][10] - 典型例证：模型回答「美国建国年是否为闰年」时，推理步骤正确但结论自相矛盾，显示其仅复述逻辑规则而非实际应用[10] - 性能提升来源：CoT效果主要依赖表层语义匹配，问题改写或引入无关内容会导致表现显著下降[11] 数据分布视角的理论框架 - 结构性归纳偏差：CoT有效性源于模型对训练数据中常见模式的复现，而非真实逻辑推演[13] - 理论公式：通过分布差异指标量化推理性能受分布偏移的影响，公式显示测试风险与训练风险、分布差异及样本量相关[15] - 实验验证：分布偏移时模型准确率从100%骤降至0.01%，全新变换下性能几乎完全丧失[23] 可控实验平台与泛化性测试 - 数据炼金术框架：从零训练语言模型，通过字母原子序列和ROT/循环平移变换构建可控任务，精确生成标准推理链以评估差异[18][19][21] - 任务泛化：变换顺序重组或新字母组合导致准确率暴跌，监督微调仅扩展分布边界而非提升抽象能力[23][24] - 长度泛化：输入序列长度或推理步数微小变化即引发表现显著下降，模型通过增减词元凑长度[26] - 格式泛化：提示格式扰动（如元素/变换部分修改）即使逻辑不变也可导致推理失败[28] 普遍性与现实意义 - 普遍脆弱性：不同采样温度和模型规模下CoT对分布偏移的敏感性一致，表明此为普遍现象而非个别特性[31] - 应用警示：高风险领域（医疗/金融/法律）需警惕流畅但逻辑错误的推理链误导性，评测需引入严格分布外测试[34][35] - 发展建议：需正视CoT泛化瓶颈，平衡分布内优势与评测部署的谨慎性[37][38]

思维链（CoT）提示技术

大模型推理

数据炼金术（DataAlchemy）

思维链（CoT）提示技术

大模型推理

数据炼金术（DataAlchemy）

华为发布AI推理新技术中国银联大模型效率提高125倍

21世纪经济报道· 2025-08-13 23:10

技术发布 - 华为发布AI推理创新技术UCM 专门优化大模型推理过程的缓存管理技术旨在提升推理速度效率和成本效益 [1] - UCM是以KV Cache为中心的推理加速套件融合多类型缓存加速算法工具分级管理推理过程中产生的KV Cache记忆数据扩大推理上下文窗口实现高吞吐低时延体验 [1] - 技术通过推理框架算力存储三层协同包含推理引擎插件功能库和高性能存取适配器三大组件 [3] 性能提升 - UCM依托层级化自适应的全局前缀缓存技术使首Token时延最大降低90% [3] - 在中国银联试点应用中大模型推理速度提升125倍仅需10秒即可精准识别客户高频问题 [4] - 国外主流模型单用户输出速度达200Tokens/s（时延5ms）而国内普遍小于60Tokens/s（时延50~100ms） [3] 行业应用 - 华为联手中国银联在金融典型场景开展UCM技术试点应用联合发布智慧金融AI推理加速方案 [1] - 金融行业因数字化属性强对速度效率安全可靠性要求高成为验证技术的标杆场景 [4] - 中国银联将依托国家人工智能应用中试基地联合华为等生态伙伴共建"AI+金融"示范应用推动技术成果规模化应用 [4] 技术优势 - UCM将专业存储能力引入分级缓存管理在软硬件协同与卸载方面做了大量工作如直通加速 KV检索索引与底层文件系统元数据融合 [6] - 具备KV Cache生命周期管理的完整机制包括预热分级淘汰等功能 [6] - 算法加速库超越业界普遍的Prefix Cache层面商用稀疏全流程算法和后缀检索算法提供更丰富可靠的技术手段 [6] 生态发展 - UCM通过开放统一的南北向接口适配多类型推理引擎框架算力及存储系统将于今年9月正式开源 [7] - 华为希望促进框架厂商存储厂商和算力厂商共同加速框架机制成熟解决AI行业落地过程中的效率与成本问题 [7] - 公司强调从单点算力模组转向网络存储端到端的系统性优化以有效加速AI落地 [7]

大模型推理

UCM（推理记忆数据管理器）

大模型推理

UCM（推理记忆数据管理器）

大模型推理需求爆发催化推理算力占比上升，科创半导体ETF（588170）开盘冲高大涨1.40%！

每日经济新闻· 2025-08-13 02:33

指数表现与ETF动态 - 上证科创板半导体材料设备主题指数截至2025年8月13日09点56强势上涨1.57% [1] - 成分股中船特气上涨20.01% 上海合晶上涨8.36% 金宏气体上涨4.94% 中巨芯和沪硅产业等个股跟涨 [1] - 科创半导体ETF(588170)上涨1.40% 最新价报1.09元近1月累计上涨4.09% [1] - ETF盘中换手率7.74% 成交额3385.34万元近1月日均成交5408.33万元 [1] - 近1周规模增长589.47万元份额增长600.00万份但最新资金净流出425.17万元 [1] 算力市场发展趋势 - IDC预测到2027年中国智能算力中推理算力占比将从2023年41%上升至72.6% [2] - 大模型服务调用量和推理计算量将翻倍基础设施重心向推理偏移 [2] - 国内AI领域资本开支有望保持较快增长 [2] 半导体产业政策环境 - 国家网信办于2025年7月31日约谈英伟达公司要求就H20算力芯片漏洞后门安全风险问题进行说明 [2] - 中国加速构建安全可控算力基座华为昇腾为代表的国产算力芯片及供应链迎来发展机遇 [2] 半导体ETF投资价值 - 科创半导体ETF(588170)跟踪上证科创板半导体材料设备主题指数覆盖半导体设备(59%)和材料(25%)领域 [3] - 半导体材料ETF(562590)同样聚焦半导体设备(59%)和材料(24%)上游环节 [3] - 行业具备国产化率较低和国产替代天花板较高属性受益于AI革命需求扩张和技术进展 [3]

大模型推理

科创半导体ETF

半导体材料ETF

大模型推理

科创半导体ETF

半导体材料ETF

对话后摩智能CEO吴强：未来90%的数据处理可能会在端边

观察者网· 2025-07-30 06:41

公司动态 - 后摩智能在WAIC 2025首次展示M50系列芯片，包括M50芯片、力谋®BX50计算盒子、力擎LQ50 Duo M2卡等核心产品 [1] - M50芯片专为大模型推理设计，面向AI PC和智能终端场景，实现160TOPS INT8、100TFLOPS bFP16物理算力，搭配48GB内存和1536GB/s带宽，典型功耗仅10W [4] - 公司已启动下一代DRAM-PIM技术研发，目标突破1TB/s片内带宽，能效提升三倍，推动百亿参数大模型在终端设备普及 [9] 产品技术 - M50芯片支持1.5B到70B参数的本地大模型运行，具有"高算力、低功耗、即插即用"特点 [4] - 力擎LQ50 Duo M2卡采用标准M2规格，为AI PC和陪伴机器人提供即插即用的端侧AI能力 [4] - 公司通过存算一体技术实现AI大模型"离线可用、数据留痕不外露"的特性 [4] - 2024年初公司推出优化版M30芯片，针对大模型进行调整 [7] 市场战略 - 公司定位端边AI计算市场，CEO认为未来90%数据处理将在端和边完成 [1] - 意向客户包括联想的AI PC、讯飞听见的智能语音设备、中国移动的5G+AI边缘计算设备 [8] - 重点布局消费终端、智能办公、智能工业三大领域，包括平板电脑、智能语音系统、运营商边缘计算等场景 [8] - 将机器人视为新兴垂直赛道，类比十年前的智能驾驶市场 [8] 行业趋势 - 大模型发展呈现从训练向推理迁移、从云端向边端迁移两大趋势 [1] - 端边AI具有实时响应、低成本、数据隐私和用户体验优势，预计将成为未来趋势 [7] - 5G+AI边缘计算被视为重要发展方向 [8] - 公司CEO提出"让大模型算力像电力一样随处可得"的愿景 [5]

存算一体技术

大模型推理

后摩智能M50芯片

力擎LQ50 Duo M.2卡

存算一体技术

大模型推理

后摩智能M50芯片

力擎LQ50 Duo M.2卡

斯坦福大模型推理课免费了，谷歌推理团队创始人主讲

量子位· 2025-07-25 07:59

大模型推理能力 - 大模型推理指大语言模型在给出最终答案前的中间思考步骤，这种推理过程与人类思维无关，关键在于生成大量中间内容[5][9] - 有推理过程的回答会先分解问题并逐步推导（如拆分单词找字母），而非直接输出结果，这显著提升答案准确性（数学题正确率从随机猜测提升至逐步推导）[8][15][17] - 中间步骤使复杂问题可解：对于布尔电路规模T的问题，生成O(T)中间步骤后固定大小的Transformer即可解决，否则需极深模型或无法处理[11][12] 推理能力提升机制 - 思维链（CoT）赋能：引入CoT后无需扩展模型规模即可让Transformer解决任何问题，理论上可模拟多项式大小电路的计算，缩小与图灵机差距[12][13] - 解码方式优化：通过CoT-decoding从top-k解码路径中选择含推理且置信度高的路径，效果接近指令微调模型[25][26] - 监督微调改进：采用自我改进（模型自生成步骤纠错）和强化学习微调（验证器引导生成正确答案），后者成为当前最强推理引出方法[27][28][29][31] 前沿方法与未来方向 - 聚合与检索方法：通过边缘化自一致性（高频答案筛选）、通用自一致性（模型自主选择）及检索+推理（先回忆相关知识再解题）提升效果[40] - 未来突破方向：解决非唯一可验证答案任务（如开放式问题），构建实际应用而非仅优化基准测试[35][40] 核心研究背景 - 理论奠基：Denny Zhou与马腾宇等证明足够长思维链可使Transformer解决所有问题，其论文《Chain of Thought Empowers Transformers...》奠定领域基础[2][12][31] - 技术应用：Google DeepMind推理团队通过思维链、自洽性、任务分解等方向推动AGI发展，目标实现完美泛化[37]

大模型推理

人工通用智能

大语言模型

大模型推理

人工通用智能

大语言模型

AI真的需要「像人类」那样思考吗？AlphaOne揭示属于大模型的「思考之道」

机器之心· 2025-06-23 07:44

核心观点 - 研究提出AI模型应采用「先慢后快」的推理策略，而非模仿人类的「先快后慢」模式 [4][5] - AlphaOne框架通过引入全局推理调控超参数α，显著提升模型准确率和效率 [6][16] - 该方法无需额外训练，仅需在测试阶段调整α值即可实现推理优化 [6][13] 方法论 - 通过α-moment统一调控推理节奏，之前引导慢思考，之后切换快思考 [16][18] - 慢思考阶段采用Bernoulli过程插入wait标记，概率由调度函数控制 [20][21] - 快思考阶段用</think>标记终止慢思考，避免推理惯性 [24][25] 实验结果 - 在1.5B模型上准确率提升+6.15%，生成token数减少14% [29][30] - 线性衰减调度策略在多项任务中表现最优 [32] - α值可灵活调控思考预算，存在性能最优区间 [34] - 后α-moment调控机制对性能提升至关重要 [43] 应用场景 - 在数学解题、代码生成、科学问答等六大推理任务中验证有效性 [27] - 成功案例包括化学混合题，失败案例包括多角恒等式推理 [47] 未来方向 - 开发更复杂的慢思考调度策略 [48] - 摆脱对特定标记的依赖 [48] - 扩展至多模态推理场景 [48]

大模型推理

大模型推理

半壁江山都来了！中国AI算力大会演讲嘉宾全揭晓，同期异构混训、超节点两大研讨会议程公布

傅里叶的猫· 2025-06-17 15:30

2025中国AI算力大会概况 - 大会将于6月26日在北京中关村东升科技园万丽酒店举行，由智一科技旗下智猩猩、智东西联合主办，芯东西协办，是"智领未来"北京人工智能系列活动之一 [1] - 大会设置主会场、分会场和展览区，主会场包含高峰论坛、AI推理算力专题论坛和智算中心专题论坛，分会场将举行智算集群异构混训技术研讨会和超节点技术研讨会（闭门制） [1][2] - 已邀请近30位重量级嘉宾参会，包括中国信息通信研究院、摩尔线程、中昊芯英、魔形智能科技等机构和企业代表 [1][4][5] 主会场核心议题与演讲亮点高峰论坛 - 摩尔线程副总裁王华将分享基于FP8的国产万卡集群训练实践，其夸娥（KUAE）智算集群解决方案已从千卡扩展至万卡规模，支持FP8精度计算满足DeepSeek V3/R1等大模型需求 [12][13] - 趋境科技陈祥麟将探讨千亿大模型私有化门槛降低10倍的技术路径，包括开源框架KTransformers实现单卡运行千亿大模型等创新 [31][32] - 中昊芯英CEO杨龚轶凡拥有74项中国专利和15项国际专利，曾参与Google TPU 2/3/4研发，将分享高端芯片设计经验 [16][17] AI推理算力专题论坛 - 安谋科技产品总监鲍敏祺将发布新一代"周易"NPU产品，采用大模型优化架构设计提升端侧算力，推动AI从云端下沉至终端设备 [39][40] - 实在智能欧阳小刚将展示Agent智能体技术在端侧的轻量化应用，包括模型高效推理引擎优化策略 [45] - 白山云科技李金锋将介绍边缘AI推理四大技术突破：异构资源弹性调度、智能网关全网调度、算力单元推理优化及模型加载优化技术 [49][50] 智算中心专题论坛 - 图灵新智算洪锐提出基于Token生成能力的智算集群效能评价体系，量化计算资源利用率 [5] - 趋动科技张增金倡导软件定义AI算力模式，通过虚拟化技术实现GPU资源池化，提升智算中心资源调度效率 [65][66] - 百度智能云郝玉涛分享AIDC技术突破：实现单体IDC万卡到3万卡集群部署，具备10万卡集群技术能力 [60][61] 分会场闭门研讨会重点智算集群异构混训技术研讨会 - 壁仞科技丁云帆、中国移动王升等专家将探讨混合架构下的分布式训练优化方案 [68] - 商汤大装置技术产品总监刘叶枫将分享大规模异构算力调度经验 [68] 超节点技术研讨会 - 阿里云卢晓伟将解析基础设施异构硬件解决方案 [71] - 曦智科技孟怀宇聚焦光计算技术在超节点架构中的应用 [71] 行业技术发展趋势 - 大模型训练需求推动算力基础设施升级：模型参数量从千亿迈向万亿，万卡集群成为行业标配 [12] - 编译技术成为AI基础设施关键环节：中科加禾崔慧敏、魔形智能徐凌杰均指出其可解决硬件异构性和模型复杂性挑战 [22][26] - 边缘计算与中心云协同趋势明显：白山云等企业推动"云-边-端"全域智能范式演进 [49][50]

大模型推理

Artificial Intelligence

夸娥（KUAE）智算集群解决方案

大模型推理

Artificial Intelligence

夸娥（KUAE）智算集群解决方案

10% KV Cache实现无损数学推理！这个开源方法解决推理大模型「记忆过载」难题

量子位· 2025-06-16 04:49

大模型推理优化技术R-KV - 核心观点：R-KV是一种通过实时压缩KV缓存解决大模型推理冗余问题的高效方法，显著降低显存占用并提升吞吐量，同时保持100%准确率 [1][2][3] 技术原理 - 采用三步流程：冗余识别+重要性评估+动态淘汰，通过链式思考（CoT）优化推理路径 [5] - 实时对token进行排序，保留信息丰富且多样化的token，阻断显存膨胀 [7][9] - 结合多头注意力评估贡献度（重要性打分）和余弦相似度检测重复内容（冗余打分），按优先级动态调度KV配额 [9] 性能优势 - 显存降低90%，吞吐量提升6.6倍，准确率保持100% [1] - 在DeepSeek-R1-Llama-8B模型中，解决AIME数学题时KV缓存从4.1GB大幅压缩 [6] - 相比SnapKV等现有方法，R-KV覆盖范围更广（保留题目关键词、中间值及最终答案），避免误删关键信息 [13][14][15] 基准测试结果 - 数学任务表现：R1-Llama-8B在MATH-500准确率34%，R1-Qwen-14B在AIME24准确率25%，均超越基线 [19] - 16K序列长度下，固定1024预算时显存节省93.75%，最大批处理402次，吞吐量达3188.82 tok/s [20] - 比例压缩模式下（10%预算），8K序列吞吐量达3809.15 tok/s，显存节省90% [20] 应用场景 - 边端设备长链推理：消费级GPU甚至手机NPU可运行 [22] - 多轮Agent复杂流程：如反思-重写-自评，突破显存限制 [22] - 强化学习加速：training-free方法即插即用 [22] 技术实现细节 - 可视化对比显示R-KV能跨段保留关键信息，而SnapKV聚焦局部片段导致重复 [12][13][14] - 计算开销被注意力成本降低抵消，序列越长收益越显著 [20][21] - 主要吞吐提升源于支持更大批处理规模，而非直接速度优化 [21]

大模型推理

大模型推理