大模型推理
搜索文档
DeepSeek引爆国产AI芯片:寒武纪、华胜天成、和而泰三大龙头热度爆棚,5000亿“寒王”市值超五粮液
金融界· 2025-08-22 06:50
DeepSeek-V3.1 发布及技术升级 - 混合思考模式、更高思考效率和更强智能体能力三大核心升级 [1] - 采用UE8M0 FP8 Scale技术 支持下一代国产芯片生态 [2] - 国产AI生态实现全环节闭环:国产AI芯片-国产开源模型-下游应用 [2] 寒武纪市场表现及驱动因素 - 股价盘中最高1240元 单日涨幅超19% 市值突破5000亿元 [3] - 成交额超130亿元 市场交投异常活跃 [3] - 自去年924以来累计涨幅超460% 近一个月实现股价翻倍 [4] - 受益国产替代加速、大模型推理需求爆发及技术实力认可三大因素 [4] 华胜天成业务亮点及市场表现 - 作为华为昇腾芯片合作伙伴 深度参与智算中心建设 [6] - 天津人工智能计算中心项目投资8.6亿元 将提供300P算力 [6] - 持有物联网芯片公司泰凌微9.92%股权 [6] - 近一个月最大涨幅达130% 本轮行情涨幅超2倍 [6] 和而泰投资布局与业务发展 - 持有国产GPU厂商摩尔线程1.244%股份 [8] - 摩尔线程为首个支持原生FP8的国产GPU厂商 启动科创板IPO [8] - 智能控制器业务覆盖汽车电子、储能及AIoT三大领域 [8] - 自去年924以来涨幅达300% 单日成交额超50亿元 [8]
大华股份(002236):服务器业务有望开启新增长点
华泰证券· 2025-08-19 02:04
投资评级 - 维持"买入"评级,目标价28.56元人民币[1][6] - 基于2025年24.4倍PE估值(可比公司均值),较当前股价18.19元存在56.9%上行空间[1][6][19] 核心观点 - 服务器业务成为新增长引擎:1H25中标中国移动AI推理服务器、南方电网等集采项目,合计金额或超10亿元,构建从训练到推理的全场景算力解决方案[9][12] - 大模型推理需求爆发:国内日均token消耗量达30万亿(1年半增长300倍),Google月均token调用量960万亿,驱动算力基础设施需求[9][13] - 1H25业绩表现:营收151.81亿元(yoy+2.12%),归母净利24.76亿元(yoy+36.8%),经营性现金流6.39亿元创上市同期新高[8][15] - 创新业务高速增长:1H25营收30.23亿元(yoy+22.83%),子公司华睿科技拟分拆赴港上市[10][16] 业务分析 服务器业务 - 技术适配:深度适配DeepSeek-R1/V3系列大模型,鲲鹏服务器主频2.5GHz,性能领先业界15%,能效比领先60%[12] - 产品矩阵:GS4498-G02(云端中心算力)、GS2298(推理应用)、DH-RS2297系列(24-64核配置)形成完整解决方案[12][13] 分业务表现 - G端业务:1H25营收18.51亿元(yoy+4.68%),公共民生/交管领域表现突出[10][16] - B端业务:1H25营收42.19亿元(yoy+8.17%),央国企订单强劲但中小企业下滑超10%[10][16] - 海外业务:1H25营收76.28亿元(占比50.25%),关税影响致增速放缓至1.91%[10][16] 财务预测 - 收入调整:2025-2027年营收预测下调至332.75/351.65/380.02亿元(原344.92/378.24/421.31亿元)[6] - 盈利预测:2025-2027年EPS 1.17/1.18/1.28元,对应PE 15.6x/15.4x/14.2x[5][6] - 盈利能力:1H25毛利率回升至41.61%,2025E ROE提升至9.83%[5][8][24] 行业比较 - 可比公司估值:海康威视/视源股份/浪潮信息2025E平均PE 24.4倍,大华股份15.6倍存在折价[19] - 算力产业趋势:国家数据局统计显示AI算力需求呈指数级增长,服务器本地化替代加速[9][13]
链式思维是幻象吗?从数据分布视角重新审视大模型推理,马斯克回复,Grok破防
机器之心· 2025-08-14 09:11
思维链(CoT)提示技术的本质 - 核心观点:CoT提示技术生成的推理链条可能并非真正的逻辑推理,而是对训练数据分布内模式的复现,当输入任务与训练数据分布存在差异时,推理链条会迅速失效[2][10] - 典型例证:模型回答「美国建国年是否为闰年」时,推理步骤正确但结论自相矛盾,显示其仅复述逻辑规则而非实际应用[10] - 性能提升来源:CoT效果主要依赖表层语义匹配,问题改写或引入无关内容会导致表现显著下降[11] 数据分布视角的理论框架 - 结构性归纳偏差:CoT有效性源于模型对训练数据中常见模式的复现,而非真实逻辑推演[13] - 理论公式:通过分布差异指标量化推理性能受分布偏移的影响,公式显示测试风险与训练风险、分布差异及样本量相关[15] - 实验验证:分布偏移时模型准确率从100%骤降至0.01%,全新变换下性能几乎完全丧失[23] 可控实验平台与泛化性测试 - 数据炼金术框架:从零训练语言模型,通过字母原子序列和ROT/循环平移变换构建可控任务,精确生成标准推理链以评估差异[18][19][21] - 任务泛化:变换顺序重组或新字母组合导致准确率暴跌,监督微调仅扩展分布边界而非提升抽象能力[23][24] - 长度泛化:输入序列长度或推理步数微小变化即引发表现显著下降,模型通过增减词元凑长度[26] - 格式泛化:提示格式扰动(如元素/变换部分修改)即使逻辑不变也可导致推理失败[28] 普遍性与现实意义 - 普遍脆弱性:不同采样温度和模型规模下CoT对分布偏移的敏感性一致,表明此为普遍现象而非个别特性[31] - 应用警示:高风险领域(医疗/金融/法律)需警惕流畅但逻辑错误的推理链误导性,评测需引入严格分布外测试[34][35] - 发展建议:需正视CoT泛化瓶颈,平衡分布内优势与评测部署的谨慎性[37][38]
华为发布AI推理新技术 中国银联大模型效率提高125倍
21世纪经济报道· 2025-08-13 23:10
技术发布 - 华为发布AI推理创新技术UCM 专门优化大模型推理过程的缓存管理技术 旨在提升推理速度 效率和成本效益 [1] - UCM是以KV Cache为中心的推理加速套件 融合多类型缓存加速算法工具 分级管理推理过程中产生的KV Cache记忆数据 扩大推理上下文窗口 实现高吞吐 低时延体验 [1] - 技术通过推理框架 算力 存储三层协同 包含推理引擎插件 功能库和高性能存取适配器三大组件 [3] 性能提升 - UCM依托层级化自适应的全局前缀缓存技术 使首Token时延最大降低90% [3] - 在中国银联试点应用中 大模型推理速度提升125倍 仅需10秒即可精准识别客户高频问题 [4] - 国外主流模型单用户输出速度达200Tokens/s(时延5ms) 而国内普遍小于60Tokens/s(时延50~100ms) [3] 行业应用 - 华为联手中国银联在金融典型场景开展UCM技术试点应用 联合发布智慧金融AI推理加速方案 [1] - 金融行业因数字化属性强 对速度 效率 安全 可靠性要求高 成为验证技术的标杆场景 [4] - 中国银联将依托国家人工智能应用中试基地 联合华为等生态伙伴共建"AI+金融"示范应用 推动技术成果规模化应用 [4] 技术优势 - UCM将专业存储能力引入分级缓存管理 在软硬件协同与卸载方面做了大量工作 如直通加速 KV检索索引与底层文件系统元数据融合 [6] - 具备KV Cache生命周期管理的完整机制 包括预热 分级 淘汰等功能 [6] - 算法加速库超越业界普遍的Prefix Cache层面 商用稀疏全流程算法和后缀检索算法 提供更丰富可靠的技术手段 [6] 生态发展 - UCM通过开放统一的南北向接口 适配多类型推理引擎框架 算力及存储系统 将于今年9月正式开源 [7] - 华为希望促进框架厂商 存储厂商和算力厂商共同加速框架机制成熟 解决AI行业落地过程中的效率与成本问题 [7] - 公司强调从单点算力模组转向网络 存储 端到端的系统性优化 以有效加速AI落地 [7]
大模型推理需求爆发催化推理算力占比上升,科创半导体ETF(588170)开盘冲高大涨1.40%!
每日经济新闻· 2025-08-13 02:33
指数表现与ETF动态 - 上证科创板半导体材料设备主题指数截至2025年8月13日09点56强势上涨1.57% [1] - 成分股中船特气上涨20.01% 上海合晶上涨8.36% 金宏气体上涨4.94% 中巨芯和沪硅产业等个股跟涨 [1] - 科创半导体ETF(588170)上涨1.40% 最新价报1.09元 近1月累计上涨4.09% [1] - ETF盘中换手率7.74% 成交额3385.34万元 近1月日均成交5408.33万元 [1] - 近1周规模增长589.47万元 份额增长600.00万份 但最新资金净流出425.17万元 [1] 算力市场发展趋势 - IDC预测到2027年中国智能算力中推理算力占比将从2023年41%上升至72.6% [2] - 大模型服务调用量和推理计算量将翻倍 基础设施重心向推理偏移 [2] - 国内AI领域资本开支有望保持较快增长 [2] 半导体产业政策环境 - 国家网信办于2025年7月31日约谈英伟达公司 要求就H20算力芯片漏洞后门安全风险问题进行说明 [2] - 中国加速构建安全可控算力基座 华为昇腾为代表的国产算力芯片及供应链迎来发展机遇 [2] 半导体ETF投资价值 - 科创半导体ETF(588170)跟踪上证科创板半导体材料设备主题指数 覆盖半导体设备(59%)和材料(25%)领域 [3] - 半导体材料ETF(562590)同样聚焦半导体设备(59%)和材料(24%)上游环节 [3] - 行业具备国产化率较低和国产替代天花板较高属性 受益于AI革命需求扩张和技术进展 [3]
对话后摩智能CEO吴强:未来90%的数据处理可能会在端边
观察者网· 2025-07-30 06:41
公司动态 - 后摩智能在WAIC 2025首次展示M50系列芯片,包括M50芯片、力谋®BX50计算盒子、力擎LQ50 Duo M2卡等核心产品 [1] - M50芯片专为大模型推理设计,面向AI PC和智能终端场景,实现160TOPS INT8、100TFLOPS bFP16物理算力,搭配48GB内存和1536GB/s带宽,典型功耗仅10W [4] - 公司已启动下一代DRAM-PIM技术研发,目标突破1TB/s片内带宽,能效提升三倍,推动百亿参数大模型在终端设备普及 [9] 产品技术 - M50芯片支持1.5B到70B参数的本地大模型运行,具有"高算力、低功耗、即插即用"特点 [4] - 力擎LQ50 Duo M2卡采用标准M2规格,为AI PC和陪伴机器人提供即插即用的端侧AI能力 [4] - 公司通过存算一体技术实现AI大模型"离线可用、数据留痕不外露"的特性 [4] - 2024年初公司推出优化版M30芯片,针对大模型进行调整 [7] 市场战略 - 公司定位端边AI计算市场,CEO认为未来90%数据处理将在端和边完成 [1] - 意向客户包括联想的AI PC、讯飞听见的智能语音设备、中国移动的5G+AI边缘计算设备 [8] - 重点布局消费终端、智能办公、智能工业三大领域,包括平板电脑、智能语音系统、运营商边缘计算等场景 [8] - 将机器人视为新兴垂直赛道,类比十年前的智能驾驶市场 [8] 行业趋势 - 大模型发展呈现从训练向推理迁移、从云端向边端迁移两大趋势 [1] - 端边AI具有实时响应、低成本、数据隐私和用户体验优势,预计将成为未来趋势 [7] - 5G+AI边缘计算被视为重要发展方向 [8] - 公司CEO提出"让大模型算力像电力一样随处可得"的愿景 [5]
斯坦福大模型推理课免费了,谷歌推理团队创始人主讲
量子位· 2025-07-25 07:59
大模型推理能力 - 大模型推理指大语言模型在给出最终答案前的中间思考步骤,这种推理过程与人类思维无关,关键在于生成大量中间内容[5][9] - 有推理过程的回答会先分解问题并逐步推导(如拆分单词找字母),而非直接输出结果,这显著提升答案准确性(数学题正确率从随机猜测提升至逐步推导)[8][15][17] - 中间步骤使复杂问题可解:对于布尔电路规模T的问题,生成O(T)中间步骤后固定大小的Transformer即可解决,否则需极深模型或无法处理[11][12] 推理能力提升机制 - 思维链(CoT)赋能:引入CoT后无需扩展模型规模即可让Transformer解决任何问题,理论上可模拟多项式大小电路的计算,缩小与图灵机差距[12][13] - 解码方式优化:通过CoT-decoding从top-k解码路径中选择含推理且置信度高的路径,效果接近指令微调模型[25][26] - 监督微调改进:采用自我改进(模型自生成步骤纠错)和强化学习微调(验证器引导生成正确答案),后者成为当前最强推理引出方法[27][28][29][31] 前沿方法与未来方向 - 聚合与检索方法:通过边缘化自一致性(高频答案筛选)、通用自一致性(模型自主选择)及检索+推理(先回忆相关知识再解题)提升效果[40] - 未来突破方向:解决非唯一可验证答案任务(如开放式问题),构建实际应用而非仅优化基准测试[35][40] 核心研究背景 - 理论奠基:Denny Zhou与马腾宇等证明足够长思维链可使Transformer解决所有问题,其论文《Chain of Thought Empowers Transformers...》奠定领域基础[2][12][31] - 技术应用:Google DeepMind推理团队通过思维链、自洽性、任务分解等方向推动AGI发展,目标实现完美泛化[37]
AI真的需要「像人类」那样思考吗?AlphaOne揭示属于大模型的「思考之道」
机器之心· 2025-06-23 07:44
核心观点 - 研究提出AI模型应采用「先慢后快」的推理策略,而非模仿人类的「先快后慢」模式 [4][5] - AlphaOne框架通过引入全局推理调控超参数α,显著提升模型准确率和效率 [6][16] - 该方法无需额外训练,仅需在测试阶段调整α值即可实现推理优化 [6][13] 方法论 - 通过α-moment统一调控推理节奏,之前引导慢思考,之后切换快思考 [16][18] - 慢思考阶段采用Bernoulli过程插入wait标记,概率由调度函数控制 [20][21] - 快思考阶段用</think>标记终止慢思考,避免推理惯性 [24][25] 实验结果 - 在1.5B模型上准确率提升+6.15%,生成token数减少14% [29][30] - 线性衰减调度策略在多项任务中表现最优 [32] - α值可灵活调控思考预算,存在性能最优区间 [34] - 后α-moment调控机制对性能提升至关重要 [43] 应用场景 - 在数学解题、代码生成、科学问答等六大推理任务中验证有效性 [27] - 成功案例包括化学混合题,失败案例包括多角恒等式推理 [47] 未来方向 - 开发更复杂的慢思考调度策略 [48] - 摆脱对特定标记的依赖 [48] - 扩展至多模态推理场景 [48]
半壁江山都来了!中国AI算力大会演讲嘉宾全揭晓,同期异构混训、超节点两大研讨会议程公布
傅里叶的猫· 2025-06-17 15:30
2025中国AI算力大会概况 - 大会将于6月26日在北京中关村东升科技园万丽酒店举行,由智一科技旗下智猩猩、智东西联合主办,芯东西协办,是"智领未来"北京人工智能系列活动之一 [1] - 大会设置主会场、分会场和展览区,主会场包含高峰论坛、AI推理算力专题论坛和智算中心专题论坛,分会场将举行智算集群异构混训技术研讨会和超节点技术研讨会(闭门制) [1][2] - 已邀请近30位重量级嘉宾参会,包括中国信息通信研究院、摩尔线程、中昊芯英、魔形智能科技等机构和企业代表 [1][4][5] 主会场核心议题与演讲亮点 高峰论坛 - 摩尔线程副总裁王华将分享基于FP8的国产万卡集群训练实践,其夸娥(KUAE)智算集群解决方案已从千卡扩展至万卡规模,支持FP8精度计算满足DeepSeek V3/R1等大模型需求 [12][13] - 趋境科技陈祥麟将探讨千亿大模型私有化门槛降低10倍的技术路径,包括开源框架KTransformers实现单卡运行千亿大模型等创新 [31][32] - 中昊芯英CEO杨龚轶凡拥有74项中国专利和15项国际专利,曾参与Google TPU 2/3/4研发,将分享高端芯片设计经验 [16][17] AI推理算力专题论坛 - 安谋科技产品总监鲍敏祺将发布新一代"周易"NPU产品,采用大模型优化架构设计提升端侧算力,推动AI从云端下沉至终端设备 [39][40] - 实在智能欧阳小刚将展示Agent智能体技术在端侧的轻量化应用,包括模型高效推理引擎优化策略 [45] - 白山云科技李金锋将介绍边缘AI推理四大技术突破:异构资源弹性调度、智能网关全网调度、算力单元推理优化及模型加载优化技术 [49][50] 智算中心专题论坛 - 图灵新智算洪锐提出基于Token生成能力的智算集群效能评价体系,量化计算资源利用率 [5] - 趋动科技张增金倡导软件定义AI算力模式,通过虚拟化技术实现GPU资源池化,提升智算中心资源调度效率 [65][66] - 百度智能云郝玉涛分享AIDC技术突破:实现单体IDC万卡到3万卡集群部署,具备10万卡集群技术能力 [60][61] 分会场闭门研讨会重点 智算集群异构混训技术研讨会 - 壁仞科技丁云帆、中国移动王升等专家将探讨混合架构下的分布式训练优化方案 [68] - 商汤大装置技术产品总监刘叶枫将分享大规模异构算力调度经验 [68] 超节点技术研讨会 - 阿里云卢晓伟将解析基础设施异构硬件解决方案 [71] - 曦智科技孟怀宇聚焦光计算技术在超节点架构中的应用 [71] 行业技术发展趋势 - 大模型训练需求推动算力基础设施升级:模型参数量从千亿迈向万亿,万卡集群成为行业标配 [12] - 编译技术成为AI基础设施关键环节:中科加禾崔慧敏、魔形智能徐凌杰均指出其可解决硬件异构性和模型复杂性挑战 [22][26] - 边缘计算与中心云协同趋势明显:白山云等企业推动"云-边-端"全域智能范式演进 [49][50]
10% KV Cache实现无损数学推理!这个开源方法解决推理大模型「记忆过载」难题
量子位· 2025-06-16 04:49
大模型推理优化技术R-KV - 核心观点:R-KV是一种通过实时压缩KV缓存解决大模型推理冗余问题的高效方法,显著降低显存占用并提升吞吐量,同时保持100%准确率 [1][2][3] 技术原理 - 采用三步流程:冗余识别+重要性评估+动态淘汰,通过链式思考(CoT)优化推理路径 [5] - 实时对token进行排序,保留信息丰富且多样化的token,阻断显存膨胀 [7][9] - 结合多头注意力评估贡献度(重要性打分)和余弦相似度检测重复内容(冗余打分),按优先级动态调度KV配额 [9] 性能优势 - 显存降低90%,吞吐量提升6.6倍,准确率保持100% [1] - 在DeepSeek-R1-Llama-8B模型中,解决AIME数学题时KV缓存从4.1GB大幅压缩 [6] - 相比SnapKV等现有方法,R-KV覆盖范围更广(保留题目关键词、中间值及最终答案),避免误删关键信息 [13][14][15] 基准测试结果 - 数学任务表现:R1-Llama-8B在MATH-500准确率34%,R1-Qwen-14B在AIME24准确率25%,均超越基线 [19] - 16K序列长度下,固定1024预算时显存节省93.75%,最大批处理402次,吞吐量达3188.82 tok/s [20] - 比例压缩模式下(10%预算),8K序列吞吐量达3809.15 tok/s,显存节省90% [20] 应用场景 - 边端设备长链推理:消费级GPU甚至手机NPU可运行 [22] - 多轮Agent复杂流程:如反思-重写-自评,突破显存限制 [22] - 强化学习加速:training-free方法即插即用 [22] 技术实现细节 - 可视化对比显示R-KV能跨段保留关键信息,而SnapKV聚焦局部片段导致重复 [12][13][14] - 计算开销被注意力成本降低抵消,序列越长收益越显著 [20][21] - 主要吞吐提升源于支持更大批处理规模,而非直接速度优化 [21]