AI算力集群

搜索文档
江海股份(002484):超级电容、铝电解电容有望在AI服务器中广泛应用
国信证券· 2025-09-04 11:38
投资评级 - 优于大市(维持)[1][3][4][6] 核心观点 - AI服务器高压化趋势推动铝电解电容和超级电容需求增长,带动量价齐升[2][3][4] - 公司单季度营收创历史新高,2Q25营收达15.36亿元(YoY +17.02%,QoQ +32.69%)[1] - 上调盈利预测,预计2025-2027年归母净利润为8/11/15亿元(前值8/9/10亿元),同比增速17%/45%/38%[4] 财务表现 - 1H25营收26.94亿元(YoY +13.96%),归母净利润3.58亿元(YoY +3.19%),扣非净利润3.44亿元(YoY +8.96%)[1] - 2Q25归母净利润2.06亿元(YoY -1.92%,QoQ +35.82%),扣非净利润2.07亿元(YoY +10.54%,QoQ +51.01%)[1] - 1H25毛利率24.93%(YoY -0.01pct),净利率13.42%(YoY -1.46pct)[1] - 预计2025年营收53.82亿元(YoY +11.9%),2026年69.77亿元(YoY +29.7%),2027年95.84亿元(YoY +37.4%)[5] 铝电解电容业务 - 1H25营收22.29亿元(YoY +16.70%),毛利率26.75%(YoY +0.19%)[2] - 增长动力来自光伏抢装需求(因上网电价政策调整)及UPS电源、通信电源需求旺盛[2] - MLPC在AI服务器领域批量交货,固液混合电容器在汽车领域持续增长[2] - AI服务器高压化推动牛角型电容用量提升,原子沉积技术升级带动产品单价提高[2] 超级电容业务 - 1H25营收1.62亿元(YoY +48.93%),毛利率16.86%(YoY -3.71%),毛利率下降系开拓新应用领域所致[3] - AI服务器功率波动需超容提供瞬时功率补偿,EDLC和LIC获国内外头部企业认证[3] - EDLC因发热量低、成本优势及产能充裕,有望率先放量[3] - 储能、智能电表、可控核聚变等多领域需求推动市场爆发,公司正推进产能扩张[3] 盈利预测与估值 - 当前股价对应2025-2027年PE为36/26/19倍[4] - 预计2025-2027年每股收益0.90/1.30/1.79元[5] - 2025-2027年ROE预测为12.0%/15.6%/18.9%[5] - 2025-2027年毛利率预测为26%/28%/29%[5]
国信证券-江海股份-002484-超级电容、铝电解电容有望在AI服务器中广泛应用-250904
新浪财经· 2025-09-04 10:53
财务表现 - 1H25公司实现营收26.94亿元,同比增长13.96%,归母净利润3.58亿元,同比增长3.19%,扣非净利润3.44亿元,同比增长8.96% [1] - 2Q25公司营收15.36亿元,同比增长17.02%,环比增长32.69%,归母净利润2.06亿元,同比下滑1.92%,环比增长35.82%,扣非净利润2.07亿元,同比增长10.54%,环比增长51.01% [1] - 1H25公司毛利率为24.93%,同比基本持平,净利率为13.42%,同比下降1.46个百分点 [1] 铝电解电容业务 - 1H25铝电解电容营收22.29亿元,同比增长16.70%,毛利率26.75%,同比提升0.19个百分点 [2] - 增长动力来自光伏领域因上网电价政策转变刺激的抢装需求,以及UPS电源、通信电源等领域需求持续旺盛 [2] - AI服务器高压化推动铝电解电容向更高耐压、更小体积发展,牛角型电容用量预计显著提升,产品单价因原子沉积技术替代化学腐蚀技术而提高 [2] 超级电容业务 - 1H25超级电容营收1.62亿元,同比增长48.93%,毛利率16.86%,同比下降3.71个百分点,主要因开拓新应用领域投入 [3] - AI芯片功耗激增使服务器功率波动加大,超级电容可提供瞬时功率补偿,有望成为AI算力集群标配组件 [3] - 公司EDLC产品因发热量低、成本优势及产能充裕,已获国内外头部企业认证,有望率先规模放量,超级电容市场在AI服务器、储能等多领域需求推动下有望爆发 [3] 产能与市场前景 - 公司超级电容业务已着手推进产能扩张,以应对AI服务器、储能、智能电表及可控核聚变等领域的需求增长 [3] - AI算力集群高压化趋势持续带动铝电解电容和超级电容需求,公司盈利预测上调,预计2025-2027年归母净利润达8/11/15亿元 [3]
交银国际每日晨报-20250829
交银国际· 2025-08-29 01:55
英伟达 (NVDA US) - FY2Q26收入467亿美元 Non-GAAP毛利率72.7% 均超过指引上限 [1] - 管理层指引FY3Q26收入中位数540亿美元 毛利率中位数73.5% 若对华出口条件允许或额外产生20-50亿美元收入 [1] - Blackwell Ultra系统大规模出货 达每星期1000个机柜 Rubin系列6种新芯片已在台积电流片 [1][2] - 调整FY2026/27E收入预测至2070/2691亿美元 Non-GAAP EPS调整至4.44/6.19美元 [2] - 目标价上调至204美元 对应33倍FY27E市盈率 [2] 携程集团 (9961 HK) - 2季度业绩超预期 酒店业务增长好于预期 市占率持续提升 [3] - 内地市场竞争环境中处于有利地位 营销投放效率提升趋势将持续 [3] - 目标价从591港元上调至653港元 基于20倍2026年市盈率 [3] 美团 (3690 HK) - 2Q25总收入同比增长12% 核心商业/新业务分别增8%/23% 调整后净利润同比下降89% [6] - 核心商业调整后运营利润同比降76% 新业务运营亏损同比扩大43% [6] - 预计3季度即时配送日单同比增16% 但收入同比下降6% 亏损或超150亿元 [6] - 新业务预计收入同比增18% 预计亏损约23亿元 [6] - 目标价调整至147港元 基于长期外卖1亿日单及1元UE 15倍市盈率估值 [7] 中国重汽 (3808 HK) - 2025上半年营业收入508.78亿元(同比+4.2%) 归母净利润34.27亿元(同比+4.0%) [8] - 派发中期股息每股0.68元 占上半年归母净利润约55% [8] - 目标价26.45港元 对应2025年市盈率9.9倍 现价对应2025年股息率5.5% [8] 中创新航 (3931 HK) - 1H25收入同比+31.7%至164.2亿元 储能电池收入同比大幅+109.7%至57.6亿元 [9] - 毛利率达17.5% 同/环比+1.9ppts/1.4ppts 净利润同比+80.4%至7.5亿元 净利率4.6% [9] - 下调2025-27年收入预测8%-10%至377.0/453.3/515.2亿元 [10] - 调整净利润预测至17.9/26.5/36.9亿元 维持目标价24.77港元 [10] 信达生物 (1801 HK) - 1H25产品收入同比增长37%至52亿元 授权费收入大幅增至6.7亿元 [11] - 净利润8.3亿元 SG&A费用率下降8.3ppts 研发费用同比下降28% [11] - 管理层指引2027年产品收入超200亿元 商业化品种数量超20款 [11] - 上调2025-27年收入预测2% 上调净利润预测 目标价上调至105港元 [12] 康诺亚 (2162 HK) - 司普奇拜单抗首个完整半年销售额达1.69亿元 鼻科销量已略高于皮肤科 [13] - 商业化团队规模400人 覆盖医院1400家 可院内用药医院超300家 [13] - 青少年AD适应症近期将申报上市 结节性痒疹III期1H26公布结果 [14] - 调整2025-27年财务预测 上调目标价至78港元 [14] 蒙牛乳业 (2319 HK) - 1H25收入同比下滑6.9%至415.7亿元 归母净利润同比下降16.4%至20.46亿元 [15] - 毛利率同比提升1.4个百分点至41.7% 经营利润率同比提升1.5个百分点至8.5% [15] - 管理层下调全年指引 预计收入下滑中-高单位数 经营利润率与去年持平 [16] - 下调2025-27年收入预测8-14% 下调经营利润/归母净利润11-19%/9-27% [16] - 目标价下调至21.51港元 基于2026年15倍预期市盈率 [17] 中国人寿 (2628 HK) - 上半年归母净利润同比增长6.9% 新业务价值可比口径同比增长20.3% [18] - 个险渠道新业务价值同比增长9.5% FVOCI股票占比达到3.5% 较年初提升0.9个百分点 [18][19] - 上调新业务价值预测 基于2025年1.4倍市净率将目标价从19港元上调至30港元 [19] 中国人保财险 (2328 HK) - 上半年净利润同比增长32.3% COR为94.8%同比下降1.4个百分点 [20] - 承保利润同比增长44.6% 总投资收益同比增长26.6% [20] - 预计2025年盈利同比增长28% 2025-2027年ROE有望保持在14%以上 [21] - 基于1.7倍2025年市净率将目标价从17港元上调至24港元 [21] 雅生活服务 (3319 HK) - 1H25总收入同比下跌8.3%至64.7亿元 毛利率同比下滑2.4个百分点至14.5% [22] - 核心利润5.88亿元同比下跌16.9% 在管/合约物业面积同比下降10.4%/7.7% [22] - 调整至中性评级 维持目标价3.2港元 [23] 新奧能源 (2688 HK) - 上半年核心盈利同比轻微下跌1%至32亿元 零售气同比增长1.9% [24] - 泛能业务2季度售能同比下跌9% 下调2025/26年盈利0.1%/1.8% [24] - 目标价调整至73.66港元 基准年移至2026年 估值标准下调至10倍预测市盈率 [24] 全球市场表现 - 恒指24,999点(-0.90%) 年初至今+24.17% 国指8,917点(-1.15%) 年初至今+22.32% [4] - 标普500指数6,502点(+0.32%) 年初至今+10.55% 纳指21,705点(+0.53%) 年初至今+12.40% [4] - 布兰特原油68.07美元(+4.92%) 期金3,404.60美元(+3.37%) 期银38.22美元(+14.81%) [4] - 美国10年债息4.20%(-6.14基点) HIBOR 4.58% [4]
华丰科技(688629):Q2业绩释放,高速线模组“从一到十”
华泰证券· 2025-08-26 03:49
投资评级 - 维持增持评级 目标价88.35元人民币[1][2][6] 核心观点 - 高速线模组业务实现"从一到十"客户扩散 已与华为、浪潮、超聚变、曙光、阿里等厂商展开合作[7][9] - 新能源汽车高压连接器成功进入主流新能源车企供应链并规模上量[7] - 1H25营收11.05亿元同比+128% 归母净利润1.51亿元实现扭亏[6] - 2Q25单季度营收6.99亿元同比+171% 归母净利润1.19亿元[6] - 综合毛利率32.86%同比提升13.66个百分点[8] - 两大核心预期差:高速线模组毛利率高于预期且客户扩散趋势明确[9] 财务表现 - 1H25连接器产品收入3.30亿元同比+40.8% 组件产品收入6.81亿元同比+340.9%[7] - 1H25销售费用率2.24%同比-2.26pct 管理费用率7.31%同比-6.33pct 研发费用率5.88%同比-4.66pct[8] - 研发费用0.65亿元同比+27% 产品向224G迭代升级[8] - 2025E营收预期24.70亿元同比+126.24% 2026E营收44.42亿元同比+79.83%[5] - 2025E归母净利润3.78亿元 2026E归母净利润7.47亿元同比+97.68%[5] 盈利预测调整 - 上调2026年通讯板块归母净利润至6.11亿元(上调114%)[10][19] - 上调2026年防务+工业+其他板块归母净利润至1.36亿元(上调66%)[10] - 上调2025-2027年综合毛利率预期至31.64%/32.93%/32.79%(上调5.18/6.08/5.83pct)[19] - 上调2025-2027年归母净利率至14.92%/16.65%/17.62%(上调5.07/5.32/5.38pct)[20] 估值分析 - 采用SOTP估值法:通讯板块给予2026年60倍PE(可比平均55倍)对应市值366.36亿元[10][21] - 其他板块给予2026年30倍PE(可比平均30倍)对应市值40.93亿元[10][21] - 综合目标市值407.29亿元 对应2026年PE倍数54.52倍[21][22]
世运电路(603920):公司动态研究报告:汽车PCB技术领先,绑定特斯拉成长空间广阔
华鑫证券· 2025-07-31 05:31
报告公司投资评级 - 买入(维持) [2] 报告的核心观点 - 公司业绩表现亮眼,PCB产品量价齐升,未来绑定科技大客户,PCB业务成长空间广阔,维持“买入”评级 [5][12] 各部分内容总结 公司业绩 - 2024年公司实现营业收入50.22亿元,同比增长11.13%;归母净利润6.75亿元,同比增长36.17%;扣非归母净利润6.56亿元,同比增长34.15% [5] - 2025Q1公司实现营业收入12.17亿元,同比增长11.33%;归母净利润1.80亿元,同比增加65.61% [5] - 业绩提升原因系业务量提升、产品结构优化以及单价提升等 [5] Dojo2相关情况 - Dojo2芯片已进入量产倒计时,性能比第一代提升10倍,算力性能直逼英伟达的Blackwell B200芯片 [6] - 性能提升原因在于优化核心架构、采用更密集mesh网络互联架构扩展带宽、模块化规模更大且集成度更高、采用台积电最新InFO - SwW封装 [6] - 特斯拉纯视觉方案每天产生1600亿帧视频数据需处理,Dojo能助FSD学习新边缘场景,也适用于特斯拉机器人 [6] - xAI未来五年将部署“相当于5000万颗NVIDIA H100”的AI算力,扩建Colossus超级计算机,随着Grok训练开展,对算力需求将攀升 [6] 英伟达与AMD情况 - 英伟达发布GB300,GB300 NVL72系统AI性能预计达GB200 NVL72的1.5倍,预计25年9月大规模出货,2026年将推出Rubin系列GPU [8] - Rubin系列首次搭载HBM4内存技术,单卡容量提至288GB,带宽高达13TB/s,集群方案算力强大 [8] - 2025年Q1 AMD服务器市场份额达27.2%,预计2026年营收占比超越英特尔,市场份额达50% [8] - AMD推出Instinct MI400系列GPU及UALink技术,能提供高算力和支持大规模集群互联 [8] 特斯拉Robotaxi项目 - 特斯拉Robotaxi项目进入关键发展期,奥斯汀试点已累计行驶超7000英里,预计最早8月1日正式上线,还在布局欧洲和中国市场 [9] - Robotaxi与FSD系统深度融合,Dojo 2搭建的算力集群将提高FSD训练效率,形成“数据 - 训练 - 部署”闭环,明年将推出Dojo3芯片 [9] 公司业务布局 - 公司深耕PCB行业,以汽车领域为核心拓展至人工智能、人形机器人等新兴领域 [11] - 汽车PCB能提供三电、辅助驾驶及自动驾驶相关产品,基于技术同源进入储能等新产品供应链 [11] - AI PCB已实现28层AI服务器用线路板、5阶HDI板量产,覆盖主流工艺要求 [11] - 新兴领域自2020年起配合大客户研发人形机器人PCB产品,覆盖全系电子电路需求 [11] - 产能方面,2020年筹划年产300万平方米线路板新建项目,分三期开发,预计未来总体产能达700万平方米 [11] - 客户导入方面,凭借汽车PCB合作经验,在大客户超极计算机项目供货,进入Dojo供应链,获欧洲AI超算客户项目定点,进入NVIDIA、AMD供应链体系 [11] 盈利预测 - 预测公司2025 - 2027年收入分别为63.78、95.67、115.76亿元,EPS分别为1.24、2.07、2.63元,当前股价对应PE分别为28.0、16.8、13.3倍 [12]
昇腾 AI 算力集群有多稳?万卡可用度 98%,秒级恢复故障不用愁
第一财经· 2025-06-10 11:25
AI算力集群高可用性技术 核心观点 - AI算力集群需具备"永不罢工"能力,通过高可用性技术保障24小时稳定运行,成为驱动业务创新的可靠引擎[1] - 华为提出六大创新方案解决AI集群故障率高、恢复慢等问题,包括三大基础能力(故障感知诊断、故障管理、光链路容错)和三大业务支撑能力(集群线性度、训练快恢、推理快恢)[12] 技术方案细节 故障感知与诊断 - 行业现状:万卡级AI集群日均故障≥1次,故障定位耗时数小时至数天[2] - 华为方案: - 构建全栈可观测能力(集群运行视图/告警视图/网络链路监控等)[2] - 开发四大诊断技术(全栈故障模式库/跨域故障诊断/计算节点诊断/网络诊断)[2] - 实现千种故障模式库与分钟级故障诊断[12] 硬件可靠性提升 - 通过可靠性系统工程实现CloudMatrix超节点万卡集群MTBF>24小时[3] - 光链路容错方案: - 首创光链路软件容错技术,容忍度>99%[3] - 新增10倍光模块后闪断率降至电链路水平[3] - HBM多比特ECC故障恢复时间缩短至1min,算力损失下降5%[3] 训练效率优化 - 线性度提升技术: - 采用TACO、NSF、NB、AICT四项关键技术[4] - 实测结果: - 135B稠密模型4K卡线性度96%[6] - 718B稀疏模型8K卡线性度95.05%,4K卡线性度96.48%[6] - 训练快恢系统: - 万卡集群恢复时间<10min[7] - 进程级重调度恢复<3min,在线恢复<30s[9] - 训练回滚时间缩短至单个迭代周期[9] 推理容错方案 - 大EP组网架构下提出三级容错:实例间切换/实例内重启/实例内无损恢复[9] - 关键技术突破: - 实例内重启恢复<5min[10] - TOKEN级重试技术使HBM KV Cache故障恢复<10s,较行业标准提升60倍[10] 技术成效 - 万卡集群可用度达98%[12] - 训推恢复最快达秒级[12] - 集群线性度>95%[12]
华为创造AI算力新纪录:万卡集群训练98%可用度,秒级恢复、分钟诊断
量子位· 2025-06-10 05:16
大模型算力集群技术 - 构建万卡级算力集群是全球顶尖技术挑战,性能稳定依赖强大算力支撑[1] - AI算力需24小时不间断运作,支撑导航路况分析、医疗CT诊断等实时智能应用[2][3] - AI推理可用度需达99.95%,高训练可用度、高线性度、快速故障消除是关键保障[4][5] 华为高可用技术体系 三大基础能力 - **全栈可观测能力**:训练可用度98%(全年358天可用)、线性度超95%(1000卡比100卡快9.5倍)、秒级恢复与分钟级诊断[9] - **故障诊断组合拳**:包含全栈故障模式库、跨域诊断、计算节点诊断、网络诊断四大技术,缩短故障定位时间[12][19] - **自愈系统**:超节点光链路软件容错技术可容忍99%光模块闪断,HBM多比特ECC故障修复时间从数小时缩短至1分钟[15][16] 三大业务支撑能力 - **集群线性度**:Pangu Ultra 135B稠密模型4K卡训练线性度96%,718B稀疏模型8K卡线性度95.05%[24] - **训练快恢**:分层分级恢复系统实现万卡集群10分钟恢复,进程级在线恢复仅需30秒[27][29] - **推理快恢**:实例内重启恢复<5分钟,TOKEN级重试技术使HBM故障恢复时间从10分钟降至10秒[35][36] 关键技术突破 - **通信优化**:TACO拓扑任务分配、NSF网存算融合、NB分层通信、AICT无侵入诊断提升数据传输效率[31] - **推理架构容错**:三步保险计划(实例间切换、实例内重启、无损恢复)降低大EP架构故障影响[34][37] - **效率提升**:光链路压力测试使光模块闪断概率降至电链路水平,算力损失减少5%[16]
华为昇腾万卡集群揭秘:如何驯服AI算力「巨兽」?
雷峰网· 2025-06-09 13:37
算力集群技术演进 - AI算力集群通过连接上万台计算机形成"算力航空母舰",解决大模型训练中的协同工作、故障恢复等世界级难题 [3] - 万卡集群可用度达到98%,实现训练+推理场景下的秒级快速恢复 [1] 超节点高可用技术 - 采用系统层/业务层/运维层三级容错方案,将故障转为亚健康问题并通过运维手段消除 [5] - 系统层通过超时代答欺骗OS和网络路由切换防止超节点级故障 [5] - 业务层实现租户无感知的网络闪断重试,运维层通过主动感知技术削减亚健康事件影响 [6] 集群线性度优化 - 华为提出TACO、NSF、NB、AICT四项关键技术,实现算力规模与性能的近似线性增长 [8] - 实测Pangu Ultra 135B模型在4K卡集群线性度达96%,718B MoE模型在8K卡集群线性度95.05% [8] 万卡训练恢复技术 - 采用进程级重调度恢复技术将训练中断恢复时间缩短至3分钟内 [12] - 进程级在线恢复技术针对硬件UCE故障实现30秒内恢复,算子级在线恢复实现通信算子秒级重执行 [12] MoE模型推理容错 - 大EP组网架构下提出三级容错方案,实例恢复时间从20分钟降至5分钟 [14][15] - TOKEN级重试技术实现30-60秒实例恢复,减卡弹性恢复技术实现用户无感知的秒级恢复 [15] 故障诊断体系 - 构建全栈可观测能力,包含集群运行视图、网络链路监控等模块 [17] - 故障诊断覆盖全栈故障模式库、跨域诊断、计算节点诊断等维度 [17] 建模仿真平台 - 马尔科夫建模仿真平台实现训练吞吐提升4.5%-8.24%,通信暴露时间降低89.84% [20] - 推理建模仿真平均误差低至6.6%,高可用建模实现全周期故障场景仿真 [21] 框架迁移方案 - MindSpore通过MSAdapter工具覆盖90%以上PyTorch接口,实现第三方框架无缝迁移 [23] - 推理阶段支持HuggingFace权重一键部署,盘古72B模型实现推理性能提升 [23] 行业发展趋势 - 算力基础设施将形成"应用需求→硬件创新→工程反哺"的闭环演进路径 [25] - 未来方向包括算法驱动算力专用化、光电混合架构革新、AI智能化运维等 [25]
华为如何驯服AI算力「巨兽」?
虎嗅APP· 2025-06-09 12:54
通用人工智能(AGI)与系统工程创新 - 单点技术演进边际效应递减,系统性能天花板转向系统工程上限,需通过系统工程创新实现效能最优[1] - 华为推出《华为技术披露集》系列,首次全面详述技术细节,助力昇腾生态在中国发展[1][2] 万卡集群技术 - AI算力集群将上万台计算机整合为"算力航空母舰",解决协同工作、高效运行和快速修复等世界级难题[3] - 华为团队提出拓扑感知协同编排技术TACO等四项关键技术,训练Pangu Ultra 135B稠密模型时4K卡集群线性度达96%[8] 超节点高可用 - 算力集群采用"系统层容错"、"业务层容错"和"运维层容错"方案,将故障转为亚健康问题,确保24小时不间断运行[5][6] - CloudMatrix 384超节点通过超时代答欺骗OS和网络路由切换,避免系统级故障[6] 集群线性度 - 华为技术实现盘古模型训练线性度提升,8K卡A2集群训练Pangu Ultra MoE 718B稀疏模型时线性度达95.05%[8] 万卡集群训练快速恢复 - 进程级重调度恢复技术将训练恢复时间缩短至3分钟以内,进程级在线恢复技术进一步缩短至30秒以内[10][11] - 算子级在线恢复技术实现网络故障影响的通信算子秒级重执行,训练任务不中断[11] 超大规模MoE模型推理恢复 - 三级容错方案实现实例间切换、实例内重启恢复和实例内无损恢复,实例恢复时间从20分钟降至5分钟[13] - TOKEN级重试技术在CloudMatrix 384超节点场景下实现30~60秒实例恢复[13] 故障管理与感知诊断 - 华为提供昇腾AI硬件灾备高可靠架构设计,涵盖故障隔离、容错能力和故障预测等[15] - 全栈可观测能力和故障诊断技术实现大规模集群在线故障感知和诊断[16] 建模仿真 - 马尔科夫建模仿真平台实现训练、推理和高可用领域的多维度建模分析,训练吞吐提升4.5%-8.24%[18][19] - 推理建模仿真平台平均误差低至6.6%,高可用建模仿真框架实现全周期监控仿真[19] 框架迁移 - 昇思MindSpore构建MSAdapter生态适配工具,覆盖90%以上PyTorch接口,实现第三方框架无缝迁移[21] - 推理阶段支持HuggingFace权重配置一键部署,实现盘古72B模型推理性能提升[21] 未来展望 - 算力基础设施将形成"应用需求→硬件创新→工程反哺"闭环,实现高效、弹性、自愈的下一代系统[23]
独家揭秘!华为如何让万台AI服务器秒变「超级大脑」
第一财经· 2025-06-09 09:01
AI算力集群的关键特性 - AI算力集群通过连接上万台甚至几十万台计算机形成"算力航空母舰",以应对万亿参数大模型的计算需求[1] - 需要解决协同工作、高效运行和快速修复等世界级难题[1] 超节点高可用 - 算力集群采用"备用替身"机制,确保单台机器故障时任务无缝接管,避免全盘停止[3] - 华为提出系统层、业务层和运维层三级容错方案,将故障转为亚健康问题并优雅消除[3][4] 集群线性度 - 理想情况下算力应随计算机数量线性增长,华为通过精密任务分配算法实现接近完美的线性度[6] - 实验显示训练Pangu Ultra 135B模型时4K卡集群线性度达96%,Pangu Ultra MoE 718B模型8K卡集群线性度达95.05%[8] 万卡集群训练快速恢复 - 系统具备"存档功能",可在设备故障时从最新进度恢复,避免从头训练[10] - 华为创新技术将训练恢复时间缩短至3分钟内,部分场景可达30秒内[11] 超大规模MoE模型推理恢复 - 大EP组网架构下硬件故障可能导致整个推理实例不可用[13] - 华为三级容错方案将实例恢复时间从20分钟降至5分钟,TOKEN级重试实现30~60秒恢复[15] 故障管理与感知诊断 - 实时监控系统持续监测设备健康状态,快速定位并修复故障[17] - 华为提供完整的硬件灾备高可靠架构设计和RAS统一故障管理框架[17] 建模仿真 - 虚拟环境"数字化风洞"可预测模型真实表现,提前发现系统瓶颈[19] - 华为马尔科夫建模仿真平台在训练、推理和高可用领域实现系统性建模分析[19][20] 框架迁移 - 昇思MindSpore框架覆盖90%以上PyTorch接口,实现第三方框架无缝迁移[22] - 推理阶段支持HuggingFace权重一键部署,实现盘古72B模型推理性能提升[22] 总结与展望 - 华为在算力集群多个维度提出创新方案,形成完整技术体系[24] - 未来算力基础设施将走向算法-算力-工程协同进化,形成需求-创新-反哺闭环[24]