大模型训练

搜索文档
江苏发布创新提升数字贸易政策措施
新华日报· 2025-07-02 21:40
江苏省数字贸易发展规划 - 到2030年全省服务贸易规模目标6000亿元 数字交付服务贸易目标3000亿元 占比50% [1] - 着力推进数字贸易制度型开放 打造数字贸易集聚生态圈 对接高标准经贸规则 [1] - 推进中新数字贸易合作试点 探索数字贸易便利化措施 推动江苏自贸试验区数据出境负面清单 [1] - 积极创建国家服务贸易创新发展示范区 国家数字贸易示范区 完善南京软件谷等载体基础设施 [1] 产业赋能措施 - 发展数字产品贸易 做强南京无锡苏州国家对外文化贸易基地 推动动漫游戏影视产品出口 [2] - 扩大数字技术贸易 推进高端软件发展 实施人工智能+行动计划 升级数字服务贸易 [2] - 探索跨境电商新场景 推动数字订购贸易 联动开放平台 [2] - 激活数据产业潜能 争创国家级可信数据空间试点 发展来数加工离岸数据加工大模型训练新业态 [2] 服务贸易重点领域 - 增强国际运输服务能力 优化国际航线网络 建设智慧港口和智慧航道 [2] - 提升旅游服务国际竞争力 利用入境过境免签政策 优化口岸团体旅游签证 [2] - 加快发展国际教育服务 打造活动品牌 支持境外办学 [2] - 支持人力资源地理信息等专业服务贸易拓展国际合作 [2] - 扩大优质服务进口 吸引国际资源在多领域先行先试 [2]
华升股份(600156.SH)拟购买易信科技100%股份 6月24日复牌
智通财经网· 2025-06-23 08:57
交易概况 - 华升股份拟通过发行股份及支付现金方式收购易信科技100%股份并募集配套资金 审计评估工作未完成 交易价格未确定 [1] - 公司股票将于2025年6月24日复牌 [1] 标的公司业务 - 标的公司专注于AIDC领域 提供绿色算力基础设施全生命周期服务 包括智算中心规划设计 建设运维 节能系统研发 算力池化调度运营 [1] - 业务覆盖人工智能 大模型训练等场景 以技术创新驱动算力基础设施低碳化 高密度化 智能化升级 [1] 战略布局 - 标的公司已在深圳百旺信 惠州大亚湾 广州南沙 海口运营多个高性能智算中心 湖南郴州在建绿色智算中心 计划拓展河南四川 [1] - 以湖南绿色智算中心为核心 加快中部高密度高能效算力节点布局 形成华南 华中 华北 西南区域化服务能力 [1][2] - 计划构建辐射中部 承东启西的全国智算资源体系 承接低空经济 人工智能 工业互联网 金融科技等高强度算力需求 [2] 战略意义 - 交易符合国家新型信息基础设施建设和新质生产力培育导向 [1] - 标的公司具备中部区域算力资源优先布局优势 将提升我国智能算力基础设施区域协调能力与整体效率 [1][2] - 助力华升股份融入全国算力网络 赋能新质生产力高质量发展 [2]
成立不到五年,这家GPU厂商即将A股上市
搜狐财经· 2025-06-19 10:54
上市进展 - 摩尔线程于2024年6月10日率先完成上市辅导 进入"辅导验收"阶段 成为国产GPU"四小龙"中进度最快的企业 [2] - 公司于2024年11月在北京证监局备案 由中信证券开展两期辅导 已建立符合上市公司标准的治理制度与财务内控体系 [3][4] - 2024年完成股份制改造 注册资本从2441.32万元增至3.3亿元 为IPO铺路 [12] 技术产品 - 推出三代全功能GPU芯片:"苏堤"(首代MUSA架构 支持AV1编解码)、"春晓"(220亿晶体管 性能较苏堤提升3-5倍)、"曲院"(性能较春晓再提升3-5倍) [7][8] - 2024年7月推出万卡级"夸娥智算集群"解决方案 支持FP8计算精度 可训练GPT/DeepSeek等主流大模型 [8][9] - 累计获得425项授权专利 构建覆盖AI芯片/游戏显卡/集群的B+C端产品线 [7] 融资历史 - 成立至今完成6轮融资 累计金额达数十亿元 投后估值240亿元(2022年B轮) [10][11] - 主要投资方包括红杉中国/五源资本/深创投/字节跳动/中移数字新经济基金等 2023年B+轮单轮超20亿元 [11] 创始人背景 - 创始人张建中为英伟达前全球副总裁及中国区总经理 拥有20年GPU行业经验 [7]
大模型训练,一半时间在摸鱼?
虎嗅APP· 2025-06-03 09:58
华为MoE架构优化技术 核心观点 - 华为提出MoGE架构优化方案,克服传统MoE模型负载不均衡及效率瓶颈问题,实现降本增效并便于训练部署 [1] - 公司通过Adaptive Pipe通信掩盖框架和EDPB全局负载均衡技术,显著提升MoE模型训练效率,在Pangu Ultra MoE 718B模型8K序列训练中实现72.6%的吞吐提升 [24][25] 技术方案细节 MoE训练效率挑战 - 专家并行(EP)导致计算单元空闲等待通信,模型规模较大时All-to-All通信造成50%以上训练时间浪费 [4][5] - 负载不均现象突出:热专家调用频率达冷专家数倍,不同模型层计算量差异明显 [5][6] DeployMind仿真平台 - AutoDeploy仿真平台通过三维建模和昇腾硬件映射,1小时内完成百万次训练场景模拟,并行策略选择精度达90% [9] - 针对Pangu Ultra MoE 718B模型,自动生成TP8/PP16/VPP2/EP32最优并行方案 [9] Adaptive Pipe通信优化 - 层次化All-to-All通信将跨机器传输数据块拷贝量减少50%,机内高速通道利用率提升1倍 [11] - 虚拟流水线并行技术使内存占用减半,实现98%以上EP通信掩盖率 [12][13] EDPB负载均衡 - 专家预测动态迁移技术通过多目标优化实现专家智能调度,包含预测先行/双层优化/智能触发三重机制 [18] - 数据重排和虚拟流水线层间均衡技术分别解决Attention计算和Stage间等待问题 [20][21] - 在基础优化上额外带来25.5%吞吐提升 [16][25] 行业技术演进 - MoE模型从加拿大理论雏形到硅谷工程突破,现由中国企业主导架构创新,华为MoGE架构体现"多快好省"技术路线 [1] - 昇腾生态通过系列技术披露推动开放协作,加速大模型本土化发展 [1][31]
不用GPU,大模型每2秒吃透一道高数大题!这就是华为的实力
雷峰网· 2025-05-30 09:48
华为昇腾与Pangu Ultra MoE技术创新 - 公司通过"昇腾+Pangu Ultra MoE"组合实现国产算力与模型全流程自主可控训练闭环,集群训练系统性能达行业领先水平[4] - 预训练阶段昇腾Atlas 800T A2万卡集群MFU提升至41%,后训练阶段单CloudMatrix 384超节点吞吐达35K Tokens/s[5] - 首次披露高效打通大稀疏比MoE强化学习后训练框架的关键技术,推动RL后训练进入超节点集群时代[6][7] MoE模型训练技术痛点与解决方案 - 当前MoE训练存在六大挑战:并行策略配置困难、All-to-All通信瓶颈、系统负载不均、算子调度开销大、训练流程管理复杂、大规模扩展受限[10][11] - 公司提出三阶段解决方案: - 提升训练集群利用率:通过智能并行优化、分层All-to-All通信去冗余、EDP全局负载均衡策略,将专家并行通信开销降至<2%[14][18][19] - 释放昇腾单节点算力:采用昇腾亲和算子加速、Host-Device协同下发优化、Selective R/S内存手术方案,实现MBS翻倍和70%激活值内存节省[22][25][27] - RL后训练创新:RL Fusion训推共卡技术支持多维并行策略动态切换,准异步机制StaleSync使训练吞吐提升50%[28][30] Pangu Ultra MoE模型性能突破 - 模型架构:7180亿参数,61层Transformer(3稠密层+58 MoE层),256路由专家+1共享专家,隐层维度7680[35] - 预训练性能:6K-10K卡昇腾800T A2集群实现8K序列长度下41% MFU,预计CloudMatrix 384超节点可支撑MFU>50%[35] - 后训练性能:CloudMatrix 384超节点实现35K Tokens/s吞吐,支持4K卡集群扩展,等效每2秒完成高数大题级推理任务[36] 技术架构创新细节 - 并行策略:采用16路流水线并行+8路张量并行+32路专家并行+2路虚拟流水线并行的混合架构[15] - 通信优化:分层专家并行通信结合虚拟流水线并行掩盖策略,实现计算通信深度融合[18] - 内存管理:构建自适应内存优化框架,支持模块级到张量级的细粒度内存调配[26] - 训推协同:支持分离部署/训推共卡/全共卡三种模式,秒级完成状态转换[28][33]
每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程
华尔街见闻· 2025-05-30 09:38
华为Pangu Ultra MoE大模型技术突破 - 华为通过"昇腾+Pan gu Ultra MoE"组合实现国产算力与国产模型全流程自主可控的训练闭环,集群训练系统性能达到行业领先水平[3] - 预训练阶段昇腾Atlas 800T A2万卡集群MFU提升至41%,后训练阶段单CloudMatrix 384超节点吞吐达35K Tokens/s[4] - 首次披露在昇腾CloudMatrix 384超节点上高效打通大稀疏比MoE强化学习后训练框架的关键技术[4] 技术挑战与解决方案 - MoE预训练和强化学习后训练存在六大挑战:并行策略配置困难、All-to-All通信瓶颈、系统负载分布不均、算子调度开销过大、训练流程管理复杂、大规模扩展受限[7][8][10][11][12][13] - 提升训练集群利用率三招:建模仿真驱动的智能并行优化、Adaptive Pipe前反向通算掩盖、EDP Balance全局动态负载均衡[15][16][17][20][22][23] - 释放昇腾单节点算力三招:昇腾亲和的训练算子加速、Host-Device协同的算子下发优化、Selective R/S精准的内存手术方案[26][28][29][30] 强化学习后训练创新 - 首次披露RL Fusion训推共卡技术,支持训练推理共卡、全共卡等多种灵活部署模式,实现RL后训练集群利用率翻倍[33][34] - 设计准异步机制StaleSync和分布式数据队列DistQueue,系统整体训练吞吐提升50%[36] - 在Pangu Ultra MoE昇腾CloudMatrix 384超节点集群后训练中实现每超节点35K Tokens/s高吞吐能力,支持高效扩展超过4K卡集群[39] 模型性能与架构 - Pangu Ultra MoE模型拥有7180亿参数,包含61层Transformer,前3层为稠密层,后58层为MoE层[38] - 模型隐层维度达7680,配备256个路由专家和1个共享专家,专家隐层维度为2048[38] - 在序列长度为8K、万卡训练集群条件下,模型算力利用率(MFU)达到41%,预计可支撑训练集群MFU>50%[38]
华为AI实力!不用GPU,大模型每2秒吃透一道高数大题!
第一财经· 2025-05-30 09:32
华为Pangu Ultra MoE大模型技术突破 - 实现国产算力与国产模型全流程自主可控训练闭环 昇腾Atlas 800T A2万卡集群MFU提升至41% 单CloudMatrix 384超节点吞吐达35K Tokens/s [2][3] - 首次披露昇腾CloudMatrix 384超节点上高效打通大稀疏比MoE强化学习后训练框架的关键技术 让以强化学习为核心的后训练进入超节点集群时代 [3][4] - 7180亿参数规模 61层Transformer结构 前3层稠密层后58层MoE层 隐层维度7680 配备256个路由专家和1个共享专家 专家隐层维度2048 [32] 技术痛点与解决方案 - 当前MoE预训练和强化学习后训练存在六大挑战:并行策略配置困难 All-to-All通信瓶颈 系统负载分布不均 算子调度开销过大 训练流程管理复杂 大规模扩展受限 [7][8] - 通过并行策略智能选择 计算通信深度融合 全局动态负载平衡等技术创新显著提升集群效率 建模仿真驱动智能并行优化确定最优部署配置:16路流水线并行 8路张量并行 32路专家并行 2路虚拟流水线并行 [11][12][13] - 创新设计分层All-to-All通信去冗余机制 专家并行通信开销降至<2% 采用EDP全局负载均衡优化策略 实现设备间计算负载精确平衡 [14][17] 昇腾单节点算力优化 - 通过昇腾架构深度适配的训练算子加速 关键算子性能显著跃升 Host-Device协同优化将MoE训练中Host-Bound占比控制在2%以下 [21][23] - 构建精密内存优化框架 实现70%激活值内存节省 微批处理规模提升至原来两倍 [24][25] - 采用RL Fusion训推共卡技术 支持训练推理共卡 全共卡等灵活部署模式 实现秒级训推状态转换 后训练集群利用率翻倍 [27][28] 强化学习后训练创新 - 设计准异步机制StaleSync 让不同RL阶段任务在陈旧度阈值内并行执行 系统整体训练吞吐提升50% [29] - 采用分布式数据队列DistQueue 有效缓解不同计算任务间数据阻塞 为后训练任务高效调度提供支持 [29] - 在昇腾CloudMatrix 384超节点集群后训练中 采用训练推理混合并行策略 实现每超节点35K Tokens/s高吞吐 支持高效扩展超过4K卡集群 [32][34]
Pangu Ultra准万亿MoE模型:业界一流,源自昇腾原生的长稳训练
第一财经· 2025-05-29 10:50
模型架构与训练方法 - 华为盘古团队发布Pangu Ultra MoE模型技术报告,披露准万亿MoE模型在昇腾NPU上的全流程训练细节[1] - 模型采用Depth-Scaled Sandwich-Norm(DSSN)稳定架构和TinyInit小初始化方法,实现10+T tokens数据的长期稳定训练[1][8] - 提出EP group loss负载优化方法,保证专家负载均衡并提升领域特化能力,同时采用MLA和MTP先进架构及Dropless训练策略[1][3] 性能与规模 - 模型参数规模达718B,激活量39B,采用256个路由专家,每个token激活8个专家[5] - 预训练阶段在6k-10k张NPU上进行,具备128k长序列能力,后训练阶段移除负载均衡辅助损失以提升学习效率[3] - 在多个权威评测集上表现稳健,如C-Eval 90.8、MMLU 91.5、AIME2024 81.3等,部分指标领先竞品[6] 技术创新 - DSSN+TinyInit方案使梯度突刺率从1.54%降至0.76%,相对下降51%,显著提升训练稳定性[8][11] - EP-Group负载均衡loss相比Micro-batch方案平均提升1.5个点,同时促进专家特化[15][16] - MTP头延迟扩展策略使投机接受长度提升38%,双头扩增效果与从头训练相当[21][23] 训练优化 - 隐藏层设为7680维,精准匹配昇腾芯片16×16 MatMul单元,充分发挥计算潜力[5] - 采用61层Transformer结构,优化流水线并行调度,减少pipeline气泡[5] - 专家数量按2⁸=256设置,提升All-to-All通信效率,加速分布式训练[5] 强化学习系统 - 设计迭代难例挖掘机制,从数据池筛选通过率(0,1)的数据提升RL训练效率[25][27] - 多能力项奖励系统结合规则奖励与LLM-as-a-judge评分,确保数学、代码等能力协同提升[27] - 参考GRPO算法但优化了超大模型场景下的训练浪费和能力不匹配问题[25]
训练大模型,终于可以“既要又要还要”了
虎嗅APP· 2025-05-29 10:34
华为Pangu Ultra MoE模型技术突破 - 华为推出参数规模高达718B的准万亿MoE模型Pangu Ultra MoE 该模型融合计算、通信和内存等多维度指标 在昇腾NPU平台上实现最佳平衡 [6] - 模型采用256个路由专家 每个token激活8个专家 总参数量718B 激活量39B 具有超大规模和超高稀疏比特性 [6] - 引入MLA注意力机制 有效压缩KV Cache空间 缓解推理阶段内存带宽瓶颈 优于传统GQA方案 [6] 模型架构创新 - 采用Depth-Scaled Sandwich-Norm稳定架构和TinyInit小初始化方法 使梯度突刺率从1.54%下降到0.76% 相对下降51% [13][17] - 设计EP-Group负载均衡loss 相比主流Micro-batch方案在大部分任务上平均提升1.5个点 [20][21] - 采用单头MTP进行训练 后续复用参数扩展至多头结构 实现多Token投机推理 接受长度提升约38% [26][27] 训练方法优化 - 全流程采用dropless训练模式 避免Drop&Pad训推不一致问题 提升训练数据效率 [7] - 预训练阶段在6k到10k张NPU上进行 具备128k长序列能力 [8] - 采用迭代难例挖掘与多能力项均衡的奖励函数 参考GRPO算法提升训练效率与推理性能 [29][31] 昇腾硬件亲和设计 - 隐藏维度设置为7680维 精准匹配DaVinci芯片的16×16 MatMul单元 充分发挥计算潜力 [7] - 设置61层Transformer结构 预留额外MTP层空间 保障计算负载均衡的流水线调度 [7] - 路由专家数量设为256 在TP×EP并行下提升All-to-All通信效率 加速分布式训练 [7] 模型性能表现 - 在C-Eval评测中得分90.8 CLUEWSC得分94.8 MMLU得分91.5 整体效果优于主流模型 [9] - 在推理能力评测中 AIME2024得分81.3 GPQA-Diamond得分75.3 MATH500得分97.4 [9] - 强化学习训练系统有效解决了多能力协同提升问题 保持模型在数学、代码和通用能力的均衡表现 [31]
广州南沙全力构建人工智能产业新高地
中国证券报· 2025-05-28 20:35
湾区人工智能产业创新联盟成立 - "湾区人工智能产业创新联盟"由香港科技大学(广州)与华为联合港澳及国际知名机构发起,整合国际、港澳及内地科研资源,旨在推动南沙成为粤港澳大湾区人工智能创新引领地、全国AI+产业发展风向标、世界人工智能人才集聚区 [1] - 联盟聚焦三大核心任务:在大模型训练、具身智能等关键技术领域突破,推动形成千亿级产业集群,建设公共算力平台及全链条产业服务体系 [2] - 南沙区发布专项扶持政策,对算力、数据、算法三大要素提供最高1000万元资金支持,涵盖算力补贴、数据交易奖励及大模型研发 [2] 南沙人工智能产业发展现状 - 2024年南沙人工智能相关产业规模约100亿元,同比增长12%,集聚云从科技、小马智行、奥飞数据等100余家企业,覆盖芯片、算法、自然语言处理等领域 [2] - 形成环港科大(广州)创新区和香江国际科创中心两大产业聚集区,其中小马智行自动驾驶出租车业务2025年Q1收入达1230万元,同比增长200% [2][3] - 南沙港四期全自动化码头采用北斗导航+AI+无人驾驶技术,2024年Q1集装箱吞吐量同比增长41.42%,智能导引车定位误差不超过3厘米 [4][5] 企业动态与全球化布局 - 小马智行与优步达成全球合作,2025年下半年接入其平台,并计划拓展中东市场,与迪拜道路交通管理局合作落地无人驾驶出租车服务 [3] - 云从科技以"AI智能体+行业大模型"为核心战略,覆盖智慧治理、金融等垂直领域,构建平台化通用模型与行业专用模型双引擎 [4] 政策与产业融合 - 广东省推出《推动人工智能与机器人产业创新发展若干政策措施》,实施"人工智能+"行动,在教育、医疗等领域拓展应用 [3] - 南沙推动AI与实体经济融合,形成全自动化码头等标杆项目,智能引导车实现多源融合定位技术提升效率 [4][5]