大模型训练

搜索文档
湾区人工智能产业创新联盟成立
中国经济网· 2025-05-27 03:32
湾区人工智能产业创新联盟成立 - 联盟由香港科技大学(广州)与华为联合港澳及国际知名机构共同发起,汇聚粤港澳大湾区产学研用金多方力量,宗旨为"立足湾区、协同港澳、面向世界" [2] - 联盟聚焦三大核心任务:技术攻关(大模型训练、智能芯片、具身智能)、产业集聚(千亿级产业集群、培育独角兽)、生态构建(公共算力平台、开放数据集与应用场景库) [2] - 香港科技大学(广州)校长提出以联盟为平台打造"AI未来城",整合技术攻关、标准共建、成果转化和企业孵化功能 [2] 政府支持与战略定位 - 广东省科技厅指出联盟成立是落实国家《新一代人工智能发展规划》的关键举措,推动大湾区建设"国际科技创新中心" [3] - 广州市南沙区委书记强调以"创业者"姿态聚焦平台建设、开放共享、场景应用与生态共赢,吸引产业资源与项目落地 [3] 重点项目合作 - 华为与香港科技大学(广州)启动"科教创新孵化中心"项目,实现产教融合与科教融汇双向驱动 [3] - 华为与中铁隧道局合作规划"隧智汇"隧道工程行业大模型体系,搭建大数据平台底座并推动全流程数智化转型 [3]
全新GPU高速互联设计,为大模型训练降本增效!北大/阶跃/曦智提出新一代高带宽域架构
量子位· 2025-05-19 04:37
大模型分布式训练技术 - 随着大模型参数规模扩大,分布式训练成为AI发展的中心技术路径[1] - 高带宽域(HBD)设计对提升大模型训练效率至关重要[2] - 张量并行和专家并行需依赖HBD提供Tbps级带宽支持[6] 现有HBD架构的局限性 - 以交换机为中心的HBD(如NVIDIA NVL-72)成本高昂且不易扩展[3][8] - 以GPU为中心的HBD(如Google TPUv3)存在严重的故障传播问题[3][12] - 交换机-GPU混合HBD(如TPUv4)在成本和容错方面仍不理想[3][18] InfiniteHBD创新架构 - 采用以光交换模组为中心的HBD架构,单位成本仅为NVL-72的31%[4] - 通过OCS技术实现节点级故障隔离,GPU浪费率接近零[4][59] - 与NVIDIA DGX相比,MFU最高提升3.37倍[4][63] 关键技术突破 - 基于硅光子技术的OCS光电转换模组(OCSTrx),支持800Gbps带宽[30][31] - 可重配置的K-Hop Ring拓扑,支持动态构建任意大小的GPU粒度环[36][39] - HBD-DCN编排算法将跨ToR流量降低5.8倍[69] 性能优势 - 互连成本仅为NVL-72的31%、TPUv4的63%[74] - 能耗为NVL-72的75%,与TPUv4持平[74] - 在Llama3.1和GPT-MoE 1.1T训练中表现优异[62][64] 行业合作 - 阶跃星辰作为通用大模型创业公司参与研发[77] - 曦智科技作为光电混合算力提供商支持技术创新[77] - 上海智能算力科技正在筹备相关集群建设[77]
首程控股20250518
2025-05-18 15:48
纪要涉及的公司 首程控股 纪要提到的核心观点和论据 - **业绩表现**:2025年一季度收入3.52亿港元,与去年同期基本持平,归母净利润2.13亿港元,同比增幅达80%,增长主要来源于投资收益;资产运营收入2.58亿港元,同比增长27%,主要来自停车和园区板块,停车板块新投入机场项目、停车费上涨及广告业务促进收入增长[2][3] - **资产融通**:收入0.94亿港元,完成与上海宝山区、成都武侯区成立区域基金,与中国人寿成立100亿产业引导基金,扩大基金管理规模;布局机器人领域,管理多项投资[4][5] - **充电加停车业务**:创新业务提高公司收入和被投企业知名度;采取多种参与模式,注重核心城市核心地段,确保盈利能力,目前选择能盈利的场站布局[7][9] - **机器人投资规划**:2024年开始投资机器人领域,已投资16个标的,集中于机器人本体;2025年将加大对零部件环节投资,强调投后赋能[10] - **低空飞行器规划**:关注低空飞行器及相关技术,结合停车综合体建设经验,与省市探讨并试点项目管理,为其发展提供支持[4][11] - **机器人公司业务进展**:2025年2月成立,主营销售代理、租赁业务、供应链管理和行业咨询;医疗领域获三级证书,租赁业务已展开,展览展示商业化领先,市政、医疗、教育方向有规划,2025年希望贡献营收和净利润[12] - **租赁业务毛利率**:各细分市场波动大,目前难提供固定毛利率,随行业成熟、产品定制化和商业化进程加快,未来预计逐步提高[16][17] - **机器人领域战略布局和财务表现**:2024年初战略转型,2025年一季度财务数据有成果体现但不明显,预计后续报告数据更多;坚持投资和产业化并举,传统业务与机器人业务契合,计划塑造ETF机器人基金[19] - **大模型训练及商业化应用**:成立机器人科技产业公司,提供场景采集数据、更新迭代产品;投资的资产可作应用落地场景;通过二次开发大模型实现垂类场景应用落地,贡献收入和利润[20][21] - **公司定位和分红计划**:定位为具备成长性且高分红的公司,延续到2027年不低于80%归母净利润派息计划,让投资人共享高成长收益与稳定分红[22] 其他重要但是可能被忽略的内容 - 2025年计划在停车板块进军产权车位市场,以应对房地产市场K型分化时期[6] - 市属园林机器人运营规模需先预选型,根据需求采购或租赁,简单功能机器人适合租赁,目前无具体测算数据[13][14] - 首程控股未直接运营园林业务,协助机器人进入北京市属园林,首批约100个,每个用材林可能需1到3个机器人[15] - 目前租赁业务涉及机器人品牌数量未公开,将通过公告等方式公布进展[18] - 一些国内外本土企业具备小批量量产条件,首程控股提供真实数据采集环境可加速垂直细分场景大模型训练进度,推动商业化落地[22][23]
我省建成全国产化洪水预报调度系统
辽宁日报· 2025-05-13 01:46
日前,我省水利部门建成全国产化洪水预报调度系统,实现对全省大中型水库及流域200平方公里 以上河流的洪水预报全覆盖,洪水平均预见期延长7天,为防洪决策抢占先机奠定了基础。 就新系统的应用优势,省水文局水情中心相关负责人举例,同一条河流由于不同地区的水土条件不 一样,有超渗产流和蓄满产流的差别,但过去一条河流只有一个模型,就需要模型数据和经验数据相结 合而作研判。而现在的模型组合集成,就解决了类似差别前提下的预测时效和精度问题。 下一步,我省水利部门还将深化气象雷达短临预报技术应用,融合多源降雨数据与流域地形、土 壤、植被等下垫面信息,研发分布式水文模型,推动预见期延长与精度提升协同优化。建立辽宁水文知 识库,开展大模型训练与智能化开发,推进全省水文行业智能化升级。 新系统还植入我省102处国家基本水文站、37座大型水库、76座中型水库预报方案,集成286处中小 河流站预报方案,提升全省流域洪水预报能力。同时,精准关联薄弱环节耦合水文水动力模型,构建16 条主要河流一维洪水演进模型,首次实现由单一断面向河系尺度的预报预演转变,精准关联全省1278个 防洪薄弱环节(不达标堤段、险工险段、薄弱村屯、砂堤砂基),为防 ...
电子行业跟踪周报:架构级创新,华为UBMesh直击大模型训练的“通信墙”与成本痛点-20250511
东吴证券· 2025-05-11 14:05
报告行业投资评级 - 增持(维持) [1] 报告的核心观点 - 面向AI训练集群诉求华为推出UB Mesh架构 其采用nD - FullMesh拓扑结构 降低信号传输开销和成本 提高系统可靠性 且通过统一总线实现多组件互连与资源动态池化 [6] - UB Mesh机架架构以单机柜64个NPU为核心 可形成4D层级互连和8000卡规模的集群 满足大规模LLM训练需求 [2] - 相同训练基准下 UB Mesh较Clos实现2.04倍的成本效益提升 降低网络基础设施成本和运营成本 [3] - 芯片及网络架构创新持续推进 昇腾有望推动产业链相关公司业绩及估值双升 获得国内算力芯片较大市场份额 打开国产AI服务器零部件成长空间 [7] 根据相关目录分别进行总结 UB Mesh架构介绍 - UB Mesh是全新AI数据中心网络架构 采用nD - FullMesh拓扑结构 从单板内1D全连接扩展至跨机柜的4D/5D拓扑 多数传输0 - 2跳内完成 降低信号传输开销 且最大限度利用短距离直接互连 降低成本和提高可靠性 [6] - UB Mesh主要组件通过统一总线Unified Bus连接 NPU和CPU配备UB IO控制器 还提供低基数和高基数交换机 实现多组件互连与资源动态池化 消除协议转换需要 降低开销 [6] UB Mesh机架架构 - UB Mesh机架架构以单机柜64个NPU为核心 机架内8个NPU板各集成8个NPU形成2D FullMesh互连 CPU独立部署 可实现CPU/NPU比例灵活调整及资源池化 机架间通过低基数交换机聚合接口 形成4D层级互连 四机架构成Pod后总规模达1024个NPU 还可构建8000卡规模的集群 [2] UB Mesh性能与成本效益 - 相同训练基准下 机架内2D - FM架构与Clos架构训练性能差距在7%以内 硬件成本低 机架间互连性能与Clos架构几乎相同 且可调整带宽比例匹配特定需求 [3] - 从系统全生命周期成本看 UB Mesh将网络基础设施成本比例从67%降至20% 节省98%的高性能交换机和93%的光模块 运营成本降低35% 较Clos实现2.04倍的成本效益提升 [3] 昇腾相关情况 - 华为正筹备昇腾920系列芯片 基于中芯国际6nm工艺打造 单卡算力超900TFlops(BF16) 内存升级到HBM3 单卡提供400GB/s带宽 [7] - 华为CloudMatrix 384超节点提供300PFlops的密集BF16计算能力 硅基流动基于该超节点及SiliconLLM运行的DeepSeek - R1单卡Decode吞吐突破1920 Tokens/s 比肩H100部署性能 [7] - 在国内算力需求高增 海外算力芯片供应不稳定背景下 昇腾有望获得国内算力芯片较大市场份额 打开国产AI服务器零部件成长空间 [7] 产业链相关公司 - 中芯国际、华丰科技、南亚新材、芯碁微装、深南电路、兴森科技、欧陆通 [7]
CVPR Oral | 南京大学李武军教授课题组推出分布式训练算法UniAP,大模型训练最高加速3.8倍
机器之心· 2025-04-30 04:23
核心观点 - 大模型训练成本高昂,分布式训练算法效能低下是主要障碍之一,64%-87%概率因超参数设置不合理导致训练失败 [3] - 南京大学研发的UniAP算法首次实现层内与层间并行策略联合优化,最高比现有方法快3.8倍,比非优化算法快9倍 [7] - UniAP已适配国产AI计算卡海光DCU,为大模型训练提供降本增效解决方案 [8] 技术突破 - 采用混合整数二次规划建模,统一优化流水线并行、张量并行等策略,探索空间更大 [12] - 架构包含性能评估、代价模型、优化求解三阶段,自动生成最优并行计划 [15] - 时间代价模型和显存代价模型精准预估不同策略的开销,避免显存溢出 [16] 性能表现 - 在V100/TITAN XP/A100上测试BERT/T5/ViT等模型,吞吐量最高提升3.8倍 [26] - 策略优化时间从40分钟缩短至0.37分钟,效率提升107倍 [26] - 国产DCU测试显示可自动规避64%-87%无效策略,比手动搜索快9倍 [30] 行业影响 - 解决分布式训练易用性问题,用户无需理解流水线划分等复杂概念 [32] - 显著降低算力成本,相同硬件条件下训练速度提升带来3.8倍成本节约 [32] - 推动国产AI计算卡生态发展,提升硬件利用率和普及速度 [8][32]