并行计算 - 财报，业绩电话会，研报，新闻

并行计算

搜索文档

国元证券· 2025-06-17 06:13

报告行业投资评级 - 推荐（首次） [6] 报告的核心观点 - 随着规模定律扩展，并行计算推动集群互联带宽需求，CPO技术因低功耗、高速率优势受重视，长期或成数据中心光电转换模块终局结构，国内供应商多布局产业链上游且全球化产能布局，看好天孚通信、太辰光等公司 [1][2][3] 根据相关目录分别进行总结 1 规模定律下模型参数量高增，并行及功耗需求推高集成 1.1 规模定律下参数量高增，计算并行流增长推集群互联带宽提升 - 模型规模扩展使算力需求增加，推理阶段算力需求指数型增长推动算力集群扩张，并行计算推动集群内互联带宽和通信器件需求提升 [14][17] 1.2 集群大规模、高速率、低功耗需求下，集成式模块或为更优选择 - 集群TCO中电费占比高，降低功耗可优化OPEX；集群规模扩张使通信设备价值量占比上行，CPO技术可提升带宽、功耗和空间效率，降低成本 [20][24][28] 1.3 CPO高性能、低功耗优势推渗透提升，上游器件供应商弹性可观 - CPO技术可形成“技术升级 - 成本下降 - 渗透加速”正向循环，预计到2027年800G和1.6T端口总数中CPO端口将占近30%；介绍了CPO系统组成架构及相关器件 [33][35][42] 1.4 行业头部通信设备厂已有成熟方案，CPO交换机产业化或在即 - 博通推出多款CPO交换机，不断提升交换容量、降低功耗；英伟达发布两款CPO交换机，降低了端口功耗 [52][58][63] 2 行业内重点公司分析 2.1 太辰光：产品成功导入康宁，MPO及光纤柔性板的领先供应商 - 太辰光产品应用广泛，客户包括康宁；营业收入和归母净利润整体增长，光器件产品占比提升；MPO产品领先，shuffle产品和光柔性板产品有优势，FAU产品开展相关工作 [67][70][74] 2.2 光库科技：子公司加华微捷业绩高增，前瞻布局薄膜铌酸锂 - 光库科技产品应用领域广，有多家子公司；营业收入和归母净利润整体增长，光纤激光器和光通讯器件占比近年下降；子公司加华微捷FAU产品布局全面，公司在薄膜铌酸锂材料有积累 [77][80][83] 2.3 天孚通信：英伟达CPO交换机技术合作伙伴，CPO板块多产品布局 - 天孚通信是光器件解决方案和封装制造服务商，产品应用广泛；营业收入和归母净利润高速增长，光有源和无源器件占主导；是英伟达CPO交换机合作伙伴，部分产品小批量生产，泰国产能布局推进 [87][91][95] 2.4 仕佳光子：领先光芯片供应商，间接投资MT插芯供应商福可喜玛 - 仕佳光子聚焦光通信，产品包括多种芯片和连接器；营业收入和归母净利润波动大，光芯片及器件产品占比提升；建立MPO生产基地，间接投资福可喜玛保障MT插芯供给 [98][102][105] 2.5 源杰科技：大功率激光器获千万级订单，推动业绩Q1同比高增 - 源杰科技专注高速半导体芯片，产品应用广泛；营业收入和归母净利润波动大，电信市场类收入占主导；数据中心产品有进展，研发CPO相关产品 [108][111][114] 2.6 光迅科技：前瞻布局CPO光源模块，受益国内云服务商的IDC建设 - 光迅科技是光电器件一站式服务提供商，产品应用广泛；营业收入和归母净利润稳健增长；前瞻布局CPO ELS光源模块 [116][117][120]

阿里通义发布并行计算新策略：1.6B等效4.4B，内存消耗骤降95%

量子位· 2025-05-28 04:22

核心观点 - 阿里通义团队提出PARSCALE方法，通过并行计算扩展提升模型性能，不显著增加内存和时间成本 [1][4] - 对于1.6B模型，性能接近4.4B模型，内存占用仅为后者的1/22，延迟增加量为1/6 [2] - 可直接应用于现有模型（如Qwen-2.5），无需从头训练 [3] 技术细节并行计算框架 - 将CFG的固定双路径扩展为P条可学习的并行路径，每条路径通过可训练的前缀嵌入生成差异化输入 [15] - 并行前向传播后通过动态加权聚合输出，MLP动态计算各路径输出的聚合权重 [16] - 利用GPU并行计算能力，一次性完成P路前向传播，计算效率随P线性增长 [21] 性能提升 - 当P=8时，1.6B参数模型在HumanEval的性能（Pass@1=39.1%）接近4.4B参数模型（Pass@1=45.4%） [18] - 在GSM8K数学推理任务中，P=8使1.8B模型性能提升34% [20] 训练策略 - 阶段1：用传统方法预训练模型至收敛（1T tokens） [23] - 阶段2：冻结主体参数，仅训练前缀嵌入和聚合权重（20B tokens，占总数据的2%），训练成本降低约98% [24][25] 适配现有模型 - 在Qwen-2.5-3B模型上进行持续预训练和参数高效微调（PEFT），仅调整前缀和聚合权重 [27] - PEFT方法使代码生成任务（HumanEval+）中Pass@1提升15% [28] 行业应用 - PARSCALE将CFG的"双路径启发"升级为通用的计算缩放范式，适用于训练和推理全流程 [29] - 研究团队已公开论文和代码，可供进一步研究 [31]

阿里巴巴(US:BABA)

并行计算

计算缩放

Artificial Intelligence

Artificial Intelligence

PARSCALE

Qwen-2.5

“黄仁勋最信赖的作者”深度交流：英伟达传奇背后以及AI的下一步

聪明投资者· 2025-04-02 03:23

英伟达的成功因素 - 神经网络与并行计算的意外结合推动公司成为全球最有价值企业 [8][15] - CUDA平台将廉价显卡转化为高性能计算工具，为科学家提供开放平台 [11] - 长期坚持"零亿美元市场"策略，即使亏损10年仍专注服务小众科学客户 [12][14][19] - 2012年GPU训练神经网络速度提升1000倍成为关键转折点 [15] - 2014年果断转型为AI公司，仅用周末完成战略调整 [16][17] - 目前占据AI硬件市场90%以上份额 [18] 黄仁勋的领导特质 - 采用"光速"管理理念，设定理论极限速度并倒推执行 [20][21] - 从第一性原理出发，专注打造世界级计算机技术 [22] - 办公室设计为中央观察点，墙面布满战略规划可视化图表 [23][24] - 识别"一生一次机会"(OIALO)后全力投入AI领域 [25][26] - 扁平化管理结构，直接管理60名高管无中间层 [44] 技术战略与竞争优势 - 开发专用软件开发工具包为客户工作流程提速1000倍 [43] - 销售团队由博士级技术专家组成，深入量子物理等前沿领域定制解决方案 [43] - 研发人员占比60%，组织架构类似大型科学实验室 [47] - "全宇宙"计划构建现实模拟器训练机器人，降低实物损耗成本 [66][68] - 预测10年内机器人将普及并成为核心业务 [69] 人工智能行业观察 - AI仍处早期阶段但已在航班调度、医疗诊断等隐形领域产生价值 [3] - 电力需求成为关键瓶颈，单个GPU耗电量等同家庭用电量 [70] - 美国数据中心2028年用电量或达全国15%，台积电2030年用电量或达台湾25% [72] - AI代理订票等日常应用普及将验证投资回报 [63] - 缺乏顶尖AI程序员可能限制硬件性能发挥 [64] 组织文化与人才管理 - "痛苦与磨难"文化引导员工专注攻克最难技术问题 [13] - 75%员工来自美国以外地区，形成全球化人才网络 [46] - 通过技术梦想而非单纯财富激励顶尖工程师长期追随 [3][56] - 创始人兼具中国式勤奋与美国式冒险精神 [34][36][39] - 超强学习能力，3周掌握AI核心知识并超越专家 [28][29]

半导体行业观察· 2025-04-02 01:04

核心观点 - 索尼、IBM和东芝联合开发的Cell处理器旨在打破传统计算架构限制，构建高性能并行计算网络 [1][3] - Cell处理器采用创新的多核设计，理论性能远超同期产品，但面临编程复杂、功耗高、成本高等挑战 [8][11][13] - 尽管在游戏主机市场表现不佳，Cell在科学计算领域取得突破性应用 [16][17][18] - Cell架构的创新理念对后续GPU计算和异构计算发展产生深远影响 [21] 强强合作 - 2000年索尼联合IBM和东芝共同开发Cell处理器，IBM投资4亿美元设立设计中心和晶圆厂 [3][4] - 合作方分工明确：IBM提供100纳米SOI工艺授权，东芝使用自有100纳米工艺技术 [4] - 目标性能为每秒1万亿次浮点运算，未来计划达到1千万亿次 [3] 技术架构 - 核心采用64位PowerPC处理单元(PPE)作为控制中心，配备23级流水线和三级缓存 [8] - 8个协同处理单元(SPE)专为数据并行优化，每个具有256 KiB本地存储空间 [8] - 单元互连总线(EIB)采用四环结构，总带宽超过200 GB/s [9] - 采用非常规内存架构，SPE通过DMA操作访问主内存，使用Rambus XDR内存 [9] 产品化进程 - 2005年首批样品采用90nm工艺，集成32个SPE，峰值性能达1TFLOPS [11] - 量产版本调整为1个3.2GHz PPE和8个SPE(实际可用6个)，单精度浮点性能230 GFLOPS [12] - PS3搭载Cell处理器，但硬件成本高达805-840美元(售价499美元)，每台亏损严重 [13] 市场表现 - PS3因开发难度高、架构复杂、售价高昂(499美元)在主机市场竞争中处于劣势 [13] - 2006年IBM推出Cell Blade服务器系列，但2010年即停止支持 [16] - 2008年Cell架构超级计算机Roadrunner成为全球首台突破1 PetaFLOPS的超算 [16] - 2010年美国空军用1760台PS3组建"秃鹰群"超算，成本仅200万美元 [17] 技术影响 - SPE架构的并行计算思路为后续GPU计算模式(CUDA/OpenCL)提供灵感 [21] - 2007年PS3加入Folding@home项目，贡献1.2PFlops算力(占总量35%) [18] - 2012年IBM宣布停止Cell架构更新，2023年Linux内核移除对Cell的支持 [19]

深度｜英伟达黄仁勋：GPU是一台时光机，让人们看到未来；下一个十年AI将在某些领域超越人类的同时赋能人类

Z Potentials· 2025-03-01 03:53

回望来路：NVIDIA的技术演进路径 - 90年代通过解决游戏图形处理的并行计算需求，开创现代GPU架构，观察到10%代码完成99%可并行处理的关键技术突破[3][4] - 选择游戏作为突破口因市场规模庞大(预计成为最大娱乐市场)，形成研发投入与市场扩张的良性循环[5] - 2006年推出CUDA平台降低并行计算使用门槛，促使GPU应用从游戏扩展至医疗影像、科学计算等领域[7][8][9] - 2012年AlexNet在GPU上实现图像识别突破，验证深度学习潜力，推动公司全面转向AI计算架构重构[11][12][13] 当前技术革命的核心驱动力 - 两大核心信念：加速计算(CPU+GPU协同)的可扩展性、深度学习网络(DNN)对多模态数据的无限学习能力[17][18] - 计算效率8年内提升10,000倍，DGX-1(2016年)到当前原型性能提升6倍而能耗仅为1/10,000[31][32] - 物理限制突破方向聚焦能源效率，通过半导体工艺改进(与台积电合作)、冷却系统创新(液体/空气动力学设计)持续突破[36] 未来战略布局 - Omniverse+Cosmos构建物理世界数字孪生系统，实现机器人训练效率指数级提升(虚拟环境日训练量超物理世界数年)[22][24][25] - 三大重点领域：人形机器人(5年内商业化)、数字生物学(分子/细胞语言解码)、区域气候精准预测[37][38][39] - 生成式AI演进路径：从基础模型(如ChatGPT)→事实约束模型→物理世界模型(Cosmos)，解决AI幻觉问题[23][24] 产业影响与产品迭代 - GeForce RTX 50系列实现800万像素图像中仅需处理50万像素，AI补全剩余部分，图形处理效率提升16倍[43] - AI超级计算机从25万美元(DGX-1)降至3000美元消费级产品，推动AI研发民主化[44] - 预测所有移动物体将自动化(自动驾驶车辆、服务机器人等)，物理AI将重构物流、农业等产业[26][27] 技术哲学与创新方法论 - 坚持第一性原理：基于物理定律/数学限制推演技术路径，非短期市场导向[15][16] - 硬件设计保持通用性，反对固化特定算法架构(如Transformer)，保留支持未来未知创新的灵活性[33][34] - 创新"混合体"模式：30%用户需求(游戏开发者)+30%内部需求(虚拟世界物理模拟)+40%前沿研究启发(医疗影像)[7][8] 社会应用展望 - AI导师系统将降低各领域学习门槛，形成"人类+AI"的增强智能范式[41][42] - 工作范式变革：创意实现周期从周级缩短至分钟级，重复劳动近乎消失[41] - 安全体系构建：借鉴航空业三重冗余设计，建立AI安全社区架构应对偏见/幻觉/系统故障[29][30]