系统工程
搜索文档
SemiAnalysis深度解读TPU--谷歌(GOOG.US,GOOGL.US)冲击“英伟达(NVDA.US)帝国”
智通财经网· 2025-11-29 09:37
行业竞争格局变化 - 谷歌TPU的全面商业化使英伟达在AI算力市场的定价权出现松动,其高达75%的毛利率面临挑战[1] - 谷歌从云服务商转型为直接向外部出售高性能芯片与系统的商用芯片供应商,Anthropic的采购标志着这一战略转变[1][4] - 谷歌TPU已获得包括Anthropic、Meta、SSI、xAI等顶级AI实验室的采购意向,客户名单不断扩大[4][29] 具体交易与成本优势 - Anthropic确认将部署超过100万颗TPU,交易总价值巨大,其中首批40万颗TPUv7由博通直接出售给Anthropic,价值约100亿美元,剩余60万颗通过谷歌云租赁,涉及剩余履约义务高达420亿美元[4][42] - 谷歌TPUv7在总拥有成本上对英伟达构成显著优势,从谷歌内部视角看,TPUv7服务器的TCO比英伟达GB200服务器低约44%,即便加上利润,外部客户通过GCP使用TPU的TCO仍比购买GB200低约30%[7][64][67] - 具体成本数据显示,GB200 NVL72每小时每GPU总成本为2.28美元,而TPU v7外部版本为1.60美元,TPU在每FP8 PFLOP的TCO上优势明显[66] 技术系统与架构优势 - 谷歌通过极致的系统设计弥补单芯片理论算力的不足,TPUv7采用3D Torus拓扑结构和自研光互连技术,单个集群可扩展至9,216颗芯片,远超英伟达常见集群规模[12][15][17] - 光路交换机技术允许动态重构网络拓扑,实现毫秒级故障绕过和高可用性,同时降低功耗和延迟[15][17][101] - 系统级优势使得TPU在实际模型训练中实现更高的算力利用率,有效FLOPs可能超过英伟达Blackwell[69][72] 软件生态战略调整 - 谷歌积极拥抱开源,软件团队KPI从服务内部转向支持外部,全力支持PyTorch Native在TPU上运行,降低开发者迁移门槛[19][20][141] - 通过XLA编译器直接对接PyTorch的Eager Execution模式,并向vLLM、SGLang等开源推理框架贡献代码,提升TPU在开源生态中的兼容性[20][145][146] - 软件生态的开放旨在填平英伟达的CUDA护城河,为外部客户提供更平滑的过渡体验[22][142] 金融与商业模式创新 - 谷歌创新性地提供资产负债表外的信贷支持,承诺为中间商的数据中心租金兜底,解决了AI基础设施建设的期限错配问题,打通了加密货币矿工与AI算力需求之间的堵点[9][43][46] - 这种“超大规模厂商兜底”的金融工具成为Neocloud市场的新融资标准模板,推动了行业增长[46][47] - 在定价策略上,谷歌通过平衡自身盈利和客户竞争力,即使作为外部供应商,其TPU交易的息税前利润率仍优于许多大型GPU云交易[79][80]
记者手记:细致与创新 中国航天的腾飞密码
新华社· 2025-08-01 12:47
长征八号甲运载火箭首飞 - 长征八号甲运载火箭在海南商业航天发射场成功首飞 这是该火箭与发射场的首次合作 [2] - 任务面临"新发射场、新工位、新地面设备、新搭档"等多重挑战 [2] - 长征八号系列运载火箭发展历程:2020年首飞成功 2022年新构型首飞 2024年首次执行探月轨道发射任务 2025年长征八号甲首飞 [2] 航天任务管理 - 试验队采用三级规程编制体系:试验任务级、测试项目级、具体操作级 [4] - 规程细致程度相比传统型号提高5到10倍 每个系统规程达1000-2000页 [4] - 开展远程测试网建设 实现测试数据实时回传北京进行联合判读 [5] - 优化测试流程:将手动流程改为自动测试流程 减少人为操作风险 [5] 质量控制措施 - 在关键操作前进行多媒体记录 并由专人确认后再继续 [5] - 伺服机构增加"连锁条件" 必须在控制器正常加电后才能启动 [5] - 规程审查流程:发射场前征求专家意见 到达后进一步审查优化 [4] 航天技术创新 - 采用创新方法应对新环境 强调95%协调加5%工程的系统理念 [5] - 远程测试网建设为未来高密度发射奠定基础 可减少前方人员规模 [5] - 动力系统规程编写极为细致 多次用完打印机墨 [4]
昇腾“算力突围战”:让中国算力训练出全球一流模型
第一财经· 2025-06-18 12:16
华为芯片研发进展 - 公司采用"数学补物理、非摩尔补摩尔、群计算补单芯片"的系统工程方法弥补单芯片工艺落后问题,实现实用化效果 [1][4] - 通过算法优化、硬件堆叠与生态协同的创新路径突破算力瓶颈,形成中国特色的解决方案 [2][13] - 创始人提出"不去想困难,干就完了"的务实研发态度 [3] 系统工程方法论 - 借鉴钱学森系统工程思想,将研究对象视为整体进行综合管理,通过整体优化弥补单点落后 [4] - 组建跨部门"大杂烩"团队,在散热/供电/高速/高密等工程领域实现极限突破 [5][6] - 86个实验室形成技术支柱,通过跨部门作战实现"根深叶茂"的技术协同效应 [7] 算力技术突破 - 开发CloudMatrix 384超节点技术,实现384张昇腾卡集群,单体规模全球最大 [11] - 超节点技术将机器间通信延迟从2微秒压缩至200纳秒,整体效能逼近理论极值 [13] - 采用自适应流水掩盖策略等技术,使万卡集群预训练MFU从30%提升至41% [9][10] 大模型研发成果 - 盘古72B大模型以720亿参数实现千亿级性能,获国内千亿内模型并列首位 [9] - 推出7180亿参数的盘古Ultra MoE模型,全流程在昇腾平台训练 [9] - 实验室数据显示MoE大模型训练MFU达45%,超越行业30%平均水平 [10] 架构创新 - 突破冯诺依曼架构限制,创新提出"全对等高速互联架构" [15] - 通过光通信技术将互联带宽提升15倍,实现资源池化与超级并行 [14] - 芯片堆叠技术积累十几项核心专利,完成2D到3D架构跃迁 [14] 生态建设 - 逐步开放底层技术,支持DeepSeek MoE/千问/Llama等开源模型 [18] - 核心算子从十万级缩减至几百个,快速补齐高质量基础算子 [18] - 推动算法主导权向垂直领域专家转移,加速AI行业落地 [20] 行业影响 - 推动算力竞争从"芯片制程竞赛"转向"系统架构革命" [13] - 终结全球算力焦虑,使算力从"奢侈品"变为"自来水" [11] - 证明国产算力能训练全球一流大模型,缩小与海外代际差距 [11][13]
用“系统工程”打破算力封锁 昇腾的另类突围路径
每日经济新闻· 2025-06-17 05:56
昇腾算力技术突破 - 昇腾384超节点已开始发货,这是目前业界规模最大的超节点,由384颗昇腾AI芯片组成集群,提供高达300 PFLOPs的密集BF16算力,性能接近英伟达GB200 NVL72系统的两倍 [1] - 华为通过系统工程方法优化计算、内存、通信调度,实现算力超越,内部组织算力会战整合各领域专家能力 [1] - 昇腾超节点采用全对等高速互联架构,打破传统以CPU为中心的冯诺依曼架构,扩展总线至整机柜甚至跨机柜 [7] 国产算力发展背景 - 美国对华芯片出口管制持续加码,影响英伟达约55亿美元的季度费用 [2] - 昇腾算力战略意义远超商业价值,正从被迫替代转向主动选择 [3][5] - 昇腾计算产业已发展为包括芯片、硬件、CANN、AI计算框架等全产业链体系 [4] 技术架构创新 - 采用自有标准"全对等互联架构",统一通信协议提升有效载荷,打造基于中国标准的解决方案 [8] - 引入光通信技术,使用3168根光纤和6912个400G光模块实现跨机架纵向扩展 [8] - 解决散热难题,采用液冷散热方案和高效风冷方案,研发微结构材料提升热传导效率 [8] 软件生态建设 - 华为CANN平台快速补齐高质量基础算子,核心算子从数万个收敛至数百个 [10] - 提供Day0迁移和一键部署工具链,支持客户采用混合策略逐步迁移至昇腾平台 [10] - 组建"小灵巧突击队"深入客户现场提供技术支持 [6] 能耗与性能平衡 - 昇腾384超节点功耗达英伟达NVL72的4.1倍,每FLOP功耗高出2.5倍 [11] - 国内电力供应相对充裕,无需受限于能耗约束 [11] - 将持续通过技术进步改进能源消耗,构筑AI时代核心竞争力 [11] 行业影响与意义 - 昇腾384超节点打破了国产算力"无法训练大模型"的质疑 [12] - 构建了英伟达之外的可靠第二选择 [12] - 开辟了不同于西方的创新路径,通过系统工程实现规模算力领先 [12]