地球系统模拟
搜索文档
付昊桓教授:超智融合赋能地球模拟,洞见未来气候轨迹丨GAIR 2025
雷峰网· 2025-12-23 06:31
文章核心观点 - 超算性能的突破与人工智能的深度融合,正推动全球气象预报从“风云莫测”走向“变幻可测”,实现更高时空分辨率的模拟与预测 [2] - 数值计算与人工智能的深度融合是超算领域的核心发展方向,旨在从根本上改变理解和预测复杂地球系统及其他科学领域的能力 [92] - 超算与智算(AI计算)的思维模式高度相似,都需聚合最强算力以实现技术突破,并高度依赖自动化工具、性能、效率、规模与稳定性 [4][89] 超算在地球系统模拟中的应用与重要性 - 超算的传统使命是用整机资源解决单一核心问题,地球系统模拟是其经典应用,因为科学家无法在真实地球上进行实验,必须构建数字孪生模型来研究气候变化、防灾减灾等重大问题 [9] - 地球系统模式对于支撑全球气候变化研究、国际气候谈判以及可持续发展具有重要意义 [9] - 国产超算系统(如神威系列)性能的增长,支撑了地球系统模式时空分辨率的显著提高,例如已实现在约1公里分辨率下达到接近“模拟一年,耗时一天”的速度 [4][66] - 提升模式时空分辨率(例如目标将深圳气象模式提升至100米)和利用AI方法融合海量观测数据,是降低模型不确定性的两大方向 [11] 国产超算的发展历程与成就 - 神威系列超级计算机实现了从依赖国外架构到全国产化的跨越:神威·蓝光是第一台完全采用国产处理器的超算;神威·太湖之光则是首台凭借全国产处理器获得世界第一的超算,也是全球首台峰值性能超过100 Pflops(十亿亿次浮点运算/秒)、并行规模达一千万核的机器 [17][18] - 在神威·太湖之光上,团队开发了200多个可扩展到百万核并行的应用,以及50余项可充分利用整机的新应用,涵盖地球系统模拟、工业仿真、生物医药、量子计算等多个领域 [20][21][22] - 神威超算系列有10余项应用入围国际高性能计算最高奖“戈登·贝尔”奖,其中3项获奖 [21] - 基于神威·太湖之光,团队生产了全球首套约750年的高分辨率气候模拟数据供国际使用 [45] 超算与AI融合面临的挑战 - 挑战一:时空分辨率提升带来算力需求的指数级增长,同时超算架构正从同构多核向GPU等异构架构变革,如何解决复杂模型与新机器架构的适配问题是一大挑战 [11][13] - 挑战二:如何利用AI方法高效融合千余颗卫星产生的海量多源观测数据 [11][14] - 挑战三:科学计算程序复杂(如百万行代码),移植、优化与重构工作艰巨,且需要程序能在全机规模稳定运行数月,对系统稳定性要求极高 [27][29] - 挑战四:交叉型人才匮乏,既懂特定科学领域(如气象)又懂高性能计算(HPC)的人才稀缺,且这类人才容易被大模型公司挖走 [29][74] 技术进展与突破 - 通过代码重构、优化及针对国产处理器架构的重新设计,成功将复杂的地球系统模式移植到神威超算上,并实现了高效扩展 [27][33][37] - 采用“非侵入式的代码并行化方案”等自动化工具,大幅提升了移植和优化效率,例如在2023年的一次移植探索中,仅用三周就将代码性能从每天模拟约5天提升到每天模拟半年(在全球5公里大气、3公里海洋分辨率下) [50][52] - 2024年,通过引入AI能力,实现了AI增强的全球1公里分辨率“无缝隙天气气候模式”,可同时用于短时天气和长期气候研究 [52] - 在神威·海洋之光(太湖之光架构的演进)上,进一步探索公里级模拟,其处理器核组数从4个增至6个,存储和计算性能得到提升 [47][48] - 最新工作集成了大气、海洋模拟与AI能力,开发了“AI驱动的高性能便携式地球系统模型”,并入围2024年戈登·贝尔奖气候建模类别最终提名 [69] 未来展望与重点项目 - 国家超算深圳中心二期即将上线,其计算性能实现巨大飞跃:预期Linpack持续测试性能达到双精度2 EFlops(两百亿亿次浮点运算/秒),单精度4 EFlops,若换算为INT 8计算,整机可支持32 EFlops,理论峰值约40 EFlops [76][79] - 深圳超算二期(传统超算)将与鹏城云脑三期(AI超算)背靠背放置并通过高速光纤互联,这种大规模传统超算与AI超算相连的模式在全世界可能也属首例 [76] - 计划在深圳超算二期上尝试构建千万核可扩展的、公里级的中国区域海陆气候模式预测系统,核心目标之一是解决汛期降水预报的难题 [84][85] - 计划在深圳推进构建“国产新一代数值智能双驱动大湾区百米级气象预报系统”,包括百米级高精度数值模拟、AI辅助的集合预报与数据同化技术 [87] 行业生态与供需思考 - 超算与AI算力的发展逻辑相似,都需要通过高速互联形成庞大计算资源以求解复杂问题,并需要高度并行可扩展的算法及匹配的模型复杂度 [72] - 与AI领域相比,科学计算领域存在代码复杂、并行难度高、演进缓慢、公开数据集少、软件生态不完善、人才培养周期长等挑战 [74] - 当前算力投入需关注软硬件协同,国产算力生态(特别是基础框架软件)的投入相对硬件投入可能不足,需要更多资源来建设,类似英伟达CUDA生态的长期投入 [95] - 从科研从业人员角度看,算力可能仍然不足,但从产业发展角度的供需情况难以准确判断 [96]