近日,学部地球系统模式团队吴其重课题组在前期CPU+GPU异构计算模式研发工作的基础上,联合河南省生态环境监测和安全中心、国家超算郑州中心以及中国科学院大气物理研究所等科研团队,引入AMD ROCm-HIP架构的GPU加速卡,在国家超算郑州中心高性能计算集群开展不同体系架构大气化学数值模式应用和优化研发工作。研究结果表明:1)大气化学数值模式平流模块在海光DCU上获得了28.9倍加速,且模拟区域计算规模越大,加速卡相对于通用处理器计算效率提升越明显。2)离线和耦合计算结果对比试验验证表明,在AMD ROCm-HIP架构的加速卡上获得了比NVIDIA CUDA架构GPU加速卡上更高计算准确度,大气化学数值模式结果如图1和图2所示,这也表明了当前不同系列GPU及其编程模型在科学计算领域存在计算准确度差异。据悉,我国地球系统数值模拟装置、多个国家级超算中心和全球最快的Frontier超算都采用了AMD ROCm-HIP架构的加速卡。
这一成果以“GPU-HADVPPM4HIP V1.0: using the heterogeneous-compute interface for portability (HIP) to speed up the piecewise parabolic method in the CAMx (v6.10) air quality model on China’s domestic GPU-like accelerator”为题,发表在《Geoscientific Model Development》,best365官网登录入口已毕业的曹凯博士为该论文第一作者。工作得到了国家重点研发计划课题(2020YFA0607804)、国家超级计算郑州中心创新生态系统建设科技专项项目(201400210700)和光合基金项目(202302017828)联合资助。
图 1 不同计算架构下CAMx模式输出的大气成分模拟结果:左边第一列为基准Fortran版本模式结果、第二列为英伟达GPU体系CUDA版本模式结果,第三列为AMD GPU体系HIP版本模式结果,第四列为基准和CUDA版本差异,第五列为基准和HIP版本差异
图 2 不同计算架构下CAMx模式输出的大气成分(PSO4, PNO3, PNH4, O3, CO, and NO2)模拟结果差异
[1] Cao, K., Wu, Q.*, Wang, L.*, Guo L., Wang N., Cheng H., Tang X., Li D., Liu L., Li D., Wu H., and Wang L.*: GPU-HADVPPM4HIP V1.0: using the heterogeneous-compute interface for portability (HIP) to speed up the piecewise parabolic method in the CAMx (v6.10) air quality model on China’s domestic GPU-like accelerator, Geoscientific Model Development, 17, 6887-6901, 2024.
[2] 空气质量模式运行方法、装置、存储介质及电子设备,ZL 2023 1 1221586.X;
[3] Cao, K., Wu, Q.*, Wang, L.*, Wang, N., Cheng, H., Tang, X., Li, D., and Wang, L.*: GPU-HADVPPM V1.0: a high-efficiency parallel GPU design of the piecewise parabolic method (PPM) for horizontal advection in an air quality model (CAMx V6.10), Geosci. Model Dev., 16, 4367–4383, 2023.