执行概要
根据阿根廷科技创新部等部门推出的联合计划,阿根廷将打造更为强大的科学计算 系统,供学术研究之用。这一 15.7 PFLOPS 系统将设在阿根廷国家气象局 (Servicio Meteorológico Nacional, SMN) 数据中心,并由该数据中心进行管理,为阿根廷以及整个拉丁美洲和加勒比海地区的科研人员提供计算支持。该系统将于 2023 年年中部署。部署完成后,它还将利用 GPU,为阿根廷国家气象局开发新一代气象建模代码提供平台。
这一新系统是在拉丁美洲部署的全新科学计算平台,它基于集成高带宽内存 (HBM) 的英特尔® 至强® CPU Max 系列,以及英特尔面向科学计算的新一代 GPU 英特尔® 数据中心 GPU Max 系列。新系统的设计性能比阿根廷国家气象局现役科学计算系统 Huayra Muyu 高出 40 倍,预计今年下半年它将跻身 Top500.org 榜单前 100 名。
挑战
阿根廷运用科学计算的历史由来已久,最早可以追溯到 1960 年的 Clementina。如今,阿根廷已拥有众多学术研究和公共服务系统。在这些计算高度密集的系统中,就包括 阿根廷国家气象局用于数值天气预报的科学计算系统 Huayra Muyu。Huayra Muyu 于 2019 年部署在阿根廷国家气象局布宜诺斯艾利斯数据中心。它使用气象研究预测 (WRF) 模型进行集合预报 (ensemble forecast) 和建模。阿根廷国家气象局使用的 WRF 代码是围绕 CPU 而设计的。
过去五年中,CPU 和 GPU 内的计算技术取得了多项进步。除此之外,由阿根廷科技 创新部等部门主导的科学计算计划致力于将阿根廷打造成为拉美地区新的计算大国。
阿根廷科技部 (MinCyT) 国家科学计算系统 (SNCAD) 协调员 Pablo Mininni 表示, 2019 年该组织对阿根廷国内的科学计算现状进行了调查。结果显示,阿根廷的计算能力只能满足该国科研人员 10% 的计算需求。这促使阿根廷成立了国家计算中心,向全国的科研人员输送科学计算能力。该中心将成为国家科学计算系统众多计算中心的“领头羊”。
该中心首次部署的便是基于英特尔® 至强® CPU Max 系列和 英特尔® 数据中心 GPU Max 系列构建的性能出色的科学计算系统。 15.7 PFLOPS 系统不仅将是拉美地区两大性能令人瞩目的科学计算系统之一,还将满足学术科研对计算资源与速度的需求。
解决方案
“阿根廷国家气象局在国际招标中使用基于实际科学计算应用和实际工作负载的基准测试评估了多个不同的解决方案,”Mininni 解释道。
该系统(尚未命名)由联想打造,拥有 5,120 个 CPU 内核和 37,888 个 GPU 内核。它将包含以下前沿技术:
- 基于英特尔® 至强® CPU Max 系列构建的 440 TFLOPS 分区
- 基于 296 个英特尔® 数据中心 GPU Max 系列产品的 15.3 PFLOPS 分区
- 直接液冷
- 1.66 PB 内存
- 400 Gbps In_niBand 网络
新系统将部署于阿根廷国家气象局布宜诺斯艾利斯数据中心。
“该系统旨在支持阿根廷公共科研界与运行应用的机构(例如阿根廷国家气象局)之间的合作,”Mininni 补充道。
阿根廷国家气象局目前使用 WRF 模型在其 Huayra Muyu 科学计算系统上每三个小时运行一次天气预报工作负载。新系统基于英特尔® 至强® CPU Max 系列的 440 TFLOPS 分区将为阿根廷国家气象局提供额外的资源来运行 WRF 代码,并利用 CPU 支持其他学术研究。预计新系统可帮助阿根廷国家气象局提高天气预报的频率和准确率。
“除了作为运行现有天气模型的替代方案之外,新系统还将成为在新一代科学计算系统上探索天气模型演进情况的试验场。”阿根廷国家气象局技术基础设施与数据总监 Pablo Loyber 补充道。
阿根廷国家气象局目前正在研究用基于英特尔® 至强® 数据中心 GPU 的新系统来运行跨尺度预测模型 (Model for Prediction Across Scales, MPAS) 微观物理代码。跨尺度预测模型是一个开发大气、海洋和其他地球系统仿真组件,用于气候、区域气候和天气研究的合作项目1,其贡献者包括洛斯阿拉莫斯国家实验室气候建模小组 (COSIM) 和美国国家大气研究中心 (NCAR)。
“我们的想法是利用 GPU 进行天气预报,支持生产活动,同时为阿根廷整个科研界提供资源,”Mininni 表示。他还指出,“我们发现,使用联想的配置后,WRF 模型的速度比使用阿根廷国家气象局的软件配置时提高了 20% 以上,而且该系统无需进行额外优化。这的确是个好消息。”
结果
新系统的计算能力是现役 Huayra Muyu 科学计算系统的 40 倍, 远超公共科研人员当前可用的计算系统。
关键组件 | Huayra Muyu | 新系统 |
---|---|---|
平台信息 | 天气预报操作系统 | 科研系统。阿根廷国家气象局会将其中 10% 的算力用于研究新的预测模型。 |
系统数量 | 128* | 80 |
名称 | ThinkSystem SD530 | 联想 ThinkSystem SD650v3 |
BIOS | 3.41 | 3.41 |
处理器信息 | 英特尔® 至强® 金牌 6142 CPU @ 2.60 GHz | 英特尔® 至强® CPU Max 系列 |
CPU 数量 | 2 | 2 |
启用/禁用超线程 | 启用(未使用) | 启用(未使用) |
启用/禁用睿频 | 启用 | 启用 |
内存 | DDR ECC | HBM2e + TruDDR5 |
总内存/系统(DIMM 数量 x 容量) | 128G (16 x 8G) | 64G (HBM) + 512 (DDR5) |
传输速率 | DDR4 (2666 MHz) | TruDDR5 4800MHz |
操作系统/内核 | Red Hat Enterprise Linux Server 7.9 (Maipo)/Linux 3.10.0 | Red Hat Enterprise Linux Server 7.9 (Maipo)/Linux 3.10.0 |
应用版本 | WRF 模型 3.8.1 版 | WRF 模型 3.8.1 版/MPAS Atmosphere 8.0.0 |
库 | - HDF5 1.8.14 - NetCDF 4.3.3.1 - PNetCDF 1.6.0 |
PGI 19.10 编译器 zlib 1.2.11 HDF5 1.10.5 PnetCDF 1.12.1 netCDF-C 4.6.3 netCDF-Fortran 4.5.2 PIO 2.4.4 |
测试日期 | 2018 年 5 月 | 2023 年 5 月 |
* Huayra Muyu 有 128 个节点,但基准测试是使用 120 个节点对模型的 典型运行周期进行仿真。 |
“英特尔® 至强® CPU Max 系列为数值天气预报提供出色性能,” Mininni 称,“它无需调优,即可比其他 CPU 至少快 20%。至于 GPU,使用分子动力学软件对其进行基准测试的结果也优于其他选择,单个 GPU 的计算性能达到 TFLOP 级,非常出色。”
这为阿根廷的公共科研事业提供了更为强大的计算能力。Loyber 补充道:“我们预计,使用英特尔® 数据中心 GPU Max 以及与 GPU 兼容的跨尺度预测模型天气预报软件会大幅提升预测速度。”
“在设计系统的计算能力 (FLOPS) 时已经考虑到了科研界的需求,” Mininni 解释道。“很多用户都已经使用过 CPU 和 GPU。他们有国际合作,并且习惯于使用科学计算系统。但这(15.7 PFLOPS 系统)是一项新技术。我们必须帮助他们迁移到新系统。这会是一个挑战,但也将是很好的契机,因为它提供的算力对多数用户来说都很有吸引力。”
天文、物理、化学、生命科学和人工智能等领域的科研人员可能会率先使用全新英特尔® 至强® 数据中心 GPU Max 系列来运行他们的代码。而物理、天文等科学领域的其他用户则会希望在新的 CPU 上运行他们的应用。
“根据我看到的基准测试以及我自己能够完成的一些测试,我 觉得他们会对 CPU 中的高速内存非常满意,”Mininni 评论道。 “我相信他们会发现自己的代码明显更快了。”
解决方案总结
为服务未来,阿根廷建立了国家计算中心为全国的科研人员提供科学计算资源。该中心将首次部署由联想设计并以集成高带宽内存的英特尔® 至强® CPU Max 系列和英特尔® 数据中心 GPU Max 系列为基础构建的 15.7 PFLOPS 系统。新系统将由阿根廷国家气象局托管并管理,但只有 10% 的系统算力会专用于运行阿根廷国家气象局的 WRF 代码,余下 90% 的算力将供高校及业内公共科研人员使用。
获取更多信息
解决方案组成部分
- 5,120 个英特尔® 至强® CPU Max 系列内核
- 37,888 个英特尔® 数据中心 GPU Max 系列内核
- 峰值性能达 15.7 PFLOPS
- 支持学术研究等领域的计算需求