执行概要
日本宇宙航空研究开发机构(Japan Aerospace Exploration Agency,以下简称 JAXA)是统筹支持日本空间开发利用的核心机构。JAXA 超算系统 (JSS) 为其提供计算资源,支持 JAXA 进行该领域从基础研究到开发利用的所有工作。其前代 JSS2 高性能计算 (HPC) 系统名为 “SORA”(Supercomputer for Earth Observation, Rockets, and Aeronautics,即地球观测、火箭和航空超级计算机),由部署在多地的多个集群组成。
近期,JAXA 安装了一个名为 “TOKI” 的全新 JSS3 系统,并在该系统上托管了一个大内存通用 HPC 集群。TOKI-RURI 等集群均基于来自英特尔的 HPC 技术构建,搭载第二代英特尔® 至强® 金牌 6240 和 6240L 处理器,及英特尔® 傲腾™ 持久内存(英特尔® 傲腾™ PMem)。
JAXA 的 TOKI 平台亮点:
• 多个富士通 PRIMERGY RX2540 M5 服务器节点集群:包括 TOKI-RURI、TOKI-LI、TOKI-TRURI、TOKI-TLI
• 内置英特尔® 深度学习加速技术(英特尔® DL Boost)的第二代英特尔® 至强® 可扩展处理器
• 英特尔® 傲腾™ 持久内存
• 峰值性能达 1.24 PFLOPS (TOKI-RURI)
挑战
前代 JSS2 系统由部署在多地的多个集群组成。这些地点包括长府、筑波和角田航空中心,以及 JAXA 宇宙科学研究所的相模原校区。其主集群 SORA-MA 以及前后处理、大内存和登录集群位于东京的长府航空中心。
JSS2 SORA-MA 集群于 2016 年升级至 3.49 PFLOPS 的设备,但即便升级后,JAXA 的科学家们还是感到计算资源不足。对于涉及大规模并行运算的传统计算工作负载(如计算流体力学),科学家的计算需求仍无法满足。同时,该系统也无法支持人工智能 (AI) 和机器学习 (ML) 等新兴方法。其有限的电力容量也阻碍了现有系统的进一步扩展。AI 已经有了更新、更高效的技术支持,比如英特尔® 深度学习加速技术(英特尔® DL Boost)。此外,JAXA 旧存档集群的存储容量也已告急。要继续推进空间开发、探索、设计和实施,JAXA 需要获得面向 AI 的主流支持,并以更高性能的计算能力加强其计算工作负载。
解决方案
JSS3 TOKI 是一个多集群系统。由于其机架位于东京 (Tokyo) 和茨城县 (Ibaraki),因此得名 TOKI。Toki 在日语里还有 “时间和空间” 及 “解决方案” 的意思。此外,“Toki” 也是朱鹮的意思,这是一种在日本野生动物保护人士的努力下从灭绝边缘逐渐恢复的珍稀物种。对 JAXA 来说,TOKI 意味着新的机遇和新的发现。
富士通设计了 JSS3 TOKI,从而在该中心的可用电力资源条件下满足高性能计算需求。该全新系统旨在支持以下计算领域:
• 数值模拟,从而增强日本在航空航天领域的国际竞争力
• 大规模数据分析
• 新兴需求解决方案的研发
位于长府航空中心的 TOKI 包括以下集群:
- TOKI-SORA - 一个专用于支持 SORA 事务(如计算流体动力学,CFD)的大型高性能计算系统。
- 1.24 PFLOPS TOKI-RURI(全方位基础设施)- 一个基于富士通 PRIMERGY RX2540 M5 节点的通用超级计算机,搭载第二代英特尔® 至强® 金牌 6240 和 6240L 处理器。TOKI-RURI 托管通用节点 (TOKO-RURI GP),大内存节点 (TOKO-RURI LM), 每节点采用 1.5 TB 的英特尔® 傲腾™ 持久内存加上 192 GB 的 DRAM,以及极大内存节点 (TOKO-RURI XM),每节点采用 6 TB 的英特尔® 傲腾™ 持久内存加上 768 GB 的 DRAM。总内存容量为 104 TB。
- TOKI-FS(文件系统)- 同样基于富士通 PRIMERGY RX2540 M5 节点构建,节点搭载第二代英特尔® 至强® 可扩展处理器, 配置了 10 PB 的全闪存和 40 PB 的硬盘存储。
- TOKI-LI(登录系统)- 14 个富士通 PRIMERGY RX2540 M5 节点,搭载第二代英特尔® 至强® 可扩展处理器。
TOKI-TLI 和 TOKI-TRURI 是 JAXA 筑波航空中心 JSS3 资源的一部分,位于日本茨城县筑波市,两者也都包含搭载英特尔® 至强® 处理器的 PRIMERGY RX2540 M5 服务器。
结果
TOKI-RURI 的大内存节点采用了英特尔® 傲腾™ 持久内存,可提供更好的性能和容量,以支持 JAXA 所依赖的商业独立软件提供商 (ISV) 应用和高度可移植的工作负载。这些应用包括 Ansys ICEM CFD、Fluent 和 Chemkin,以及 FieldView、CRUNCH CFD、 Siemens STAR-CCM+、Metacomp Technologies、CFD++、 Dassault Systemes ABAQUS CAE 和 Mechanica。
表 1. 位于长府航空中心的 TOKI-RURI 系统 (https://www.jss.jaxa.jp/mediadir/2020/11/JSS3SystemCon_guration02_202012_landscape.jpg)
TOKI RURI:通用系统(RURI:全方位基础设施) |
|||
---|---|---|---|
节点 | 平台 | 节点数 | 处理器(双路)内存 |
ST | 富士通 PRIMERGY RX2540 M5 | 375 | 第二代英特尔® 至强® 金牌 6240 处理器,192 GB DIMM |
GP | 富士通 PRIMERGY CX2570 M5 | 32 | 第二代英特尔® 至强® 金牌 6240 处理器,192 GB DIMM |
XM | 富士通 PRIMERGY RX2540 M5 | 2 | 第二代英特尔® 至强® 金牌 6240L 处理器,6 TB 英特尔® 傲腾™ 持久内存,768 GB DRAM |
LM | 富士通 PRIMERGY RX2540 M5 | 7 | 第二代英特尔® 至强® 金牌 6240 处理器,1.5 TB 英特尔® 傲腾™ 持久内存,192 GB DRAM |
对于 HPC 工作负载,JAXA 的计算科学家们使用面向 HPC 的 英特尔® 软件工具来帮助优化这一全新超级计算机的性能。oneAPI 是一种基于标准的开放统一编程模型。借助第二代英特尔® 至强® 可扩展处理器,科学家们便可利用包括 oneAPI 在内的全新软件 开发方法,以简化跨 CPU、GPU、FPGA 和其他加速器的以数据为中心的工作负载开发和部署。
JAXA 超算部门的经理 Naoyuki Fujita 解释说:“JAXA 的科学家们正在利用英特尔® 高级矢量扩展 512(英特尔® AVX-512)和英特尔® 深度学习加速技术,以及英特尔® oneAPI 基础工具套件和英特尔® oneAPI HPC 工具套件,从而有效地开发更广泛领域的应用。”
英特尔® oneAPI 基础工具套件包含一组核心的工具和库,用于跨不同架构开发高性能、以数据为中心的应用。它采用了行业主流的 C++ 编译器和数据并行 C++ (DPC++) 语言,后者是面向异构计算的 C++ 升级版。英特尔® oneAPI HPC 工具套件是对于基础工具套件的一个附加组件。其中增加了英特尔® 分发版 Python*、英特尔® oneAPI DPC++/C++ 编译器、功能强大的以数据为中心的库和高级分析工具。
在 TOKI 准备投入生产的过程中,基准测试表明,该系统的性能可满足 JAXA 用户基于五种内部工作负载和传统基准测试的需求,包括:HINOCA(燃烧仿真)、FaSTAR(高效 CFD 工具)、UPACS(流体分析软件)、P-FLOW(移动粒子仿真)和 LS-FLOW(CFD 代码)。
英特尔® 傲腾™ 持久内存加速非并行工作负载
JAXA 的许多应用都是针对大型 HPC 集群的高度并行化分布式计算工作负载。而剩余的则是尚未并行化的程序,或是高度串行化、无法并行的应用。TOKI-RURI 大内存 (LM) 和极大内存 (XM) 节点运行速度更快,可用于加速这些应用。这些节点可提供高性能和低成本,满足串行程序和大容量内存的需求。
Fujita 表示:“有了全新的 TOKI 系统,JAXA 为针对地球观测数据处理、遥感和气候变化预测的研究带来了创新力量。有了英特尔® 深度学习加速技术和英特尔® 傲腾™ 持久内存的助力,JAXA 将能够加速这些领域的研究。”
解决方案总结
- 多个富士通 PRIMERGY RX2540 和 CX2750 M5 服务器节点集群:TOKI-RURI、TOKI-TRURI 和 TOKI-LI
- 第二代英特尔® 至强® 金牌 6240 和 6240L 处理器
- 英特尔® 傲腾™ 持久内存(大内存节点中每节点 1.5 TB,极大内存节点中每节点 6 TB)
- 峰值性能达 1.24 PFLOPS
了解关于英特尔® 至强® 可扩展处理器的更多信息。