执行概要
法国国家航空航天科研局(ONERA)的任务是寻找提高行业竞争力、保护环境和提高航空航天器安全性的解决方案,因此对高性能计算资源有着极高的要求。尽管有七个科学部门共用这些系统,但涉及计算流体动力学和能量学(CFDE)的两个部门(空气动力/气动弹性/声学部和针对能源方向的多元物理场部)占用了该组织将近 95% 的 CPU使用率。更重要的是,法国国家航空航天科研局的所有 CPU 运行的都是专有代码,因此法国航空航天实验室特别热衷于了解新兴技术,以寻找更好的软件架构。2015 年,又一个定期升级周期到来,法国国家航空航天科研局开始考虑更换原来的主要生产机器 Stelvio。
挑战
自成立以来,法国国家航空航天科研局一直对高性能计算系统有着极高的需求。“我们内部安装过所有矢量超级计算机,包括 CRAY 1S、X-MP、Y-MP 和 C90 系统,以及 NEC SX-4 和 SX-8 系统。”法国国家航空航天科研局高性能计算特别顾问 Alain Refloch 解释道,“我们的第一台超标量超级计算机是 2006 年安装的、搭载英特尔® 安腾® 处理器的 Novascale Bull 计算机 [528 个内核,3.4 Tflops]。早在 1996 年,我们就与英特尔合作安装了配备 i860 处理器的英特尔® Paragon XP 系统。”2015 年,法国国家航空航天科研局发布了一份征求建议书(RFP),以取代其基于英特尔® 至强® 处理器的 SGIICE 8200 超级计算机—Stelvio 系统。
在考虑如何用新型生产系统更好地满足用户需求和处理需求方面,法国国家航空航天科研局的主要诉求是更强的处理能力和架构一致性。Refloch 表示:“我们打算采用 x86 架构,以尽可能地降低移植成本。使用 ONERA 代码的行业合作伙伴使用的也是 x86 架构,因此这其实是一个相当简单的决定。在评估各种选项时,我们最关心性价比。”
Refloch 解释说,法国国家航空航天科研局所有七个科学部门的研究人员在进行各种研究时都需要使用这些系统。“例如,电磁学和雷达部门依靠我们的系统来研究电磁兼容性(EMC)和隐形等问题,物理部门需要进行大量的闪电相关研究,”Refloch 说道,“但就目前而言,这些系统的最大用户是计算流体动力学和能量学部门。”
新型计算机主要用于多元物理学研究。为此,有必要对数值方法开展一番研究,以稳定、保守的方式耦合多元物理系统,从而产生可靠的物理结果。未来十年内,多元物理场工具和流程必将取得重大进展。
因此,法国国家航空航天科研局多元物理仿真平台的基础设施应该允许不同的物理学研究机构在网格管理、耦合技术、并行性、通信调度、插值、误差估计和 UQ 软件、数据管理工具、可视化和 I/O 以及弹性等方面展开合作。
考虑到法国国家航空航天科研局研究项目的多样性以及不同部门的专业需求,该科研局还计划部署一种新的集中式开发系统,其架构与新型超级计算机相同,也包含专用节点。
解决方案
采购新系统时,法国国家航空航天科研局根据法国公共采购规定发布了征求建议书。实验室根据技术考虑因素、基准测试结果以及支持和服务价格的组合做出了最终选择。“所有提案都基于英特尔® 处理器,这并不令人意外。”Refloch 评论道,“各个提案的主要区别在于处理器内核数量和处理器频率。”从举行第一次会议起草征求建议书到新系统部署完成,总共花费了该技术小组大约一年的时间。
对于新的生产系统(名为 Sator),法国国家航空航天科研局选择了搭载英特尔® 至强® 处理器(每个处理器有 14 个内核)的 NEC HPC1812 Rg 2 服务器。该系统总共包含 17,360 个内核, 并采用 100Gbps 的英特尔® Omni-Path 架构。2017 年 6 月, 该系统实现了 579.2 TFlops 的 Linpack 性能和 667 TFlops 的理论峰值性能,成为 TOP500 排行榜上排名第 341 位的系统1。(在 2017 年 11 月的 TOP500 排行榜中,Sator 下降至第 473 位2)。“Linpack 数值中的 0.2 非常重要,因为目前在 579 到 580 Tflops 之间有三个站点。”Refloch 说道。
图 1. 法国国家航空航天科研局的 NEC HPC1812 Rg 2 系统(被命名为 Sator)。
除了内部资源以外,法国国家航空航天科研局还使用法国国家高性能计算中心(GENCI)的高性能计算资源开展研究,通过一个预备项目来访问欧洲高级计算合作伙伴计划(PRACE)资源进行百万兆级运算,并且还可以访问计算研究与技术中心(CCRT)的资源。
开发系统也使用了英特尔® Omni-Path 架构。在该系统中,英特尔® OPA 连接了 38 个计算节点,每个端口支持高达 100 Gbps。 另外 94 个计算节点使用3 Gbps 以太网* 进行连接。除了每年增加新节点以跟随处理器的发展,法国国家航空航天科研局还为网络文件服务器添加了六个节点,为连接添加了七个节点。
该新型集中式开发机器为法国国家航空航天科研局带来了诸多优势,例如降低维护要求和成本。最重要的是,它为法国国家航空航天科研局的所有开发团队提供了对专用节点的通用访问,除了执行非回归测试外,还为测试验证案例提供了充足的计算能力。对于计算流体动力学和能量学开发团队来说,共享相同的机器和开发工具可将所有人更紧密地联系在一起,这对于推进法国国家航空航天科研局的计算流体动力学和能量学软件路线图以及向流体动力学和能量学通用平台转变的目标至关重要。
虽然便捷性和性能是新系统的首要考虑因素,但为了拥有更集中化的开发机器,还包括以下目标:
· 降低维护成本;
· 提供充足的计算能力来测试有关案例验证的开发工作,而不仅仅是非回归测试;
· 最重要的是,要使所有开发团队能够共同访问专用节点(大内存、新处理器)
该机器旨在供法国国家航空航天科研局的所有开发人员使用, 而非仅仅运行计算流体动力学和能量学代码,此外,它还通过共享相同的机器和相同的开发工具,将不同的计算流体动力学和能量学开发团队汇聚到了一起。这符合法国国家航空航天科研局的计算流体动力学和能量学软件路线图—朝着通用平台的方向迈进。
法国国家航空航天科研局的计算流体动力学和能量学代码开发传统对于该机构自身的研究工作及其行业合作伙伴的工作至关重要。该实验室的 elsA 和 CEDRE 代码超过一百万行,被法国国家航空航天科研局的许多合作伙伴(其中包括空客、赛峰和 ArianeGroup) 用于开展基于计算流体动力学和能量学的研究。“现在,一方面大型代码的开发时间比机器的使用寿命要长。另一方面,在预测电力消耗下降以及与处理器发展相关的其他方面存在许多未知因素。”Refloch 解释说,“因此,除了拥有尖端机器以外,我们还需要尽早获得新型处理器。出于上述考虑,我们于 2016 年申请加入了英特尔® 并行计算中心(英特尔® PCC)计划。”
对于称为 SPIRO 的集中式开发系统,法国国家航空航天科研局选择了 HPE SGI 系统。该系统包含供法国国家航空航天科研局不同用户群体使用的专用节点:
· 132 个运行英特尔® 至强® 可扩展处理器的节点(E5-2650V4 双路,3168 个内核),配备 128 GB 内存
· 6 个运行英特尔® 至强融核™ 7230 处理器的节点
· 1 个运行两个 Nvidia* Pascal* GPU 处理器的节点
· 3 个运行 Nvidia Tesla* K80 GPU 处理器的节点
· 5 个具有 256 GB 内存的节点,2 个 512 GB 节点和 1 个 1 TB 节点
结果
与之前的 Stelvio 系统一样,计算流体动力学和能量学部门的两个团队将成为该 NEC 机器 Sator 的主要用户。Refloch 表示,由于使用的仍是英特尔® 处理器和编译器,因此从 SGI Stelvio 系统到 NEC 系统的过渡非常顺利。“这足以令我们重新编译与 MPI 直接相关的代码部分,因为我们在前一个系统中使用的就是 SGI MPI 库 MPT。”Refloch 解释道。
虽然法国国家航空航天科研局对于 Sator 系统的使用仍处于起步阶段,但 Refloch 表示,该系统的初期使用体验十分令人满意。Refloch 指出:“事实证明,英特尔® 至强® 处理器与英特尔® Omni-Path 高带宽网络的组合是迄今为止我们运行的工作负载的理想选择。”在该 NEC 系统的早期使用过程中,法国国家航空航天科研局对 elsA 新架构的一个原型(称为活空气动力学求解技术(FAST))进行了测试。“我们在 17,000 多个内核上展现了 95% 的可扩展性,这种可扩展性极易实现,由此可见我们的优化工作已取得成效。”Refloch 表示,作为 IPCC 计划的一部分,法国国家航空航天科研局针对多核情况,对其灵活空气动力学求解技术(FAST)应用程序进行矢量化处理,这项工作有助于加快代码的现代化工作。他补充说,在这一过程中,英特尔® 的工具(包括英特尔® Advisor)也提供了很大的帮助。“谈到软件,分析是一回事,解释结果并相应地修改代码则是另一回事。Roofline分析功能大大简化了这一过程,大幅减轻了开发人员的负担。”Refloch 说道。
总体而言,法国国家航空航天科研局对该 NEC 系统预计将提供的省时和节能优势感到很兴奋。Refloch 表示:“大多数用户的常用应用所使用的内核数量是以前的两倍多,因此在大多数情况下,我们研究人员所用应用的性能将得到显著提高。”4
解决方案摘要
凭借新型系统,法国国家航空航天科研局得以兼顾开发和生产。生产机器 Sator 采用英特尔® 至强® 处理器和英特尔® OPA 架构,向法国国家航空航天科研局提供了所需的超高性价比。Sator 为法国国家航空航天科研局的专业研究提供了强大的解决方案,较以前的系统向前迈进了一大步。开发机器 SPIRO 配备了专门的英特尔® 至强® 可扩展处理器和英特尔® 至强融核™ 处理器以及 GPU 节点,有助于确保开发人员始终利用最新的技术。
更多信息
进一步了解英特尔® Omni-Path 架构
进一步了解英特尔® 至强® 可扩展处理器
解决方案组成部分
· Sator — NEC HPC1812 Rg 2 服务器搭载英特尔® 至强® E5-2680v4 14c 2.4Ghz 处理器,共计 17,360 个内核,采用英特尔® Omni-Path 高带宽网络
· SPIRO — HPE SGI 系统具有 3,000 多个英特尔® 至强® 内核,以及包含英特尔® 至强融核™ 处理器、英特尔® 至强® 可扩展处理器和 GPU 的专用节点