HLRN 为 HPC 带来先进的性能

HLRN 选择了英特尔® 至强® 铂金 9200 处理器来满足其对 HPC 工作负载日益多样化的需求。

要点综述
HLRN 超级计算机已被 100 多所大学和 120 多家研究机构所使用,以此探索科学研究的许多前沿领域,帮助开启更美好的未来。经过详细测试并找到最佳解决方案之后,选择了英特尔最新的处理器技术来为下一代 HLRN 超级计算机提供支持。教授.廷根大学的 Ramin Yahyapour 教授解释说:“对 HLRN 超级计算机的期望是为新实验大幅提升计算机性能。“

挑战
Ramin Yahyapour 教授说:“总体而言,科学正变得越来越需要大量计算和数据。这意味着科学家拥有更大的系统就有能力做得更好。这就是 HLRN 对科学研究至关重要的原因。”

HLRN 声称自己是一个非常苛刻的客户 — HLRN 先前部署了 3 个超级计算机系统,因此拥有丰富的专业知识。教授.Zusu 研究所的 Alexander Reinefeld 教授强调说:”我们期望所有基准性能测试应用程序都具有最高的性能。我们精心选择了基准性能测试套件,这样每个代码都给系统的特定部分带来了挑战,比如 CPU、通信网络和并行 I/O。我们并不是在寻求最佳的理论性能,而是需要真实的系统性能,这会使供应商为我们的应用程序优化基础设施变得更加复杂。这就意味着我们选择合适的处理器和正确的互连方式对于整体性能至关重要。”

与当今的大多数研究一样,对计算机实际能力的更多需求源于这样的现实,即各种各样的模拟对于研究人员来说非常关键。更快的计算机主要用于增加模拟的大小和分辨率,以期找到新的发现。

“我们需要真实的系统性能……这就意味着我们选择合适的处理器和正确的互连方式对于整体性能至关重要。”— Reinefeld 教授

解决方案
HLRN 购买了一台新的超级计算机,其内核数量不足 25 万个。英特尔® 至强® 铂金 9200 处理器(来自第二代英特尔® 至强® 可扩展处理器家族)将作为”合适的处理器“为 HLRN 提供服务。对于“正确的互连方式”,HLRN 选择了英特尔® Omni-Path 架构(英特尔® OPA)。该系统由 Atos(前身为 Bull Computing)打造,并将在物理上由柏林 Zuse 研究所 (ZIB) 和哥廷根大学分开使用。这些站点以前使用过这个拆分系统模型,并且在柏林与哥廷根之间部署了 170 多英里专用的冗余 10 千兆光纤电缆。

ZIB 的研究人员将 HLRN-IV 用于流体动力学,包括为飞机机翼开发湍流模型。

结果
HLRN 宣布新系统 HLRN-IV 的速度大约是以前系统的 6 倍,可提供 16 PetaFLOP/s 的性能。1研究人员的兴奋显而易见,而正在开展的研究清单也令人难以置信。教授 教授激动地说:“这是一个很棒的系统。我们的用户将直接从这个功能更强大的系统中受益,而无需更改其代码。第二代英特尔® 至强® 可扩展处理器的同类架构将提供真正的性能可移植性,这对于我们的研究人员来说是至关重要的一个方面,他们因此可以迅速地从更强大的新系统中受益。“

HLRN 的主要研究领域包括:

  • 地球系统科学— 其中包括气候变化方面的研究。学科包括海洋、雨林、冰川、南极浮游植物(微藻)、矿物尘埃循环和平流层的动力学。
  • 流体动力学 - 其中包括用于船舶涡轮机、风力涡轮机和飞机机翼的湍流模型。这些模型因需要巨大的计算能力而臭名昭著 — HLRN-IV 将使大型系统能够运行更细粒度的湍流模拟,例如穿过城市的风或穿过涡轮机叶片的风。通过对完整城市进行建模,可以研究新建筑如何改变风量以及影响城市内各种微气候的其他因素。这可能会激发新的设计思路,从而改善城市生活。有些研究人员希望能够理解这些思路,为未来的高升力商用飞机铺平道路。另一些研究人员则希望通过研究固体散装货物(例如铁矿石或镍矿石)的液化来挽救生命和船只。由于未能妥善处理这一问题,在过去 10 年中,全球至少损失了 7 艘船。
  • 医疗保健 - 这是一个广泛的研究领域,HLRN 研究人员希望能以多种方式提供帮助,其中包括改善家庭医疗服务。更好地了解疾病和疾病的治疗,将对我们所有人产生影响。研究包括药物功效、相互作用和副作用的模拟。巨大的计算能力可使这些领域的先锋研究人员开始探索这些模拟的“个人医学”方面,而不仅仅是对普通人群的平均影响。

在哥廷根大学,研究领域包括细胞和分子机器的合作项目。

跨多种研究的高性能
在科学界,HLRN 必须为其诸多研究人员提供所有类型的工作负载支持。因此,HLRN 系统需要具有通用系统的特性,但仍具有最高的性能。他们最终选择没有加速器。

“尽管我们在采购过程中考虑了包括 GPU 在内的加速器,但在系统中使用 GPU 或其他加速器时所获得最高性能并没有优势。”— ZIB 超级计算主管 Thomas Steinke 博士

HLRN 的基准性能测试是开放的,其中包括可以利用 GPU 的基准性能测试。HLRN 发现,在考虑减少通用计算能力或所涉及的额外成本时,某些工作负载的性能优势尚显不足。基于第二代英特尔® 至强® 可扩展处理器的同类系统,证明了自己是满足 HLRN 科学家和研究人员多样化需求的最佳选择。

击败阿姆达尔定律
Thomas Steinke 博士始终铭记阿姆达尔定律,特别强调将快速算法用于快速计算机。他认为:“由于第二代英特尔® 至强® 可扩展处理器具有较高的实际性能,所以与以前的多核架构相比,优化代码以在节点上进行扩展的压力减小了。“

第二代英特尔® 至强® 可扩展处理器家族为高性能计算 (HPC) 提供了出色的选择,并帮助程序员应对阿姆达尔定律。

”我们的用户将直接从这个功能更强大的系统中受益,而无需更改其代码。”— Reinefeld 教授

AI 在 HPC 领域的未来
AI 和机器学习将影响 HLRN 研究的所有领域。人们感兴趣的一个热门领域是机器学习和 AI 技术与传统模拟功能的融合。尽管已经获得一些鼓舞人心的成果,但仍有许多工作要做。对算法的探索可能会带给研究人员多个方向,而对灵活性的需求是 HLRN 选择第二代英特尔® 至强® 可扩展处理器来支持其下一代研究的原因之一。

避免数据移动
Yahyapour 教授强调:“CPU 对于人工智能和机器学习非常有用。这是我们看到我们的研究人员有更多需求的一个领域。传统上,研究人员并不多么忙于数据密集型工作,但是我们认为这是新系统的一个新趋势,也将引起特别关注。”

事实证明,英特尔®高级矢量扩展 512 (英特尔® AVX-512 )是明智的选择,它有助于提高 HLRN 的计算能力,并且通过添加英特尔® 深度学习加速(英特尔® DL Boost)来增强 AVX-512,从而为 HPC 应用的新领域提供出色的性能。

对于所有类型的算法,计算数据的能力决定了数据移动的规模。这代表了计算能力的提高,能源浪费的减少。一个双赢的结果!

在探索新算法和新应用技术时,最重要的就是系统的灵活性。第二代英特尔® 至强® 可扩展处理器可提供高性能,以及应对未来挑战所需的灵活性。

了解相关英特尔® 产品

英特尔® 至强® 可扩展处理器

借助英特尔® 至强® 可扩展处理器,您能够推动可行洞察、依靠基于硬件的安全性,并部署动态服务交付。

了解更多

英特尔® 深度学习加速(英特尔® DL Boost)

英特尔® 至强® 可扩展处理器通过英特尔® 深度学习加速(英特尔 DL Boost),将嵌入式 AI 的性能提升到了新的水平。

了解更多 (英文)

英特尔® Omni-Path 架构(英特尔® OPA)

英特尔® Omni-Path 架构(英特尔® OPA )提供了可靠性、高性能和极高的可扩展性,同时降低了系统的总体拥有成本。

了解更多

通知和免责声明

英特尔® 技术的特性和优势取决于系统配置,并可能需要支持的硬件、软件或服务激活。实际性能可能因系统配置的不同而有所差异。没有任何计算机系统能够保证绝对安全。请咨询您的系统制造商或零售商,也可登录 www.intel.cn 获取更多信息。// 性能测试中使用的软件和工作负载仅在英特尔® 微处理器上针对性能进行了优化。SYSmark 和 MobileMark 等性能测试使用特定的计算机系统、组件、软件、操作和功能进行测量。上述任何要素的变动都有可能导致测试结果的变化。您应该查询其他信息和性能测试,以帮助您对正在考虑购买的产品作出全面的评估,包括该产品在与其他产品结合使用时的性能表现。如欲了解更多完整信息,请访问 www.intel.cn/benchmarks。// 性能结果基于配置中所规定日期的测试,可能无法反映所有公开的安全更新。有关详细信息,请参见配置信息披露。没有任何产品或组件能保证绝对安全。// 所描述的成本降低方案仅用作示例,表明某些基于英特尔® 的产品在特定环境和配置下会如何影响未来的成本,并节约成本。环境各不相同。英特尔不保证任何成本和成本的节约。// 英特尔并不控制或审核本文档引用的第三方基准资料或网站。您应访问引用的网站,确认参考资料准确无误。// 在某些测试案例中,结果以英特尔内部分析或架构模拟或建模为基础来评测或模拟,且仅供参考。您的系统硬件、软件或配置的任何不同均可能会影响实际性能。

产品和性能信息

1

先前的 HLRN-III 系统由分别位于柏林楚泽研究所和汉诺威莱布尼茨大学 IT 服务部门 (LUIS) 的两部分综合设施组成,两者通过一条专用于 HLRN 的 10GigE 光纤相互连接,以提供“单系统视图”。计算节点分两个阶段交付,具体为:第一个阶段包括两台 Cray XC30 计算机,每台包含 744 个计算节点,总共 1488 个双插槽英特尔® 至强® 处理器 E5-2695v2 以及 93 TB 主内存,通过采用 Dragonfly 拓扑的快速 Cray Aries 网络相连接。第二个阶段增加了 2064 个英特尔® 至强® 处理器 E5-2680 v3 计算节点,具有 85248 个计算核心。其中柏林有 1872 个计算节点,汉诺威有 1680 个计算节点,提供总计达 2.7 PetaFlops/s 的峰值性能和 222 TB 主内存扩展。