Penguin 重新定义云端 HPC

英特尔® Omni-Path 架构与英特尔® 至强® 处理器相结合,利用 Penguin Computing On Demand(POD)为 HPC 云服务带来出色的裸机性能

下载 PDF 文档

挑战

八年前,Penguin Computing 见证了云计算的发展。很显然,人们当时开始尝试使用 云实现 HPC。Penguin Computing 的首席技术官 Phil Pokorny 说:“但是他们构建的 集群性能并不好,因为云网络在很大程度上是虚拟网络。我们根本无法在使用此类基础 设施的实例之间很好地保证本地性能和带宽。”当前,按照 Pokorny 的说法,即使采用 10 GbE 网络,在传统云环境中构建的 HPC 集群也不能很好地进行扩展,也就不能很好 地满足典型 HPC 客户运行大型项目所需的节点数量。

除性能和可扩展性之外,Penguin 还发现云端 HPC 成本高昂。无论是对于输入和输出 的数据,还是对于已配置但不繁忙的集群,服务提供商都要收费。此外,撤下一个不繁 忙的集群,而后又重新建立一个集群,这个成本也不低。最后,在云端实现 HPC 时, 客户都要完全靠自己。如果用户对这方面比较陌生,或者用户是科学家而不是编程人 员,那么可能单单为了提升性能,他们就要耗费大量时间,而这意味着会产生与处理工 作无关的成本。因此,在传统的虚拟化云环境中实现 HPC 并不可行,至少做不到像经 验丰富的 HPC 用户(甚至不是编程人员)所期望的本地部署那样。

解决方案

多年以来,Penguin Computing 一直在向广大客户提供 HPC 集群。如今,这些集群 用于全球一些最大、最快且最先进的系统,从三大国家实验室(劳伦斯利物莫国家实验 室、洛斯阿拉莫斯国家实验室和桑迪亚国家实验室)的首款商用技术系统(CTS-1)到 石油天然气、生命科学和工程等领域商业企业使用的集群。Penguin Computing 云服 务高级副总裁 Victor Gregorio 说道:“在一开始审视云端 HPC 时,我们就决定,凭 借我们的合作伙伴解决方案产品、专业服务和丰富的行业专业知识,我们在为 HPC 工 作负载打造按需服务的云环境方面具有得天独厚的优势。”自从八年前推出 Penguin Computing on Demand(POD)以来,客户对该服务的使用和需求量都在增长,从而 推动了 POD 服务中集群的扩展。

多级服务方案

Penguin 解决方案围绕以下四大要求而设计:裸机基础设施、方便访问各种软件、透明计费以及专业的 HPC 支持。

裸机性能 — 该方案的关键在于提供在裸机上运行而非虚拟化的 HPC 云产品。为实现 最高性能,计算领域的所有需求都不是虚拟化的。Penguin 以本地方式运行服务, 就如同在任何实验室或任何企业 IT 数据中心一样。Gregorio 补充道:“当用户在 pod.penguincomputing.com 上注册、登录并提交工作时,工作 会被安排在隔开的部分节点上执行,就如同集群在内部一样。”

软件范围 — 为满足各种工程和科学领域的需求,Penguin 还提 供了各种商业和开源 HPC 应用和代码,包括从计算流体动力学(CFD)到汽车碰撞分析,再到天气预报,等等。Pokorny 表 示:“我们一直在与商业 ISV 合作,携手打造云许可结构,使客 户能够轻松地在 POD 集群上运行他们的工作。客户甚至可以针 对某项特定工作向 POD 集群许可自有的软件。”

可预测计费 — 计费非常透明,并且可以预测。Penguin 按内核 小时收费,上传和下载等额外任务不会增加费用。Gregorio 补充说:“如果客户清楚需要的内核数量,并且能够规划工作将耗费 的时间,那么就能够轻松地估算费用。”

专业支持 — 并非所有的 HPC 用户同时也是编程人员。所以, Penguin 还提供关于优化集群代码的深厚专业知识。POD 支持 团队的每个成员都有五至十年的 HPC 从业经验。一些成员还拥 有科学和工程领域博士学位。这些专家会利用自身的经验在客户 需要时为客户服务,确保客户能够尽快地在 POD 上运行工作。

英特尔® OPA 为 POD 带来无阻塞性能

第一个 POD 集群基于英特尔® 至强® 处理器(代号为 Sandy Bridge 和 Iv y Bridge),并采用支持 Performance Scaled Messaging(PSM)的英特尔® True Scale Fabric 主机接口 和 InfiniBand*(IB)架构 QDR 网络(英特尔® True Scale 是 英特尔® Omni-Path 架构(英特尔® OPA)主机接口适配器的 前身)。从一开始,所有 POD 集群都在英特尔® 至强® 处理器 上运行。最新的部署采用英特尔® 至强® 处理器 E5 v4(代号为 Broadwell)和英特尔® OPA。

Pokorny 说:“这些年来,我们已经在互连方面积累了丰富的经 验。”他总结道:“在英特尔® OPA 即将推出的那段时间里,我们 感到非常兴奋。我们已经使用它运行了许多基准测试,并且对它 在我们的部署(无论是客户解决方案还是 POD)中的性能和可 扩展性都感到非常满意。”

POD 基于 Penguin 的 Tundra ES 可扩展集群配置。同样, CTS-1 也基于 Tundra ES。Tundra 的设计基于开放计算项目(OCP)和开放式机架规范,而整个机架采用 12V 电源,而不 是分布式交流电源。Pokorny 说道:“在设计 Tundra 的时候, 我们与英特尔合作,为英特尔® OPA 设计了一个 12V 叶片式开 关。我们非常高兴能够设计出这个 12V 开关。借助这个开关,我们能够轻松地部署一致的集群,只需改变电源架,就能满足各 种国际电源要求。”

Gregorio 补充道:“但是,当客户来找我们时,他们不会询问具 体的组件。他们想要知道的是:我们是否拥有无阻塞网络;我们 的系统是否足够快,能够在合理的时间内完成他们的工作;以及 我们是否拥有足够的内核来处理他们的工作负载。”对于上述所 有问题,答案都是肯定的。

结果

Gregorio 说:“我们的客户都喜欢 POD 服务。他们会继续使用 POD 来处理他们的工作,而且客户群还在不断扩大。他们之所 以喜欢这项服务,是因为它在裸机上运行,性能始终如一且可以 预测,另外还因为它是一项服务。他们能够预算一年所需的内核 小时数,并清楚完成工作所需的费用。”

最近,Penguin 重复执行了一系列测试,这些测试可作为未进 行这些测试的 HPC 云服务提供商的部分对比基准。该对比基准 已于 3 月份公布在 arXiv.org 上,并且 HPCWire 还对其进行了 报导。随后,HPCWire 还发表了一篇文章,标题为“Penguin Takes a Run at the Big Cloud Providers”(Penguin 与大型云 服务提供商一争高下)。结果表明,与云服务领导者相比,它们 能够以更低价格提供更高性能。

最近,作为英特尔‘先试后买’计划的一部分,Penguin 还增加了 基于英特尔® 至强融核™ 处理器和英特尔® OPA 的小型 POD 集 群。客户可以注册 POD 服务,然后在基于英特尔® 至强融核™ 处 理器和英特尔® OPA 的系统上处理他们的工作,以此评估该服务 对其工作负载的处理性能。Penguin 专家时刻待命,随时帮助他 们对集群处理器的众核集成架构进行优化,以便利用英特尔® 技 术实现最大性能。

解决方案摘要

早期基于云的 HPC 产品不具备可扩展性能。它们的设置和维护 成本非常高,并且没有专家支持。Penguin Computing 推出了 基于英特尔® 至强® 处理器和英特尔® OPA 架构的 POD 即裸机 HPC 集群,它不仅提供软件许可,费用可以预测,而且还能得到 HPC 专家的全力支持。在过去的八年里,POD 服务不断发展扩 大,为各个行业提供出色的 HPC 计算性能。

更多信息

了解更多关于 Penguin Computing on Demand 的信息。

了解更多关于英特尔® Omni-Path 架构的信。