执行概要
维多利亚大学(简称 Uvic)位于加拿大温哥华岛,拥有 22,000 多名学生和数百名教职员工/研究人员。其研究计算服务部 (RCS) 通过国际协作,为全国各地的大学研究人员、机构科学家提供高级研究计算 (ARC) 基础设施和服务。该部门托管 Compute Canada 的一个 ARC 数据中心和 Arbutus 云。作为 OpenStack 项目下的云平台,Arbutus 云主要用于托管虚拟机和其他云工作负载。Arbutus 旨在加强传统的大集群 HPC 工作负载,并支持需要不同于传统 HPC 集群能力的研究项目,这些新兴能力包括在线机器学习/人工智能、大数据和协作计算等。Arbutus 基于联想 SR630、SR670 和 SD530 节点而构建,节点搭载第二代英特尔® 至强® 金牌处理器,并采用了英特尔® 傲腾™ 持久内存和英特尔® 固态盘。
当研究人员要求获得某种 ‘环境’ 时,这种环境在我们看来也就是他们自己的 ‘虚拟实验室’,我们就会设置相应的网络和硬件来支持他们的工作。无论是否有我们的服务支持,他们都可以在几分钟内就建立自己的虚拟实验室。”
—— Belaid Moa 博士,维多利亚大学研究计算服务部高级研究计算专家
挑战
2015 年,维多利亚大学与 Compute Canada、WestGrid 和谢尔布鲁克大学合作,启用了 Arbutus 第一阶段,以支持新一代研究人员的研究工作。和过去依赖传统 HPC 集群来运行大规模并行计算任务或大规模仿真工作负载的研究人员不同,新一代的研究有着不同的需求。
“我们原有的 IT 服务无法提供能够满足研究人员高级计算需求的基础设施,”大学计算系统部门研究计算服务部高级研究计算专家 Belaid Moa 博士说道:“过去,我们也有 HPC 集群,但研究人员迫切需要具备高可用性的协作平台、定制网站、根访问、微服务环境,以及其他云计算服务。这些服务正迅速变得与 HPC 集群同样重要。而且,对许多研究人员来说,这些也是必不可少的 ARC 服务。”
正因如此,Arbutus OpenStack 私有云基础设施应运而生。Arbutus 第一阶段在 250 个节点上搭载了英特尔® 至强® E5-2680 v4 处理器的 7,000 个 CPU 内核,采用节点存储,10 GbE 网络和 1.6 PB 的三重冗余 Ceph 存储(共 4.8 PB)。Arbutus 使用虚拟化技术来提供 “基础设施即服务 (IaaS)”资源,以支持研究人员所需的各种工作负载。
在此后的四年里,新的研究项目陆续启动,其中许多项目开始使用新兴的技术能力和研究环境,如机器学习 (ML)、人工智能 (AI)、JupyterHub 和大数据。这些新的项目,再加上对云服务日益增长的需求,导致平台需要更多的存储、更先进的计算以及更大的内存池,这些共同造就了更大规模的云基础设施和 Arbutus 第二阶段。
联想与英特尔正在携手加速 HPC 和 AI 的融合,共同 构建各种规模的解决方案,解锁全新层次的客户洞察。双方在系统和解决方案、软件优化和生态系统支持方面开展合作,旨在加速发现和解决 E 级时代及未来全球具有挑战性的问题。联想服务器是全球超级计算机 500 强1 的首选系统, 由英特尔® 至强® 可扩展处理器和英特尔在存储、内存和软件方面的先进技术提供支持,为快速推动科学和产业进步奠定了创新基础。
据 Hore 教授介绍,这些还只是冰山一角。该项目不仅能够造福人类,引入数据和计算机科学,还有利于推进远程医疗的潜在应用。这项研究带来的成果和应用可用于开发能够快速进行交互式化合物分析的便携设备和自助终端机。这种通过在线交互式机器学习实现的远程分析可以告诉人们其样本可能存在什么潜在影响,并为寻求相关分析的人提供指导。
Hore 教授解释说:“该项目源于 4 年前,当时一名投身减少药物伤害的药剂师联系我,要我对他配制的一种处方药进行质检。虽然多年来他都是通过同一家制造商购买的该特定药物,但是他的客户却告诉他,该药物对他们产生的影响与过去不同。这名药剂师希望可以分析该药物及其各成分的浓度。这也是这一科学研究领域的另一种潜在应用。”
这名药剂师的要求促成了如今的 “药物检测项目”,该项目采用基于英特尔® 架构的云计算基础设施来支持先进的计算技术,从而帮助构建社会科学和化学领域的新知识。这项研究的成果可用于改善医疗、公共安全等各个领域。
解决方案总结
维多利亚大学的研究人员需要更多不同类型的云计算资源,这促使该大学的研究计算服务部对现有的 Arbutus 基础设施进行了扩展。Arbutus 第二阶段额外部署了近 8,000 个来自先进的英特尔® 至强® 可扩展处理器的全新内核,并采用英特尔® 傲腾™ 持久内存和英特尔® 固态盘 S4610。规模更大、更先进的 Arbutus 现已用于广泛的计算任务,包括 Web 服务、人工智能/机器学习和大数据等。
■ 更多信息
了解有关维多利亚大学研究计算服务部的更多信息。
了解有关 Arbutus 的更多信息。
探索第二代英特尔® 至强® 可扩展处理器(内置用于加速 AI 推理的英特尔® 深度学习加速技术)的多重功能。
探索联想 HPC 解决方案。
解决方案组成部分
• 208 个联想 ThinkSystem SR630、SR670 和 SD530 节点,配备 ThinkSystem TruDDR4 内存
• 第二代英特尔® 至强® 金牌 6248 可扩展处理器和英特尔® 至强® 金牌 6130 处理器的近 8,000 个内核
• 每节点 1 TB 英特尔® 傲腾™ 持久内存
• 英特尔® 固态盘 S4610