合作伙伴联想的专题内容。
背景
哈佛大学致力于开展出色的教学和研究工作,并培养引领全球变革的各领域专家。该大学位于马萨诸塞州波士顿都市区剑桥市,招收了 2 万多名攻读学位的本科生、研究生和专业学生。
哈佛大学文理学院计算研究 (FASRC) 中心成立于 2007 年,旨在提供前沿的计算服务,以推动复杂研究的发展。
挑战
FASRC 为研究人员提供了其所需的各种高性能计算 (HPC) 资源,用以处理海量数据集、执行复杂计算,以及探索科学、工程、数学、医学和许多其他学科中的重要问题。
为了向研究人员提供出色的工具来支持他们的工作,并满足对其服务不断增长的需求,FASRC 每隔几年就会更新其高性能计算基础设施。
FASRC 每年处理超过 2.9 亿项任务,其中 15,000 项任务可随时在群集上运行。研究人员需要快速得出结果,以便获得新的洞察、反复进行实验,以进一步推进研究。
我们打算增加处理器的数量,以满足不断增长的需求。我们还决定提高每个处理器的性能,因为数千个松散耦合的单核计算占用了 25% 的 CPU 时间。”——哈佛大学计算研究主任 Scott Yockel
选择新型液冷集群设计
为了在更高功率的基础上充分利用 CPU 技术的最新优势,同时实现更高的单个内核性能,FASRC 部署了联想的水冷超级计算机集群。
Yockel 评论说:“我们以前的集群使用的是风冷散热,转而采用联想的“海神”液冷技术意味着一项重大的变革。液冷可以更有效地为性能提升提供支持,这对于满足我们当前和未来的计算需求至关重要。”
构建先进的高性能计算系统
新系统被命名为 Cannon,用以纪念先驱人物天文学家 Annie Jump Cannon,该系统由 12 个机架上的 72 个联想 NeXtScale n1200 机箱组成,安装有 670 台联想 ThinkSystem SD650 服务器,并且可以直接水冷节点。每台服务器都配备了英特尔® 至强® Platinum 处理器家族和 192 GB 的 RAM,从而使 Cannon 总共拥有 32,160 个计算内核。然后,使用 InfiniBand HDR 100 Gbps 交换矩阵将服务器群集在一起。该安装得到了联想专业服务的支持,并已如期完成。
“海神”直接水冷节点技术使用基于铜材质的水回路,从 CPU、内存、I/O、本地存储和电压调节器中进行散热。这使 FASRC 能够让 CPU 的运行达到 3.5 GHz 的睿频频率(与 2.90 GHz 的基本频率相比) 而无需任何额外的风冷散热。Cannon 的 Linpack 性能为 2.076 PetaFLOP,目前在全球最快的超级计算机 500 强排名中位列第 186 名。1
FASRC 在三个数据中心中占地约 1 万平方英尺。主集群 Cannon 位于霍利奥克市的马萨诸塞州绿色高性能计算中心 (MGHPCC)。存储和登录节点、虚拟机和专业计算资源在哈佛大学的波士顿校区和剑桥校区之间进行分配,并且全都通过 Northern Crossroads (NOX) 进行网络互连。
Cannon 集群运行安装有 Puppet 的 CentOS Linux 用以进行集群配置管理,并使用 SLURM Workload Manager 进行作业调度。
为了应对研究人员不断增长的需求,FASRC 继续将联想 ThinkSystem 服务器添加到集群中。教师和研究小组可以自己出资购买具有优先访问权的额外节点。Yockel 肯定地表示:“联想系统易于进行扩展。”
结果
借助 Cannon 集群,哈佛大学的研究人员可以通过 FASRC 获取世界级的高性能计算资源。
Yockel 进一步表示:“与我们此前的基础设施相比,新型 Cannon 集群在相同的物理覆盖范围内可提供高达四倍的性能,而功耗仅为其 50%。2 这在很大程度上要归功于直接水冷节点设计,它可使英特尔® 至强® 可扩展处理器在 85% 的运行时间达到 3.5 GHz 的睿频,而不会发生过热。这大幅提高了我们的处理能力,因此我们可以更快地运行更多任务。”
如今,Cannon 集群正在为数千个研究项目提供支持。脑科学中心和天体物理学中心是其中一家重要用户。
Yockel 说:“我们目前正使用 Cannon 集群完成多项任务,包括研究运动和大脑视觉之间的关系。研究人员使用植入的电极来测量鼠在封闭空间中移动时初级视觉皮层的大脑活动。然后,研究人员使用这些数据构建大脑的 3D 模型,并运行机器学习算法来研究神经元如何传输信号。”
此外,天体物理学中心也使用 Cannon 群集来处理数百 TB 的望远镜图像,以研究黑洞并发现新的洞察。最近几个月,FASRC 着手开展了许多针对新冠肺炎疫情的新研究项目,参与者包括从研究传播率的流行病学家到研究疫情的金融影响的经济学家。
- 与以前的集群相比,性能提高了 4 倍,而功耗仅增加了 50%2
- 32,160 个计算内核
所有科学领域都具有迭代性和可重复性的特点。但是在大学研究领域,时限通常很紧张,需要争分夺秒地完成任务,因此迭代时间有限,并不总是可行。随着 Cannon 集群计算性能的提高和处理速度的加快,我们的研究人员现在有机会尝试新事物、不断失败并再次尝试。无惧失败可以使我们的研究人员更具竞争力。FASRC 专注于推进研究,并且我们相信,随着对高性能计算资源的需求不断增长,联想系统将在未来几年中继续为我们提供支持。” ——哈佛大学计算研究主任 Scott Yockel