在日益激烈的竞争环境中,高性能计算 (HPC) 仿真和建模将成为制造和研究公司取得成功的关键。许多 HPC 应用能够用于探索设计参数、降低原型成本,并在更短的时间内生产出经过优化的产品。此外,许多应用还能在配置为一个大型单元(即 HPC 集群)的多台机器间分配计算任务。与使用单个系统处理仿真工作负载相比,HPC 集群提供可扩展的资源,从而加快运行速度、提高模型精度,并最终优化生产效率。
但许多企业和机构尚不具备所需的技能或专业知识,无力部署和维护用于仿真和建模工作负载的可扩展 HPC 集群。构建 HPC 集群时,不仅要选择正确的处理器、内核数量和内存,还要考虑存储、远程可视化、作业调度和工作负载管理软件。此外,集成硬件和软件以满足仿真和建模应用的要求非常复杂。最后,企业可能需要花费数周或更长时间, 来研究和组装解决方案所需的组件。
面向仿真和建模的英特尔® 精选解决方案是一种更简单的方法,提供能够快速部署的基础设施,帮助购买者大幅降低复杂性。这些解决方案使用英特尔® HPC 平台规范中定义的标准化方法,提供与仿真和建模中常见应用的互操作性,并且已得到验证。面向仿真和建模的英特尔® 精选解决方案还必须满足或超过扩展集群性能所需的特性和性能阈值。精选解决方案若冠以英特尔之名,则表明其已达到相关条件,并可随时部署使用。
面向高性能计算 (HPC) 的英特尔® 精选解决方案
面向仿真和建模的英特尔® 精选解决方案可以作为一系列解决方案的共同基础,为广泛的 HPC 应用提供生产效率和兼容性,以及针对工作负载优化的性能。
面向高性能计算 (HPC) 的英特尔® 精选解决方案提供易于快速部署的基础设施,能够降低 先进计算的复杂性,加快为制造和科学领域用户提供可操作洞察的速度。解决方案产品组合定义了针对工作负载优化的硬件和软件配置,能够支持仿真和建模、仿真和可视化、基因组分析以及高性能计算 (HPC) 和人工智能 (AI)。这些解决方案共用同一个通用基础架构,并符合英特尔® HPC 平台规范。这些解决方案经过验证,可兼容各类 HPC 工作负载,包括英特尔® HPC 应用目录(经常更新)中列出的那些工作负载。
面向仿真和建模的英特尔® 精选解决方案
面向仿真和建模的英特尔® 精选解决方案已通过验证和测试,可将第一代或第二代英特尔® 至强® 可扩展处理器,以及其他英特尔® 技术结合到基于英特尔® HPC 平台规范的成熟架构中。这些解决方案有助于减少打造 HPC 集群的时间和成本,并为仿真和建模工作负载提供优化性能。
此外,面向仿真和建模的英特尔® 精选解决方案经过验证,可确保:
- 解决方案包括支持 HPC 的重要软硬件组件
- 按照英特尔® HPC 平台规范中的定义,解决方案符合基于英特尔® 技术的集群的行业标准和最佳实践
- 在对 HPC 应用十分重要的目标特性方面,解决方案达到或超过规定的性能水平
硬件和软件选择
面向仿真和建模的英特尔® 精选解决方案包含几个关键的硬件和软件组件。
计算
对于面向仿真和建模的英特尔® 精选解决方案,基础配置(Base 配置)使用英特尔® 至强® 金牌 6126 处理器或更高型号的英特尔® 至强® 可扩展处理器;增强配置(Plus 配置)使用英特尔® 至强® 金牌 6148 处理器或更高型号的英特尔® 至强® 可扩展处理器。基础配置提供英特尔® 精选解决方案的所有优势,而增强配置提高了系统的性能和影响。英特尔® 至强® 金牌 6148 处理器包含 20 个内核,可为计算和数据密集型工作负载提供出色的性能。或者也可以选用英特尔® 至强® 铂金处理器(多达 28 核)来满足具有挑战性的计算需求1。对于使用第二代英特尔® 至强® 可扩展处理器的解决方案,其性能会达到或超过基于上一代英特尔® 至强® 可扩展处理器的类似配置的解决方案。
第二代英特尔® 至强® 可扩展处理器具备有益于 HPC 应用的增强功能,包括更出色的输入/输出 (I/O)、内存以及英特尔® 高级矢量扩展 512 技术(英特尔® AVX-512 技术)2。
对于采用人工智能的 HPC 使用者,英特尔® 深度学习加速技术(英特尔® DL Boost)使用矢量神经网络指令 (VNNI) 集来加速人工智能深度学习(推理)工作负载的性能,如语音识别、图像识别、对象分类、机器翻译等。与基于上一代处理器的系统相比,VNNI 通过一条指令,即可完成之前需要 3 条指令的工作,由此,基于第二代英特尔® 至强® 可扩展处理器的系统可将低精度推理方面的性能提高多达 11 倍3。
什么是英特尔® 精选解决方案?
英特尔® 精选解决方案是预定义并已针对工作负载优化的解决方案,旨在大幅减少评估和部署基础设施过程中遇到的挑战。解决方案经由 OEM/ODM 认可、ISV 认证,并由英特尔进行验证。这些解决方案是在英特尔与硬件、软件和操作系统供应商合作伙伴及全球各大数据中心和服务提供商广泛协作下开发的。每个英特尔® 精选解决方案都是英特尔® 数据中心级计算、内存、存储和网络技术按需组合的结果,能够带来可预测、可信赖以及出色的性能表现。
要符合英特尔® 精选解决方案的条件,解决方案提供商必须:
- 达到解决方案参考设计规范所规定的软件与硬件堆栈要求
- 达到或超越既定参考基准测试阈值
- 发布解决方案简介和帮助客户进行部署的详细实施指南
解决方案提供商也可以开发自己的优化方案,以便能够给最终客户带来更简单、更一致的部署体验。
英特尔® 至强® 可扩展处理器
第二代英特尔® 至强® 可扩展处理器:
- 具有高度可扩展性,从多云环境到智能边缘,兼顾成本效率和灵活性
- 建立无缝的性能基础,帮助加快数据带来的变革性影响
- 支持突破性的英特尔® 傲腾™ 持久内存技术
- 提升人工智能性能,帮助整个数据中心实现人工智能就绪
- 提供硬件增强型平台保护和威胁监控
该系列包括英特尔® 至强® 铜牌处理器、英特尔® 至强® 银牌处理器、英特尔® 至强® 金牌处理器和英特尔® 至强® 铂金处理器。
网络
英特尔® Omni-Path 架构(英特尔® OPA)为 HPC 集群提供每秒 100 Gbps 的带宽和新一代的低时延高带宽网络。与过去用于 InfiniBand 网络的传统 36 端口交换机专用集成电路 (ASIC) 相比,48 端口交换机芯片的密度增加了 33%,从而减少了所需交换机的数量。此外,英特尔® OPA 还能降低布线成本、功耗、空间要求,减少日常所需的系统维护。
英特尔® HPC 平台规范
英特尔® HPC 平台规范定义了在构建基于英特尔的集群时,常见的行业实践和要求。这些集群可兼容广泛应用。这一架构基础提供一致且稳定的平台,支持开发和部署各类高性能、计算密集型和数据密集型工作负载。这一基础中还包括英特尔® 软件性能库和运行时环境,帮助应用充分利用经过优化的底层英特尔® 处理器和技术。英特尔® HPC 平台规范的实施,使企业和机构能够在保障高性能的同时,实现灵活性、可扩展性、均衡性和可移植性。
经过基准测试验证的性能
所有英特尔® 精选解决方案均经过验证,已达到指定的工作负载优化性能要求下限。面向仿真和建模的英特尔® 精选解决方案定义了相应的性能标准,展示了针对 HPC 应用而优化的功能。在五个知名的行业基准测试中,这些经过验证的解决方案达到或超过了设计和测试标准。这些基准测试涵盖了重要的系统方面,并表明仿真和建模应用工作负载在纵向扩展和横向扩展时的潜在性能。
其中三个基准测试衡量以下系统关键特性的性能:计算能力、内存带宽和互连网络性能。DGEMM 是一个双精度通用矩阵乘法工作负载,可测量处理器和内存的计算能力。STREAM 可测量简单矢量内核的可持续内存带宽和相应计算速率。IMB PingPong 可测量点对点跨互连网络传送单条消息的速度和时延。
此外,还使用两个主流的基准测试来代表应用性能。高性能 LINPACK (HPL) 基准测试可解决分布式内存中双精度算术计算中的密集型线性系统。高性能共轭梯度 (HPCG) 基准测试可对真实应用的数据访问模式进行建模,例如稀疏矩阵计算、测试用内存子系统和内部互连。还可测量单个节点性能以及整个系统的综合性能。
图 1. 面向高性能计算 (HPC) 的英特尔® 精选解决方案将英特尔® 硬件和软件技术结合到经过验证的优化设计中,从而简化您的 HPC 部署路径
基础配置和增强配置
面向仿真和建模的英特尔® 精选解决方案包括两种配置。基础配置指定了面向仿真和建模的英特尔® 精选解决方案必须具备的最低性能。增强配置为系统制造商、系统集成商以及解决方案和服务提供商如何进一步优化,以实现更高性能和能力提供了范例,如表 1 所示。例如,根据 HPL 基准测试,增强配置的每秒 gigaFLOPS (GFLOP/s) 高出 54%4。在比较基础配置和增强配置时,请使用 HPL 基准测试结果。
表 1. 面向仿真和建模的英特尔® 精选解决方案基础配置和增强配置的计算节点配置详细信息
组件 |
面向仿真和建模的英特尔® 精选解决方案基础配置详情 |
面向仿真和建模的英特尔® 精选解决方案增强配置详情 |
---|---|---|
工作负载域(最低 4 节点配置) |
|
|
平台 |
双路服务器平台 |
双路服务器平台 |
处理器 |
2 x 英特尔® 至强® 金牌 6126 处理器(2.60 GHz,12 核,24 线程)、英特尔® 至强® 金牌 6226 处理器(2.70 GHz,12 核,24 线程)、英特尔® 至强® 金牌 6226R 处理器(2.90 GHz,16 核,32 线程),或更高型号的英特尔® 至强® 可扩展处理器 |
2 x 英特尔® 至强® 金牌 6148 处理器(2.40 GHz,20 核,40 线程)、英特尔® 至强® 金牌 6252 处理器(2.10 GHz,24 核,48 线程)、英特尔® 至强® 金牌 6248R 处理器(3.00 GHz,24 核,48 线程),或更高型号的英特尔® 至强® 可扩展处理器 |
内存 |
96 GB(12 x 8 GB 2,666 MHz 288 针 DDR4 RDIMM) 每个处理器内核配备 2 GB 内存,填满所有内存通道 |
96 GB(12 x 8 GB 2,666 MHz 288 针 DDR4 RDIMM) 每个处理器内核配备 2 GB 内存,填满所有内存通道 |
本地存储 |
1 x 英特尔® 固态盘 DC S3520 或更高,或英特尔® 固态盘 DC P3520 或更高* |
1 x 英特尔® 固态盘 DC S3520 或更高,或英特尔® 固态盘 DC P3520 或更高* |
信息网络 |
1 x 英特尔® Omni-Path 架构(英特尔® OPA),单端口 PCIe 3.0 x16 适配器,100 Gb/s (Gbps) |
1 x 英特尔® OPA,单端口 PCIe 3.0 x16 适配器,100 Gbps |
管理域
|
|
|
管理网络 |
集成式 1 Gb 以太网 (GbE)* |
集成式 1 GbE* |
软件 |
Linux 操作系统 英特尔® Cluster Checker 2019 集群管理软件堆栈* 英特尔® Omni-Path 高带宽网络软件 英特尔® Parallel Studio XE 2018 集群版* |
Linux 操作系统 英特尔® Cluster Checker 2019 集群管理软件堆栈* 英特尔® Omni-Path 高带宽网络软件 英特尔® Parallel Studio XE 2018 集群版* |
固件和软件优化 |
英特尔® 超线程技术(英特尔® HT 技术)已启用 英特尔® 睿频加速技术已启用 支持 XPT 预取 |
英特尔® HT 技术已启用 英特尔® 睿频加速技术已启用 支持 XPT 预取 |
最低性能标准 经验证已达到或超过以下最低性能能力4: |
|
|
高性能 LINPACK (HPL)(跨所有四个节点) |
超过每秒 5,200 gigaFLOPS (GFLOP/s) |
超过 7,700 GFLOP/s |
高性能共轭梯度 (HPCG)(跨所有四个节点) |
超过 118 GFLOP/s |
超过 127 GFLOP/s |
HPCG(每个节点上) |
超过 30.1 GFLOP/s |
超过 32 GFLOP/s |
DGEMM(每个节点上) |
超过 1,300 GFLOP/s |
超过 2,480 GFLOP/s |
STREAM(每个节点上) |
超过每秒 150,000 MB (MB/s) |
超过 164,000 MB/s |
IMB PINGPONG(每对节点上) |
超过 11,300 MB/s(带宽) 小于 1.80 微秒(时延) |
超过 11,300 MB/s(带宽) 小于 1.80 微秒(时延) |
增强配置相较于基础配置所能带来的业务价值4
|
根据 HPL 基准测试的测量结果,增强配置的 GFLOP/s 比基础配置高出 54%。 *建议,非必需 |
面向仿真和建模的英特尔® 精选解决方案的技术选择
符合英特尔® HPC 平台规范的解决方案包括许多英特尔® 技术和软件组件,能够优化性能并增强可支持性。包括:
- 英特尔® AVX-512 技术:可提高性能,满足苛刻的计算工作负载需求。与上一代英特尔® 处理器相比,每时钟周期的每秒浮点运算速度 (FLOPS) 提高了多达一倍2。
- 英特尔® 深度学习加速技术:将性能加速延伸至整数运算,应对卷积神经网络 (CNN) 和深度神经网络 (DNN) 工作负载的密集计算要求。它可以加快人工智能工作负载的速度,提高 Int16 和 Int8 峰值运算速度。英特尔® 深度学习加速技术旨在提升人工智能深度学习(推理)工作负载(例如语音识别、图像识别、物体分类、机器翻译等)的性能。
- 英特尔® Cluster Checker:可检查 100 多项与集群运行状况有关的特性。英特尔® Cluster Checker 在节点和集群两个层面上检查系统,确保所有组件协同工作以实现出色性能。它可评估固件、内核、存储和网络设置,并使用英特尔® MPI 库基准测试、STREAM、HPL 基准测试、HPCG 基准测试及其他基准测试对节点和网络性能进行高级测试。英特尔® Cluster Checker 可进行扩展以纳入自定义测试,其功能可嵌入到其它软件中。
- 英特尔® Cluster Runtimes:为每个集群提供所需的关键软件运行时元素,确保为应用提供优化性能路径。包括英特尔® 数学核心函数库(英特尔® MKL)和英特尔® MPI 库在内的英特尔® 运行时性能库可为基于英特尔® 架构的集群提供优化后的出色性能。
- 集群管理软件堆栈:提供部署和管理 Linux HPC 集群所需的软件堆栈。该软件堆栈中包含配置工具、资源管理、I/O 客户端、开发工具及科学库,例如 OpenHPC、Bright Cluster Manager、xCAT 等。
简化仿真和建模 HPC 集群的部署
面向仿真和建模的英特尔® 精选解决方案结合了第一代或第二代英特尔® 至强® 可扩展处理器、英特尔® OPA 和其他英特尔® 技术。英特尔® HPC 平台规范阐明了如何组合这些硬件和软件组件,以通过一个经过验证的综合解决方案,为基于消息传递接口 (MPI) 的仿真和建模应用提供优化性能。
面向高性能计算 (HPC) 的完整英特尔® 精选解决方案套件
面向仿真和建模的英特尔® 精选解决方案可以作为一系列面向高性能计算 (HPC) 的英特尔® 精选解决方案的共同基础,为广泛的传统 HPC 应用提供生产效率和兼容性,以及针对工作负载优化的性能。该系列还包括以下解决方案:
- 面向仿真和可视化的英特尔® 精选解决方案:利用针对英特尔® 至强® 可扩展处理器优化的内存计算和开源库,用户可在运行仿真的同时处理大量数据集。这些解决方案使用户能够创建逼真的交互式可视化,更快地获得洞察,并且更有效地传达新产品设计和研究突破。
- 面向基因组分析的英特尔® 精选解决方案:简化部署,加快生命科学研究和医疗保健洞察的基因组流水线的分析速度。这些解决方案包括工作流程定义语言脚本,允许用户复制基因组分析工具套件 (GATK) 最佳实践流水线,或是创建自己的流水线。
- 面向高性能计算 (HPC) 和人工智能 (AI) 融合集群的英特尔® 精选解决方案:扩展仿真和建模解决方案,帮助用户在通用基础设施上,运行广泛的数据分析和人工智能应用。这些解决方案可提高灵活性和利用率,并支持向融合仿真、建模、数据分析和 AI 工作负载发展的趋势,加速发现和洞察。
有关英特尔® 精选解决方案的更多信息,请访问 intel.cn/selectsolutions。
如果您希望帮助企业简化优化型基础设施的部署,请向您的集成商咨询英特尔® 精选解决方案。如果您是系统集成商,请访问英特尔® 精选解决方案合作伙伴门户 https://www.intel.cn/content/www/cn/zh/architecture-and-technology/intel-select-solutions-overview.html,了解如何为您的客户创建英特尔® 精选解决方案。
了解更多
面向高性能计算 (HPC) 的英特尔® 精选解决方案:intel.com/content/www/cn/zh/products/solutions/select-solutions/hpc.html
英特尔® HPC 平台规范:intel.com/content/www/cn/zh/high-performance-computing/hpc-platform-specification.html
英特尔® HPC 应用目录:intel.com/content/www/cn/zh/high-performance-computing/hpc-application-catalog.html
英特尔® 至强® 可扩展处理器:intel.cn/xeonscalable
英特尔® OPA:intel.cn/omnipath
英特尔® Cluster Checker:https://software.intel.com/content/www/cn/zh/develop/tools/oneapi/components/cluster-checker.html
英特尔® Parallel Studio XE:https://software.intel.com/content/www/cn/zh/develop/tools/oneapi/commercial-base-hpc.html
英特尔® 精选解决方案由英特尔® Builders 提供支持:http://builders.intel.com。在 Twitter 上关注我们:#IntelBuilders