部署可提供在现有 HPC 群集上运行人工智能工作负载所需的计算密集型资源的解决方案。
面向 HPC 和人工智能聚合集群的英特尔精选解决方案 [Magpie]
组件 | 基于 HPC 和人工智能聚合集群的英特尔® 精选解决方案 [Magpie] | 基于 HPC 和人工智能聚合集群的英特尔® 精选解决方案 [Magpie] 增强配置 |
---|---|---|
工作负载域(最少 4 个计算节点配置) | ||
平台 | 双插槽服务器平台 | 双插槽服务器平台 |
处理器 | 2 枚英特尔® 至强® 金牌 6126 处理器(2.60 GHz、12 个内核,24 个线程)、英特尔® 至强® 金牌 6226 处理器(2.70 GHz、12 个内核,24 个线程)或者型号编号更高的英特尔® 至强® 可扩展处理器 | 2 枚英特尔® 至强® 金牌 6252 处理器(2.10 GHz,24 个内核,48 个线程)或型号编号更高的英特尔® 至强® 可扩展处理器 |
内存 | 192 GB | 192 GB |
引导驱动器 | 240 GB 英特尔® 固态盘数(英特尔® 固态盘)S3520 SAA 3.0,6 Gbps 或相当的产品 | 240 GB 英特尔固态 S3520 SAA 3.0,6 Gbps 或相当的产品 |
存储 | HPC 并行文件系统(每台客户机 470 兆位每秒 [Mbps]) | HPC 并行文件系统(每台客户机 470 Mbps) |
消息架构 | 英特尔® Omni-Path Host Fabric 接口(英特尔® | 英特尔® Omni-Path Host Fabric 接口(英特尔 OP HFI)适配器 100 系列 |
管理网络交换机 | 10 GbE 交换机 | 10 GbE 交换机 |
批处理调度程序 | SLURM 上的开放源代码 Magpie | SLURM 上的开放源代码 Magpie |
软件 | Linux* 操作系统 英特尔® 群集检查器 2019 OpenHPC** 英特尔® Omni-Path Fabric(英特尔® OP Fabric)软件 英特尔® Parallel Studio XE 2019 群集版** Apache Spark TensorFlow Horovod | Linux 操作系统 英特尔® 集群检查器 2019 OpenHPC** 英特尔® Omni-Path Fabric 软件 英特尔® Parallel Studio XE 2019 集群版** Apache Spark TensorFlow Horovod |
管理域 | ||
管理网络 | 集成 10 GbE** | 集成 10 GbE** |
固件和软件优化 | 已启用英特尔® 超线程技术(英特尔® HT 技术) 已启用英特尔® 睿频加速技术 已启用 XPT 预先提取 | 已启用英特尔® 超线程技术 已启用英特尔® 睿频加速技术 已启用 XPT 预先提取 |
最低性能标准 | ||
算法/测试 | 培训/推断 | 使用 SLURM 4 个节点的集群(幅图像/秒) |
ResNet50* Int8* | 推断 | 6,300 |
ResNet50 | 培训 | 400 |
选择增强配置而不是基础配置的商业价值 | 增强配置借助其增强的计算能力实现更快的训练人工智能模型的时间,并且英特尔® 深度学习加速(英特尔® 深度学习加速)使得人工智能推断缩短了获取见解的时间。 | |
**建议,但不是必需 |