基于至强® 平台,面向在 Apache Spark*
上运行的 BigDL 的英特尔® 精选解决方案

在基于 Apache Spark 的已优化和已验证的基础设施上,加速并简化深度学习开发与部署。

下载文档

过去几年里,许多组织目睹了海量数据与处理这些数据所需的计算能力和大容量存储的融合。对于基于人工智能 (AI) 构建的创新应用和服务,合适的基础设施可为现代化企业提供新的数据使用方式。其中隐含的无限商机几乎涵盖从金融服务到制造业再到医疗卫生的所有领域 1

但是,具备本地基础设施或使用混合云模型的组织在向人工智能迈进时遇到了多个挑战。他们需要研究、选择、部署和优化可促进资源高效利用的基础设施;同时,按需扩展以满足不断变化的业务要求。除了可扩展性,组织还寻求更简单的方式部署人工智能计划。要开始使用人工智能,许多企业内部缺乏足够的专业知识和基础设施,尤其是对于深度学习 (DL)。在生产环境中部署深度学习不仅耗时,而且复杂。管理人工智能计划的数据也是一项挑战:组织很难从“数据沼泽”中提取价值,将数据从本地移动到云端进行分析的过程可能十分复杂且需要大量资源2

面向在 Apache Spark* 上运行的 BigDL 的英特尔® 精选解决方案可帮助企业克服这些关键挑战,从而更快速、更轻松地实现其人工智能计划。凭借该经过预先测试和调优的解决方案,组织无需研究和手动优化基础设施即可高效实施其人工智能计划。该解决方案降低了部署和管理人工智能基础设施对内部专业知识的要求。它还可以帮助 IT 组织提高基础设施利用率,同时确保可扩展性,以便满足公司不断增长的需求3

 

BigDL

Apache Spark* 通过提供标准化可扩展的大数据存储和计算,帮助解决深度学习、数据和专业知识的 IT 挑战,可扩展能力允许添加数百个节点而不降低性能,也不改变基础架构4

BigDL 是分布式深度学习库,可增强 Apache Spark* 的存储和计算能力,提供高效、可扩展且优化的深度学习开发。BigDL 可为相同大数据集群上的训练和服务开发新的深度学习模型。此外,它还支持来自其他框架的模型,包括 TensorFlow*、Keras* 等等。您可以将其他经过训练的模型导入 BigDL 框架或在其他框架中使用经过 BigDL 训练的模型。Analytics Zoo 支持 BigDL,Analytics Zoo 提供统一的人工智能平台和流水线,并具备内置参考应用案例,可进一步简化人工智能解决方案开发5

为了提高计算性能,BigDL 已针对基于英特尔® 的平台进行了优化, 融合了各种软件库,如英特尔® 数学核心函数库(英特尔® MKL) 和面向深度学习网络的英特尔® 数学核心函数库(英特尔® MKL-DNN)。其他支持的软件包括英特尔® Python* 分发版。该软件可加速热门机器学习库,如 NumPy*、SciPy* 和 scikit-learn*,以及集成式英特尔® 性能库,如英特尔® MKL 和英特尔® 数据分析加速库(英特尔® DAAL)。在硬件方面,面向在 Apache Spark* 上运行的 BigDL 的英特尔® 精选解决方案使用英特尔® 至强® 可扩展处理器提供高性能,并使用英特尔® 固态盘 (SSD) 提供比传统硬盘 (HDD) 更高的性能和更高的可靠性6

 

面向在 Apache Spark* 上运行的 BigDL 的英特尔® 精选解决方案

面向在 Apache Spark* 上运行的 BigDL 的英特尔® 精选解决方案帮助优化性价比,同时显著缩短基础设施评估时间。面向在 Apache Spark* 上运行的 BigDL 的英特尔® 精选解决方案将英特尔® 至强® 可扩展处理器、英特尔® 固态盘与英特尔® 以太网网络适配器相结合,7帮助企业快速利用可靠且全面的解决方案。该解决方案具有以下特点:

·  能够通过可扩展存储和计算准备适应未来需求的机器学习 (ML)/DL 基础设施投资

·  通过多用途硬件提供出色的总体拥有成本 (TCO),您的 IT 组织已习惯于在经过验证和测试且可简化部署的解决方案中进行管理

·  通过一站式解决方案加快上市时间,该解决方案包含丰富的开发工具集,并且已针对关键软件库进行优化

·  对于存储该解决方案的数据,能够运行分析

 

英特尔® 至强® 可扩展处理器

英特尔® 至强® 可扩展处理器:

·  为企业数据中心提供高可扩展性

·  与上一代处理器相比,为虚拟基础设施提供更高性能

·  实现卓越的资源利用效率和敏捷性

·  针对数据中心解决方案,提高数据和工作负载的完整性,确保监管合规性

·  面向在 Apache Spark* 上运行的 BigDL 的英特尔® 精选解决方案采用英特尔® 至强® 金牌处理器。

 

通过人工智能改善患者护理状况

基于 BigDL、Apache Spark* 和英特尔® 至强® 可扩展处理器

面向在 Apache Spark* 上运行的 BigDL 的英特尔® 精选解决方案最初是与加州大学旧金山分校 (UCSF) 的合作项目。英特尔与 UCSF 在 Apache Spark* 上部署了 BigDL,在基于英特尔® 至强® 可扩展处理器的数据分析集群上运行。该解决方案用于开发和训练可检查复杂 3D 医疗影像的深度学习模型,从而改进对骨关节炎患者的医疗诊断8

依托该项目的成功,英特尔又创建了基于下一代技术的优化英特尔® 精选解决方案。

 

硬件选择

面向在 Apache Spark* 上运行的 BigDL 的英特尔® 精选解决方案将基于英特尔® 至强® 金牌处理器或更高级别英特尔® 至强® 可扩展处理器的平台、与英特尔® 3D NAND 固态盘和英特尔® 以太网 700 系列相结合,让您的企业可以在性能优化的基础设施上快速部署基于 BigDL 的可靠深度学习解决方案。

英特尔® 至强® 可扩展处理器

英特尔® 至强® 金牌处理器为面向在 Apache Spark* 上运行的 BigDL 的英特尔® 精选解决方案提供优异的性价比。具体而言,考虑内核数量与处理器速度,英特尔选择英特尔® 至强® 金牌 6148 处理器作为最低要求处理器,为面向在 Apache Spark* 上运行的 BigDL 的英特尔® 精选解决方案提供支持,优化典型深度学习工作负载的成本和性能。而包括全新英特尔® 至强® 金牌 6248 处理器的解决方案,性能与基于上一代英特尔® 至强® 可扩展处理器的类似配置解决方案持平甚至更高。与前几代英特尔® 至强® 处理器相比,英特尔® 至强® 可扩展处理器可使人工智能训练速度提高多达 1.4 倍,使人工智能推理速度提高多达 5.4 倍。1

英特尔® 固态盘数据中心家族

存储时延可成为深度学习性能的主要瓶颈。为此,面向在 Apache Spark* 上运行的 BigDL 的英特尔® 精选解决方案使用英特尔® 固态盘 DC S4500 和英特尔® 固态盘 DC P4510。这些企业数据中心固态盘基于英特尔® 3D NAND 技术,其年损坏率 (AFR) 比 HDD 低 3.2 倍。2

英特尔® 以太网连接和英特尔® 以太网适配器

英特尔® 以太网 700 系列可加快在 Apache Spark* 上运行的 BigDL 的英特尔® 精选解决方案的性能。这些解决方案采用配备万兆以太网 (GbE) 的英特尔® 以太网 700 系列,可提供经过验证的性能,在数据弹性和服务可靠性方面满足大多数介质类型和端口速度的高质量阈值,并以大量的测试、验证和全球产品支持作为后盾。3,4,5,6

 

什么是英特尔® 精选解决方案?

英特尔® 精选解决方案是一系列经过验证的硬件与软件堆栈, 针对特定的软件工作负载进行了计算、存储和网络方面的优化。这些解决方案的开发源于英特尔与行业解决方案提供商的深入合作,以及与全球领先数据中心和服务提供商的广泛协作。

若要符合英特尔® 精选解决方案的条件,解决方案提供商必须:

·  遵循英特尔规定的软件与硬件堆栈要求(请参见附录 A

·  达到或超过英特尔参考基准性能阈值

·  发布帮助客户进行部署的详细实施指南

解决方案提供商可以自行开发优化功能,为解决方案增加更多价值。

 

经过基准测试验证的性能

所有英特尔® 精选解决方案均通过基准测试验证,可满足工作负载优化性能的指定最低功能级别。为了满足深度学习工作负载的严格性能标准,英特尔选择运行 ImageNet* 数据集的 GoogLeNet* 拓扑9

2014 年,GoogLeNet (Inception v1*) 赢得 ImageNet 大规模视觉识别挑战赛 (ILSVRC)。ImageNet 是一个大型数据集,包含超过 100 万张多个类别的图像。凭借该深度学习拓扑与图像集的组合,英特尔能够刻画长期运行深度学习训练工作负载的系统资源利用率特征,从而为面向在 Apache Spark* 上运行的 BigDL 的英特尔® 精选解决方案找到最佳配置。7,8,9

 

基础配置

面向在 Apache Spark* 上运行的 BigDL 的英特尔® 精选解决方案提供附录 A 中显示的配置。“基础”配置指定了面向在 Apache Spark* 上运行的 BigDL 的英特尔® 精选解决方案必须具备的最低性能10

 

面向在 Apache Spark* 上运行的 BigDL 的英特尔® 精选解决方案的技术选择

除了用于面向在 Apache Spark* 上运行的 BigDL 的英特尔® 精选解决方案的英特尔硬件基础,英特尔® 至强® 可扩展处理器中集成的英特尔技术还可以进一步提高性能与可靠性:

·  英特尔® 卷管理设备(英特尔® V M D):支持通过外围设备互连标准* (PCIe*) 以热插拔方式更换 NVM E xpress* (NVMe*) 固态盘,无需关闭系统;标准化的 LED 管理功能则有助于快速识别固态盘的状态。这种标准化设计可为 NVMe 固态盘带来企业级的可靠性、可用性和可维护性 (RAS),让您放心地部署下一代存储系统。现在,IT 专业人士可在不断电的情况下在线维护这些驱动器,从而最大限度地减少服务中断,提高正常运行时间和可维护性。英特尔® VMD 的独特价值在于,英特尔已经开始在整个生态系统内部共享这一技术, 以促进该技术的广泛普及。

·  英特尔® 片上虚拟 RAID(英特尔® VROC)技术:提供高性能、低功耗/TCO;支持全功能 RAID 级别 0、1、5 和 10;是一款无主机总线适配器 (HBA) 的 RAID 解决方案。

·  英特尔® QuickAssist 技术(英特尔® QAT):一款分流引擎, 可加快一些关键工作负载,如基于英特尔® 架构的平台上的批量加密、公开密钥交换和数据压缩。英特尔® 至强® 可扩展处理器上的英特尔® QAT 具备优异的能力:使用 2,048 位 RSA 密钥实现高达每秒 100 千兆位 (Gbps) 的加密、100 Gbps 压缩和每秒 100,000 次解密操作。

·  互联网广域远程协议 (iWARP) 远程直接内存访问 (RDMA): 一种主机分流、主机旁路技术,允许在网络中的两个应用直接之间进行安全的内存到内存数据通信。iWARP RDMA 可利用当前不具备无损网络支持的以太网基础设施。该技术还提供流控制和拥塞管理,并且高度可扩展。

·  英特尔® 平台可信技术(英特尔® PTT):信任根,将完整可信平台模块 (TPM) 1.2 功能集成到平台固件。新的英特尔® PTT 功能作为选项提供,而非作为独立芯片提供,从而简化集成和激活。

·  英特尔® Boot Guard(安全性):基于硬件的引导完整性保护, 可防止未授权软件和恶意软件接管对系统功能至关重要的引导块,从而提供基于硬件的额外平台安全性。

使用面向在 Apache Spark* 上运行的 BigDL 的英特尔® 精选解决方案部署企业可直接使用的深度学习解决方案

英特尔® 精选解决方案提供的工作负载优化配置均针对英特尔® 至强® 可扩展处理器进行过验证,是实现数据中心转型的捷径。当组织选择面向在 Apache Spark* 上运行的 BigDL 的英特尔® 精选解决方案时,便会获得经过预先调优和测试的配置。这些配置已针对工作负载进行优化,并且经证实可通过英特尔® 至强® 可扩展处理器进行扩展,因此组织能够快速高效地部署深度学习解决方案,减少调优工作。

请访问 intel.cn/selectsolutions 了解更多信息,并向您的基础设施供应商咨询英特尔® 精选解决方案。

 

了解更多信息

英特尔® 精选解决方案:intel.cn/selectsolutions

英特尔® 至强® 可扩展处理器intel.cn/xeonscalable

英特尔® 固态盘数据中心家族:intel.cn/content/www/cn/zh/products/ memory-storage/solid-state-drives/data-center-ssds.html

英特尔® 以太网 700 系列:intel.cn/ethernet

英特尔® 精选解决方案由英特尔® Builders 提供支持:http://builders.intel.com。请关注我们的 Twitter 账号:#IntelBuilders

BigDL:https://software.intel.com/zh-cn/articles/bigdl-distributed-deep-learning-on-apache-spark

附录 A:面向在 Apache Spark* 上运行的 BigDL 的英特尔® 精选解决方案的基础配置

一个解决方案如要称为英特尔® 精选解决方案,服务器供应商或数据中心解决方案提供商必须达到或超过下面列出的最低配置组件和参考最小基准性能测试性能阈值。

产品和性能信息

1 面向英特尔® 架构优化的 Caffe Resnet-50* 性能并不一定能代表其他框架性能。基于英特尔内部测试:1 倍基准(2017 年 7 月 11 日)、1.4 倍训练(2018 年 8 月 2 日)和 5.4 倍推理(2018 年 7 月 26 日)性能提升基于英特尔® 至强® 可扩展处理器上的面向英特尔® 架构优化的 Caffe Resnet-50 推理吞吐量性能。性能测试结果基于截止到 2017 年 7 月 11 日(1 倍)、2018 年 8 月 2 日(1.4 倍)和 2018 年 7 月 26 日(5.4 倍)的测试,可能未包含所有公开发布的安全更新。2017 年 7 月 11 日详细信息:(上一代处理器)双路英特尔® 至强® 处理器 E5-2699 v4(2.20 GHz,22 核),启用英特尔® 超线程技术(英特尔® HT 技术),禁用英特尔® 睿频加速技术,通过 acpi-cpufreq 驱动程序将扩展调节器设定为“performance”,256 GB DDR4-2133 ECC RAM。CentOS* Linux* 版本 7.3.1611 (core),Linux 内核 3.10.0- 514.10.2.el7.x86_64。固态盘:英特尔® 固态盘 DC S3500(480 GB,2.5 英寸串行 ATA (SATA),每秒 6 千兆位 (Gbps),20 纳米 (nm),内存延迟检测器 (MLC))。(新一代处理器)双路英特尔® 至强® 铂金 8180 处理器(2.50 GHz,28 核),禁用英特尔® HT 技术,禁用英特尔® 睿频加速技术,通过 intel_pstate 驱动程序将扩展调节器设置为“performance”,384 GB DDR4-2666 ECC RAM。CentOS Linux 版本 7.3.1611 (core),Linux 内核 3.10.0-514.10.2.el7.x86_64。固态盘:英特尔® 固态盘 DC S3700(800 GB,2.5 英寸 SATA,6 Gbps,25 nm,MLC)。性能评测标准基于:环境变量设置为:KMP_ AFFINITY='granularity=fine, compact‘,OMP_NUM_THREADS=56,CPU 频率设置为 cpupowerfrequency-set -d 2.5G -u 3.8G -g performance。Caffe 框架详细信息:修订版 f96b759f7 1b2281835f690af267158b82b150b5c。推理能力的测量基于“caffetime --forward_only”命令,训练能力的测量基于“caffetime”命令。对于“ConvNet”拓扑,使用虚拟数据集。对于其他拓扑, 数据在本地存储,并且在训练之前在内存中缓存。拓扑规范来源于 https://github.com/intel/caffe/tree/master/models/intel_optimized_models(GoogLeNet*、AlexNet* 和 ResNet-50)、https://github.com/intel/caffe/tree/master/models/default_vgg_19(VGG-19) 和 https://github.com/soumith/convnet-benchmarks/tree/master/caffe/imagenet_winners(ConvNet 基准测试;更新文件以使用较新的 Caffe prototxt 格式)。2018 年 8 月 2 日详细信息:双路英特尔® 至强® 铂金 8180 处理器(2.50 GHz,28 核),启用英特尔® HT 技术,启用英特尔® 睿频加速技术,376 GB DDR4-2666 ECC RAM,resnet_50_v2 拓扑。引擎:面向深度神经网络的英特尔® 数学核心函数库(英特尔® MKL-DNN)版本 464c268e544bae26f9b85a2acb9122c766a4c396。2018 年 7 月 26 日详细信息:双路英特尔® 至强® 铂金 8180 处理器(2.50GHz,28 核),启用英特尔® HT 技术,启用英特尔® 睿频加速技术,192 GB DDR4-2666 ECC R AM,出色的(resnet--50, gnet_v3 --224, ssd--224)拓扑。Caffe 框架详细信息:推理能力的测量基于“caffe time --forward_only -phase TEST”命令,训练能力的测量基于“caffe train”命令。环境变量: KMP_AFFINITY='granularity=fine, compact,1,0‘,OMP_NUM_THREADS=28,CPU 频率设置为 cpupowerfrequency-set -d 2.5G -u 3.8G -g performance。使用“numactl-l”运行 Caffe。
2 基于 0.66% 的初始产品 AFR,而行业 AFR 平均水平为 2.11%。来源:Backblaze。“2017 年第 1 季度的硬盘统计信息。”2017 年 5 月。backblaze.com/blog/hard-drive-failure-rates-q1-2017/
3 除了广泛的操作系统支持外,英特尔® 以太网 700 系列还包括经过广泛测试的网络适配器、附件(光学元件和电缆)、硬件及软件。有关产品组合解决方案的完整列表,请访问:intel.cn/ethernet 。在英特尔® 至强® 可扩展处理器和网络生态系统中,硬件和软件已经过全面验证。产品针对英特尔® 架构和广泛的操作系统生态系统进行了优化:Windows*、Linux* 内核、FreeBSD*、Red Hat* Enterprise Linux (RHEL*)、SUSE*、Ubuntu*、Oracle Solaris* 以及 VMware ESXi*。
4 英特尔® 以太网 700 系列的客户售前和售后服务由全球支持体系支持。
5 支持的英特尔® 以太网 700 系列连接和介质类型包括:直连铜线和光纤 SR/LR(QSFP+、SFP+、SFP28、XLPPI/CR4、25G-CA/25G-SR/25G-LR)、双绞铜线 (1000BASE-T/10GBASE-T) 和底板 (XLAUI/XAUI/SFI/KR/KR4/KX/SGMII)。请注意,英特尔是唯一提供 QSFP+ 介质类型的供应商。
6 英特尔® 以太网 700 系列支持的速度包括 10 GbE、25 GbE、40 GbE 和 100 GbE。
7 Szegedy、Christian、Liu、Wei、Jia、Yangqing 等人。“深入了解卷积”。arXiv.org。2014 年 9 月。https://arxiv.org/pdf/1409.4842.pdf
8 Olga Russakovsky**、Jia Deng**、Hao Su、Jonathan Krause、Sanjeev Satheesh、Sean Ma、Zhiheng Huang、Andrej Karpathy、Aditya Khosla、Michael Bernstein、Alexander C、Berg 和 Li Fei-Fei。(** = 同等贡献作者)ImageNet 大规模视觉识别挑战赛。IJCV,2015。image-net.org/challenges/LSVRC/ 。
9 ImageNet。关于 ImageNet 页面。http://image-net.org/about-overview
10 性能测试结果基于截止到 2018 年 10 月 1 日的测试,可能未包含所有公开发布的安全更新。有关详细信息,请参阅配置披露。没有产品是绝对安全的。配置:一个主节点:2 个 英特尔® 至强® 金牌 6148 处理器、英特尔® 服务器主板 S2600WFT;总内存:192 GB;12 插槽/16 GB/2,666 每秒兆传输率 (MT/s) DDR4 RDIMM;禁用英特尔® 超线程技术(英特尔® HT 技术);启用英特尔® 睿频加速技术;存储(引导):1 个 240 GB 英特尔® 固态盘 DC S4500;存储:4 个 960 GB 英特尔® 固态盘 DC S4500;网络设备:1 个 10 Gb 英特尔® 以太网网络适配器 X722;网络速度: 10 GbE;ucode:0x043;操作系统/软件:CentOS Linux 版本 7.5.1804*;四个工作节点:2 个英特尔® 至强® 金牌 6148 处理器;英特尔® 服务器主板 S2600WFT;总内存:384 GB;12 插槽/ 32 GB/2,666 每秒兆传输率 (MT/s) DDR4 RDIMM;禁用英特尔® HT 技术;启用英特尔® 睿频加速技术;存储(引导):1 个 240 GB 英特尔® 固态盘 DC S4500;存储:4 个 3.8 TB 英特尔® 固态盘 DC S4500;网络设备:1 个 10 Gb 英特尔® 以太网网络适配器 X722;网络速度:10 GbE;ucode:0x043;操作系统/软件:CentOS Linux 版本 7.5.1804。