使用英特尔® CPU 技术优化推理

使用英特尔® CPU 技术优化推理

概述

  • 作为企业 AI 解决方案的核心,英特尔® 至强® 可扩展处理器内置多种 AI 加速器,可提升 AI 工作负载处理速度,有效减低时延;基于第三代产品的 AI 平台整合多种开源软件、框架和库的统一 AI 管道,成本效益更高,相比第二代产品,推理性能大幅提升,可加速转化为可行洞察。未来,第四代至强® 还将引入英特尔® AMX,进一步实现性能提升并降低成本。

author-image

作者

使用基于开放标准的多种工具以及英特尔® 至强® 可扩展处理器的内置 AI 加速器, 统一并增强您的 AI 管道。在软硬一体的 AI 平台上获享更高的推理性能和更低的总体拥有成本 (TCO)。
 

  • 目前推理所用的已装机 CPU 中高达 70% 是英特尔® 至强® 可扩展处理器1
  • 英特尔® 至强® 可扩展处理器是内置 AI 加速器的 x86 数据中心级 CPU2
  • 相较于独立加速硬件,英特尔® 至强® 可扩展处理器可将 20 个工作负载的 AI 性能提升高达 30%3

AI 部署:事实与构想

人们普遍认为,在数据中心运行的各种高性能 AI 工作负载都需要使用图形处理器 (GPU)。如果您也持有相同的观点,那么在得知如今的 AI 开发和部署管道大都运行在英特尔® 至强® 可扩展处理器上时或许会感到惊讶。2021 年,在所有运行 AI 推理工作负载的已装机数据中心级处理器中,英特尔® 至强® 可扩展处理器的占比高达 70%1。如今以数据为中心的企业和机构部署 AI 的业务和运营原因多种多样。不过,如数字所示,他们首选的 AI 解决方案大都围绕着使用英特尔® 至强® 可扩展处理器来提高推理性能。

许多企业和机构都通过部署基于云的 AI 解决方案在瞬息万变的市场环境中保持敏捷性。比如,公用事业企业会利用基于云的 AI 来驱动预测模型,使模型可以更准确地预测天气变化情况,帮助提升风力发电机的效率。这些云实例都运行在英特尔® 至强® 可扩展处理器以及使 AI 管道得到统一和简化的开源软件生态系统上。一个整合了多种开源软件、框架和库的统一 AI 管道,有助于多个机器学习 (ML) 模型原型的快速开发和部署。这种开放的一体化生态系统能够帮助企业和机构大幅缩短为复杂的预测模型找到解决方案的时间。同时,与采用专有软硬件搭建的平台相比,基于 CPU 的统一平台横向扩展成本更低,也更容易管理。

使用 AI 进行医学影像分析的医疗机构可以依靠英特尔® 至强® 可扩展处理器快速处理海量数据,近实时地生成高度准确的报告,并为患者机密信息提供强大的数据保护。英特尔® 至强® 可扩展处理器内置英特尔® 深度学习加速技术 (英特尔® DL Boost)。在这项优化技术的支持下,处理器可为用于医学影像分析的深度学习 (DL) 模型提供高性能推理。另外,英特尔® 至强® 可扩展处理器还能够帮助保护 AI 工作负载,实现基于硬件的数据和系统安全,这也有利于医疗机构遵守 《健康保险携带和责任法案》 (HIPAA) 的各项规定。

电子商务提供商会通过基于 AI 的自然语言处理 (NLP) 和神经机器翻译 (NMT) 界面与国际客户进行交流。终端用户要想获得准确流畅的对话体验,响应时延需要至少达到微秒级4。英特尔® 至强® 可扩展处理器能够使用 8 位整数格式的低精度算术运算 (INT8) 方法实现比 32 位单精度浮点运算 (FP32) 工作负载更低的时延,同时保持较高的准确性。其内置的英特尔® 高级矢量扩展 512(英特尔® AVX-512)和矢量神经网络指令 (VNNI) 则可以进一步提高 INT8 推理性能5

图 1. 数据阶段的工作负载几乎全部由 CPU 处理,由此产生的处理器活动约占整个 AI 管道处理器活动的三分之二

长期以来,业界所持的观点是数据中心部署 AI 必须使用 GPU。这种观点是基于 GPU 在深度学习训练方面非常出色的表现。但深度学习训练在模型阶段占比很小。事实上,可通过 CPU 处理的机器学习模型选择和训练才是在模型阶段占比大的工作负载。占比最大的 AI 管道活动都处在数据阶段,它们与推理一样, 属于 CPU 密集型工作负载 (见图 1)。

既然推理属于 CPU 密集型工作负载,那么,您就可以通过在现有基础设施中部署英特尔® 至强® 可扩展处理器来大幅提升 AI 总体性能。基于英特尔® 至强® 可扩展处理器的 AI 平台支持开源软件环境,与专门用于训练的专有解决方案相比,在购买、操作、扩展和升级上的成本效益更高。英特尔® 至强® 可扩展处理器的另一大优势是可运行多种非 AI 工作负载,这有助于您利用现有的数据中心架构实现更多功能,获得更高效率。

提升现有数据中心基础设施的 AI 性能和成本效益

英特尔® 至强® 可扩展处理器无需使用复杂的变通方案,即可帮助企业和机构简化数据工作流程、减少应用时延。借助这些优化措施,您可以搭建更为简单的数据中心架构,在整个网络中实现多种 AI 工作负载的端到端顺畅连接。

第二代和第三代英特尔® 至强® 可扩展处理器均为由内置 AI 加速器与多种优化软件和工具提供支持的 x86 数据中心级 CPU2。使用这些 AI 增强型处理器,可在不增加数据基础设施复杂性的情况下,实现计算密集型推理工作负载的加速。

借助英特尔® DL Boost 加速推理

得益于多种内置 AI 加速器,如内含矢量神经网络指令 (VNNI) 的英特尔® DL Boost,第三代英特尔® 至强® 可扩展处理器可实现显著的性能优势。以面向神经机器翻译 (NMT) 的深度学习工作负载为例,英特尔® DL Boost 可显著提升该工作负载的处理速度。深度学习工作负载在处理语言数据时,需要考虑本地化用法、不断变化的趋势以及习语的歧义。为使用户获得实时交互体验, 神经机器翻译时延必须控制在 10 纳秒以内。由于第三代英特尔® 至强® 可扩展处理器的多种内置 AI 加速器可提升深度学习工作负载的推理速度,因此可将神经机器翻译的时延降至 8.9 纳秒4

大多数深度学习应用都使用 FP32 精度模式处理推理工作负载。第二代英特尔® 至强® 可扩展处理器会利用英特尔® AVX-512 指令提高基于 FP32 的数据吞吐量5,并通过英特尔® DL Boost 支持基于 INT8 的工作负载。相较于 FP32,INT8 卷积运算可将推理性能提升高达 3 倍,更重要的是,它对运算准确性的影响很小6。第三代英特尔® 至强® 可扩展处理器在内置的英特尔® DL Boost 的助力下,能使基于 INT8 的推理性能达到第二代英特尔® 至强® 可扩展处理器的 1.56 倍之多7。对于那些不需要较高精度的 AI 训练工作负载而言,英特尔® DL Boost 可使用脑浮点格式 (BF16) 来提升其性能8

借助开源软件生态系统优化 AI 性能

第三代英特尔® 至强® 可扩展处理器专为开源软件环境打造,有助于整合从边缘到云的 AI 应用,更快推出解决方案或投产。在开源软件环境中部署 AI 可提高管理效率,藉此降低 TCO。IT 人员可以整合各种开源软件,而无需担心软件是否可按预期运行。他们可以使用熟悉的工具来优化 AI 性能,而无需采用复杂的变通方案或具备相关专业知识。借助开源工具,IT 人员可以对 AI 性能进行调优,实现“一次编写,随处部署”的代码效率。

第三代英特尔® 至强® 可扩展处理器与多种内置加速器共同发力,可使 TensorFlow 和 PyTorch 等多种 AI 框架受益9。与未经优化的 AI 框架相比,英特尔® DL Boost 可将 TensorFlow 和 PyTorch 的深度学习工作负载性能最多分别提高 16 倍和 53 倍10。通过使用英特尔® oneAPI 数据分析库 (oneDAL),在第二代英特尔® 至强® 可扩展处理器上运行的 scikit-learn 可实现高达 100 倍的性能提升11

图 2. 英特尔® 至强® 可扩展处理器利用英特尔® 分发版 OpenVINO™ 工具包实现整合,跨以下异构硬件支持多种机器学习/深度学习框架和库:GPU、CPU、现场可编程门阵列 (FPGA)、英特尔® 神经计算棒 2(英特尔® NCS2)、视觉处理器 (VPU) 和专用集成电路 (ASIC)

借助英特尔® 分发版 OpenVINO™ 工具包更快获取商业洞察

英特尔® 分发版 OpenVINO™ 工具包可通过一个易用的计算机视觉 (CV) 库和多个预训练模型,提升英特尔® 至强® 可扩展处理器的 AI 性能12。您可以使用英特尔® 分发版 OpenVINO™ 工具包加速 AI 推理管道,提升媒体分析速度。媒体分析的作用是处理物联网 (IoT) 传感器和设备所产生的音频流和视频流。AI 可以通过神经网络训练、推理和分析将这些媒体流转化为可行洞察。与第二代英特尔® 至强® 可扩展处理器相比,第三代英特尔® 至强® 可扩展处理器在英特尔® 分发版 OpenVINO™ 工具包的帮助下,可将某些图像分类工作负载的推理性能提升高达 47%13

图 3. 与第二代英特尔® 至强® 可扩展处理器相比,第三代英特尔® 至强® 可扩展处理器在英特尔® 分发版 OpenVINO™ 工具包的帮助下,可将 Inception-v4-TF 模型的推理时延降低多达 47%13

英特尔® 分发版 OpenVINO™ 工具包内含模型优化器 API 和 Open Model Zoo,您无需具备丰富的编码知识,即可轻松实现 AI 推理的自动化、优化、调整和运行。内置推理引擎跨异构硬件(包括 CPU、GPU、FPGA 和英特尔® NCS2)支持计算机视觉加速器。

英特尔® DevCloud 中测试驱动下的 AI 应用

英特尔® DevCloud 是一个设备沙盒,为您提供获取开发 AI 应用所需支持的路径。您可以使用全新英特尔® 至强® 可扩展处理器在集群上开发、测试和运行 AI 工作负载。借助英特尔® DevCloud,您可以探索英特尔® 分发版 OpenVINO™ 工具包的无码 AI 加速器,试试专为 ONNX 框架创建的深度学习推理样本。

借助第四代英特尔® 至强® 可扩展处理器获得更多 AI 加速器功能

虽然 GPU 和其他独立加速器可为特定 AI 部署提供出色性能,但具有 AI 加速功能的创新型 CPU 却可以不断扩大整个 AI 管道的成本效益、带来更出色的处理能力。展望英特尔未来的 CPU 发展蓝图,第四代英特尔® 至强® 可扩展处理器将会提供新的、性能更加出色的内置加速器。例如,在对 CPU 和专用处理器的对比中,使用第四代英特尔® 至强® 可扩展处理器的双路服务器每秒可处理超过 24K 的图像推理1415

放眼未来,在英特尔® 硬件中实现 AI 部署标准化有助于确保在升级至第四代英特尔® 至强® 可扩展处理器后,推理性能得到提升,但不会影响 AI 工作负载或不会增加平台的复杂性。全新标量架构下的容量足以供未来多代英特尔® 至强® 可扩展处理器增加更多 AI 功能。

第四代英特尔® 至强® 可扩展处理器能带给您哪些 AI 创新功能?

借助英特尔® 高级矩阵扩展优化 AI 和非 AI 处理任务的效率

第四代英特尔® 至强® 可扩展处理器将引入一个新的 AI 加速器——英特尔® 高级矩阵扩展(英特尔® AMX)16。该加速器能够进一步加速 INT8 推理工作负载,与使用英特尔® AVX-512 和 VNNI 指令实现加速的第三代英特尔® 至强® 可扩展处理器相比,每核每时钟周期的运算速度可提升高达 8 倍17

英特尔® AMX 架构和指令的运行方式类似于脉动阵列,可高效处理矩阵乘法。换言之,英特尔® AMX 使第四代英特尔® 至强® 可扩展处理器能够像 GPU 那样处理训练方面的工作负载和深度学习算法。但不同于训练专用加速器,英特尔® AMX 加速器还可以为 CPU 首选处理任务加速,满足其他 AI 阶段和非 AI 工作负载的需求。

第四代英特尔® 至强® 可扩展处理器可以使用英特尔® oneAPI 深度神经网络库(英特尔® oneDNN)进行调优以大幅提升效率。oneDNN 是 oneAPI 工具套件的组成部分,可整合到 TensorFlow 和 PyTorch 这些 AI 框架,以及与英特尔® 分发版 OpenVINO™ 工具包配合使用。另外,您还可以使用 oneAPI 工具套件编写指令,摆脱手动为 AI 和非 AI 工作负载指派相应加速器带来的管理负担。这方面的自动化使第四代英特尔® 至强® 可扩展处理器能够运行各种数据管道工作负载,并根据峰值和非峰值周期自动扩展和收缩。

当前及未来均可获享更高的成本效益与更出色的推理性能

目前,各个行业的企业和机构都在探索由英特尔® 至强® 可扩展处理器及内置加速器提供支持的开放式、可扩展 AI 平台如何能够实现出色的性能和 TCO 表现。现在,借助第三代英特尔® 至强® 可扩展处理器,您已经可以获得成本效益和出色的推理性能,而使用第四代英特尔® 至强® 可扩展处理器,您可以进一步实现性能提升并降低成本。

所有英特尔® 至强® 可扩展处理器都支持开源软件环境、开源 AI 框架和库,以及像英特尔® 分发版 OpenVINO™ 工具包这样的开源工具。开放的 AI 平台可高效地利用现有技术并提供面向未来的兼容性,满足扩大应用范围,实现扩展和升级等需求。

了解有关 “Critical Considerations for AI Deployments”(AI 部署的关键考量因素)的更多信息,请访问 intel.com/content/www/us/en/products/performance/nvidia-ai-facts.html 或联系您的英特尔销售代表,了解如何实施英特尔® 至强® 可扩展处理器,帮助您降低 TCO 并提升 AI 部署性能。