CERN 借助 AI 加速模拟工作负载

CERN 研究人员使用英特尔® 深度学习加速和带有英特尔® 至强® 可扩展处理器的 oneAPI 实现更快的推理。

概览:

  • 欧洲核子研究组织 CERN 的物理学家和研究人员利用一系列独特的粒子加速器设施来研究物质的最基本成分——基本粒子。

  • CERN 的 LHC(大型强子对撞机)的未来升级将显著提高粒子碰撞率。研究人员使用了英特尔® AI Analytics Toolkit 在配有英特尔® 深度学习加速技术的英特尔® 至强® 可扩展处理器中获得更高的推理性能。

author-image

作者

要点综述

在寻求加速模拟工作负载的过程中,研究人员充分利用了很可能广泛适用于加速蒙特卡罗模拟和深度学习推理的技术。其结果有助于突出英特尔® 至强® 可扩展处理器中 AI 加速功能的效果。

挑战

欧洲核子研究组织 CERN 的物理学家和研究人员利用一系列独特的粒子加速器设施来研究物质的最基本成分——基本粒子。全球 LHC 计算网格,即 42 个国家的 170 多个计算中心的全球性协作,用于模拟及分析和存储这项研究产生的大量数据。

工程师们看着小轮介子室被降低放入穴内,为近期大规模通用 ATLAS 实验做准备。介子室检测碰撞,为分析提供数据。使用的照片得到 © CERN 许可。

为了帮助满足未来对欧洲核子研究中心 (CERN) LHC(大型强子对撞机——世界上最大的粒子加速器)的需求,CERN、SURFsara 和英特尔的研究人员一直在重新思考各种方法,以提供新的非凡水准的 Monte Carlo 模拟。LHC 未来的升级将显著增加粒子碰撞率。在 LHC 实验中,发生碰撞后,热量计会测量粒子在通过探测器时损失的能量。热量计数据的解释是通过蒙特卡罗模拟完成的,该模拟能够有效地重建碰撞。

该研究人员团队希望加速有望比 Monte Carlo 模拟更快地产生结果的深度学习推理工作负载。这项工作是英特尔通过 CERN openlab 与 CERN 长期合作的一部分。CERN openlab 成立于 2001 年,是一个公私合营的机构,它致力于帮助加速信息和通信技术 (ICT) 的创新。如今,英特尔和 CERN 正携手开展各种调查研究,其覆盖范围从硬件评估到 HPC 和 AI。

解决方案

研究人员使用英特尔 AI Analytics Toolkit 在配有英特尔® 深度学习加速技术的英特尔至强可扩展处理器中获得更高的推理性能。英特尔深度学习加速扩展了 AVX-512 指令集,可为深度学习工作负载提供大为高效的推理加速。

此外,这些调查研究就如何加速依赖于蒙特卡罗模拟的模型提供了各种见解,这可能在其他许多领域都有用。

英特尔深度学习加速提供的内置 AI 加速是该项目性能提升的核心。研究显示,英特尔深度学习加速可以在不牺牲准确性的情况下加速推理。

结果

研究人员只用了之前计算资源的一小部分,就通过模拟未来可能出现的粒子加速器的热量计(使用特定条件下的生成对抗网络 (GAN), 展示了获得的性能提升。他们训练 GAN 的方法,以及使用英特尔深度学习加速来通过量化加速而不牺牲准确性的方法,为所有使用 Monte Carlo 模拟的应用开辟了令人兴奋的新可能性。

(图 2,左)量化导致 1.8 倍加速 1 通过在英特尔® 至强® Platinum 8280 处理器上使用英特尔® 深度学习加速(特别是 INT8 计算)技术加快速度,同时也显示出略微提高的准确性。

(图 3,右)多流推理将性能提升 2.2 倍1 通过在英特尔® 至强® Platinum 8280 处理器上使用英特尔® 深度学习加速技术加快速度。

此项工作产生了广泛的影响。正如 CERN 专门从事 AI 和量子研究的物理学家 Sofia Vallecorsa 博士所观察到的,全球大型强子对撞机计算网格中超过一半的计算都是用于模拟。性能、成本和准确性对于部署训练有素的模型都是至关重要的。

如图 2 所示,该团队看到其复杂 GAN 模型推理获得了 1.8 倍的提速。它还显示出略微提高的精度(越低越好:INT8 精度为 0.05324 与 FP32 精度为 0.061227)。1

通过在英特尔至强 Platinum 8280 处理器上使用英特尔深度学习加速技术(特别是 INT8 计算),量化带来 1.8 倍的速度提升,并且它也显示出略微提高的准确性。1

解决方案摘要

为了在不损失任何准确性的情况下采用他们的模型来使用英特尔深度学习加速,CERN 的研究人员使用了Intel Low Precision Optimization ,这是一个新的开源 Python 库,支持自动化精度驱动微调策略。该工具有助于加速在热门深度学习框架(包括 TensorFlow、PyTorch、MXNet 等)上部署低精度推理解决方案。您可在 GitHub 网站上获取该工具,并且英特尔® AI Analytics Toolkit 以及英特尔优化版本的 TensorFlow、PyTorch 和预训练模型都随附该工具,以加速深度学习工作流程。图 4 显示了在自动量化自动调整期间使用的流程。

CERN 研究人员发现,在英特尔深度学习加速技术的支持下,他们网络中大约一半的计算量可以从 float32 切换到 INT8 数值精度,而不会损失精确性。结果,他们看到性能几乎翻了一倍。1。这与完全从 float32 转换到 INT8 可以产生理论上最高 4 倍的性能提升的预期相符,原因是带来了额外的计算性能并减少了内存带宽。在实现一半的网络转换后,当 4 倍是完全转换的理论最大值时,实现略低于 2 倍的性能增益是有道理的。

图 4.量化是通过对精确性权衡的完全控制来实现的,从而显著提高推理性能。

该展览,类似于以发现希格斯粒子而闻名的两大通用实验之一, 展示了紧凑型介子螺线管 (CMS) 探测器以及产生三 W 玻色子的候选事件。图片经 © CERN 许可使用

值得注意的是,这一显著提升是在不牺牲准确性的情况下实现的。完全转换为 INT8 会提供更好的性能,但会损失该精确度,这是团队不希望给他们的应用程序带来的影响。由于支持自动精度调整工具,量化成为一项相对容易的重要技术。这让用户可以实现性能提升,同时可以将精确度控制在需要的水平。

研究证明,量化是一种有效加速推理的方法,而内置 AI 加速支持(带 INT8 )的 (英特尔深度学习加速)的英特尔至强可扩展处理器显示了它的强大功能。与之前的 32 位相比,性能几乎翻了一番。由于开源量化工具,维持住了精确度。

FP32 和 INT8 推理都曾针对多核进行了优化。SURF 的高性能计算与虚拟化主管 Valeriu Codreanu 解释这种性能优化说:“由于推理的计算成本低于培训(因为仅使用了 GAN 的生成器一部分),所以在此过程中使用多核时,硬件效率不是最佳的。为了克服这个问题,我们使用了多流量化推理,与使用相同的英特尔至强 Platinum 8280 系统的单流量化推理相比,速度提高了 2.2 倍。1。” 图 3 对此有说明。

在采用英特尔深度学习加速技术的英特尔至强 Platinum 处理器上,多流推理性能提升了 2.2倍。 Intel DL Boost 的 Intel Xeon Platinum 8280 处理器上,多流推理将性能提升 2.2 倍1

所用工具的关键部分,包括 TensorFlow 和 Python 中的加速功能,都采用了代带 oneAPI 支持的库。这意味着它们可以公开地用于异构系统,而不是仅用于一个供应商或一种产品(例如 GPU)。

oneAPI 是一种跨行业、基于开放标准的一致编程模型,可跨加速器架构提供普通开发人员体验。英特尔帮助创建了 oneAPI 并借助一系列开源编译器、库和其他工具为其提供支持。

通过 oneAPI 编程来使用 INT8,本案例研究中讨论的工作类型可以使用英特尔® Xe GPU、FPGA 来执行,或者通过任何其他支持 INT8 或它们可以量化的其他数字格式的设备来执行。

解决方案组成部分

视频演示《借助带有英特尔深度学习加速功能的低精度优化工具增强 AI 推理性能——高能物理用例》由(英特尔)Haihao Shen 和 (CERN openlab) Sofia Vallecorsa 博士提供。

CERN 论文《深度学习的降低精度策略:高能物理生成对抗网络使用案例》将在 2 月份 第十届国际模式识别应用和方法会议上发表

CERN GAN 工作

下载 PDF >

产品和性能信息

1CERN 论文《深度学习的降低精度策略:高能物理生成对抗网络使用案例》(Reduced Precision Strategies for Deep Learning: A High Energy Physics Generative Adversarial Network Use Case),将在 2 月份第十届国际模式识别应用和方法会议上发表。 http://www.icpram.org/