优化高性能计算架构,
实现人工智能融合

评估现有的高性能计算平台,高效运行人工智能驱动的工作负载。

下载文档

执行概要

近年来,人工智能(AI)在功能、数据量和计算能力方面的增长,使之成为目前大多数组织需要考虑的一个重要因素。人工智能与高性能计算(HPC)相结合,将发挥更大的潜力。然而,这两者的融合需要周密的考量和规划。新的人工智能计划必须与组织战略保持一致。再者,人工智能工作负载必须与现有的高性能计算基础设施相集成,才能最高效且经济地取得出色结果。本文概述了当组织期望将人工智能引入高性能计算环境时,需要考虑的关键因素和所需采取的步骤,以确保首次尝试高性能计算/人工智能融合取得成功。

人工智能和高性能计算融合的考虑因素

随着人工智能的兴起,高性能计算专家面临着全新的挑战及机遇。虽然对人工智能应用的研究已经开展了几十年,但长期以来,数据量和计算能力一直无法达到支撑获取洞察并以此做出有力决策的水平。随着众多学术组织、政府和企业不断生成海量数据,加上计算能力的显著提高和成本的降低,人工智能终于成为一个可行的选择。

这种演变的结果衍生出了许多讨论,关于人工智能解决方案与现有的高性能计算工作负载(如仿真和建模)融合后,将如何改变业务模式,并加速科研与学术成果的获取。然而,实际情况并没那么简单。首先,我们需要思考“融合”的含义。这一词语的含义并不止一种,因为人工智能和高性能计算根据组织的需求和应用案例可能有多种不同的组合方式。例如,以下场景都可以描述为高性能计算和人工智能的融合:

• 在现有的高性能计算基础设施上引入并运行人工智能框架(如 Tensorflow*)。

• 通过使用人工智能引擎来分析模型运行之后的输出数据,以优化现有的高性能计算工作负载(如仿真和建模)。

• 使用生成式对抗网络(一类专为无监督机器学习而设计的人工智能算法)来组合复杂的数据源。例如,对暗物质的宇宙学研究如今可以在高性能计算集群上运行线性代数方程来创建统计模型。通过在同一平台上添加人工智能层,就有可能从卫星中提取数据和图像,从而有助于加快生成结果并增强模型。

这些例子只是一个开始。为了实现工作负载的这种融合,还必须考虑底层技术堆栈。虽然硬件层的要求在某些方面可能类似,但它们的编程和运行的软件堆栈截然不同。例如,高性能计算应用通常在高端裸机基础设施上运行,具有经过优化的中间件,如并行文件系统、经过优化并且面向特定域的高性能计算库。而当前的人工智能应用通常在以公有云或私有云为中心的基础设施和中间件上运行,如 Hadoop 分布式文件系统*(HDFS*)、Spark* 和 S3*。

正如没有一个单一的融合起点一样,也没有一体适用的融合堆栈。对于那些希望在当前环境中将人工智能和高性能计算融合到一起的组织来说,有两点需要牢记:

•不管怎么炒作,人工智能不是万能药。至关重要的一点是,必须从组织的战略挑战和侧重点出发,再确定人工智能能否有助于满足这些需求。没有战略驱动力,单纯为了引入人工智能而引入人工智能,这并非长久之计。

•高性能计算和人工智能的融合现已开始,最佳实践仍在不断发展中。不过,您仍可利用现有的基础设施作为起点,开始您的融合之旅。

人工智能和高性能计算融合上手

您必须首先查看您的业务或任务目标,并明确人工智能可以在哪些方面帮助实现更快、更经济或更准确的高性能计算结果。人工智能仍然是一个不断发展的领域,研究机构、大学和企业仍在评估它将如何帮助组织加快执行任务的速度。作为新的人工智能采用者或开发者,您的首要任务应当是确保您的投资专注于从现有的基础设施中收获更多价值或提高生产力,同时开发和优化算法,对模型进行训练,以满足组织的需求。在大多数高性能计算中心里,现有的基础设施是基于英特尔® 至强® 处理器的集群,可针对许多人工智能工作负载进行优化。在您完全了解是否真正需要或如何有效利用现有基础设施之前,您并不需要投资新的、昂贵的加速器和/或 GPU。如果您不确定首先要处理哪些应用案例,研究一下其他客户的成功案例将非常有益。

此外,切记当今的人工智能不是一站式解决方案。它需要特定的开发人员技能和资源来构建高质量的训练模型,然后将这些模型集成到您的高性能计算流程中,以获得洞察。一般来说,运用人工智能的数据科学家通常不具备使用人工智能框架所需的编码技能,因此需要具备这些技能的人员对他们进行训练或支持。这与选对技术同样重要。再者,您可以通过从英特尔® AI Academy持续获得洞察和培训,以补充和发展这些技能。该学院提供有关如何在从云端到边缘设备的任何地方使用英特尔® 技术进行深度学习和其它人工智能工作负载的指导。

优化步骤

在英特尔,我们与学术界、政府和企业等众多客户合作,帮助他们在高性能计算环境中研究、规划和实施人工智能功能,我们推荐他们遵循以下五个关键步骤:

1. 了解您高性能计算基础设施的当前性能。评估您的计算、内存、存储和 I/O 资源,并确定可能需要哪些投资来优化人工智能。只有部署在高性能计算平台(如英特尔® 至强® 可扩展处理器)、低时延互连,如英特尔® Omni-Path 架构(英特尔® OPA)以及可支持大数据集的足够内存(如英特尔® 傲腾™ 固态盘)上,高性能计算和人工智能工作负载才可达到最佳运行表现。如果您刚刚开始评估您的人工智能需求,请务必在评估技术能力和识别缺口时,了解组织内部所有利益相关方的目标。

2. 评估各种可用的人工智能框架和库并确定哪些产品符合您的需求。现已有一系列可用框架(如 Te n s o r f l o w *、Caffe* 和 MXNet*),让您能够构建涵盖许多人工智能常见应用案例的应用,包括图像识别、语言翻译、推荐引擎和生成式对抗网络。

3. 确保您选择的人工智能框架已针对您当前的高性能计算基础设施进行了优化(可通过下载最新的优化框架来完成)。这一点至关重要,可确保您的人工智能应用获得最高可扩展性、最高效率和最佳性能。

4.如果您选择自己开发算法,请从一开始就专注于针对现有的英特尔® 架构环境优化算法。在这一阶段,您不需要在加速器或 GPU 等新硬件上投入大量资金。如果您选择使用云端现成的工具测试您的算法,请确保您使用的资源也已针对现有的基础设施进行了优化。例如,英特尔与 Amazon Web Services 密切合作,优化云端的训练算法。对于软件开发,请确保您正在使用最新的工具,这有助于流程更顺畅、更快速。

5. 了解您的工作负载会是何种形态。务必弄清自己规划的人工智能计划将需要多少训练和推理,因为您需要的功能会有所不同。

框架优化

英特尔致力于确保基于英特尔® 至强® 可扩展处理器的最新计算平台已针对常见的人工智能框架进行了优化。这些优化包括:

• 英特尔® Optimization for TensorFlow*:这个基于 Python* 的深度学习框架,旨在加强现代深度神经网络的易用性和可扩展性。

• 英特尔® Optimization for Caffe*:这个 Caffe 的优化分支是最为流行的图像识别框架之一。

• MXNet*:这个开源深度学习框架包含对于英特尔® 数学核心函数库(英特尔® MKL)的内置支持。

为扩大规模和进一步发展做好准备

一旦您成功实施并运行了第一个实验性人工智能工作负载,下一个挑战就是将其向整个组织扩展以进行全面部署。为了实现这一目标,编写的应用(使用最新的优化框架)需要能充分利用高性能系统中的功能,可在 CPU 的所有内核上执行,并可扩展至整个高性能计算集群的多个节点。利用这些功能,并清楚地了解训练模型所需的时间和频率,从而来决定您是否能够高效地扩展,并从运算角度判断需要在哪些方面进行投资。对于那些想要快速启动并投入运行的组织来说,英特尔与其他行业领先企业合作开发了面向高性能计算的英特尔® 精选解决方案,这是面向快速部署基础设施的技术套件,已针对分析集群和高性能计算应用进行了优化,旨在缩短实现突破、提供可行洞察和设计新产品的时间。

无论您选择从哪种人工智能工作负载开始,与高性能计算环境实现完全融合都需要时间。随着高性能计算和人工智能功能的不断演进,将出现新的挑战和机遇。但是,只要您始终将重心放在促成组织目标上,您就更有希望取得长远成功。

 

了解更多信息

• 训练:使用 TensorFlow* 进行深度学习训练和测试寻找适合贵公司的解决方案,请联系您的英特尔代表或访问 intel.cn/hpc

高性能计算

了解英特尔的高性能计算 (HPC) 处理器、架构、框架和解决方案的产品组合。

了解更多

人工智能

实现解决方案加速和运营自动化,收集更好的洞察,以及做出更明智的决策。

了解更多

高级数据分析

了解跨行业利用的高级数据分析如何推动业务转型。

了解更多