高性能计算与人工智能融合的三大方式

人工智能 (AI) 绝不是一个新概念。自 20 世纪 50 年代 Alan Turing 出版《计算机械与智能》之时,这一概念就已存在。然而,人工智能应用运行所需要的计算能力和海量数据集直至最近都并不容易获得。随着计算技术的发展和相关海量数据的出现,政府、学术界和企业研究人员现已能够获得运行人工智能应用所需的计算性能,以便进一步满足自身的任务需求。  

许多组织已经做到了依靠高性能计算(HPC)基础设施来支持开展建模和仿真等应用,现在他们正在探索如何从人工智能应用中获益。鉴于人工智能与高性能计算都对计算能力和性能有着很高的要求,因此,现有的高性能计算用户如果已经针对此进行了硬件优化,则可以准备开始利用人工智能了。他们还可通过将两个应用融合到同一基础设施中来提高效率和创收。

这种融合的实现取决于人工智能用例、组织内现有的高性能计算基础设施、公司目标和其它有待考虑的项目因素,如预算、技能和时间框架。由于没有一体适用的方案,所以您可以灵活根据自身的需求采用最适合的融合方式。以下列举了人工智能与高性能计算的几种融合方案供参考,为您的组织实现更多价值:

方案 1 —— 在现有高性能计算基础设施上运行人工智能应用。

通过该方式运行的人工智能应用通常由已完成基础设施优化的人工智能框架开发而来,如 TensorFlow*、Caffe* 和 MXNet*。正在使用基于英特尔® 至强® 处理器的高性能计算系统的公司,如果希望在高性能计算系统中添加人工智能功能,需确保正在使用最新版的优化框架,以便为计划中的用例提供最大支持。

例如,英特尔与诺华最近的一个合作项目就采用了此类融合方式,该项目通过深度神经网络(DNN)来加速图像分析中的高内涵筛选功能。高内涵筛选是早期药物开发的基础,能通过显微图像分析了解数千种基因或化学处理对不同细胞培养的影响。通过利用传统的图像处理技术来提取有关数千个预定义特征(如大小、形状和纹理)的信息来实现。将深度学习应用于此过程意味着系统将自动学习区分各个治疗办法的特征。

该团队应用深度神经网络加速技术处理多个图像,将图像分析模型的训练时间从 11 小时缩短到 31 分钟,速度提高了 20 多倍1。这一应用通过典型高性能计算基础设施(8 个基于 CPU 的服务器以及一个高速互连结构)与优化的 TensorFlow 机器学习框架得以实现2。借此,他们在深度学习训练中优化了数据并行的使用,并充分利用服务器平台的大内存支持。这样一来,只需 32 名 TensorFlow 工作人员便可每秒处理超过 120 个像素达 390 万的图像。

方案 2 —— 在建模与仿真工作流程中加入人工智能,以加速创新和发现

已经通过高性能计算来运行建模和仿真的组织可将人工智能加入到现有工作流程中,以便更快从结果中获得洞察。虽然现有的可视化技术可让科学家从仿真结果中获得洞察,但采用连续工作流程可让这一推导过程中的某些步骤自动化。这里所说的连续工作流程能够运行仿真和建模高性能计算工作负载,并将其所创建的数据提供给人工智能工作流程以改进洞察。

例如,普林斯顿大学神经科学研究所(Princeton University Neuroscience Institute)采用了类似的方式,通过高性能计算、机器学习(ML)和人工智能分析来自功能性磁共振成像(fMRI)扫描的数据,从而研究大脑内部的情况。该研究所使用通过真实扫描训练的机器学习系统来创建能够识别不同认知过程的大脑模型。此模型可用于观察患者对冲突刺激作出反应的实时 fMRI 脑图像,以“猜测”正在进行的认知过程(以及哪些刺激源获得了更多关注)。然后通过更新所展现的刺激源,将该信息用于即时反馈。这种使用高性能计算快速分析 fMRI 数据,并使用机器学习和人工智能系统做出反应的能力正帮助科学家更好地理解认知过程,从而改善精神疾病的诊断和治疗。

方案 3——将高性能计算与人工智能模式相结合

一个更加野心勃勃的方案是将高性能计算仿真融入到人工智能当中,由人工智能通过仿真来增强训练数据,或为通常未标记的数据提供监督标记。或者,还可将人工智能嵌入到高性能计算仿真中,用习得的函数替换显式第一性原理模型。

天文学领域通常是高性能计算的重量级用户,该领域出现了很多通过结合高性能计算与人工智能模式来加速空间研究的新用例。

其中一个用例涉及使用人工智能研究引力透镜,这是一种非常罕见的现象。当一个巨大的物体,如星系或黑洞,出现在某个光源与地球上观察者之间时,周围的光线和空间就会发生扭曲。这样一来,天文学家便可看到他们通常无法看到的宇宙中更遥远(且更古老)的部分。

引力透镜很难被发现,但这一现象已通过手动处理空间图像的传统方式被证实存在。2017 年,波恩、那不勒斯和格罗宁根大学的研究人员通过卷积神经网络(CNN)加速了探测进程。他们首先创建了一个数据集,通过向人工智能网络提供 600 万个假引力透镜图像来训练神经网络,并让其识别其中的规律。训练之后,人工智能系统开始挑战来自太空的真实图像,对其进行分析,分析速度比人类快很多,而且精准度极高。.

最近,另一用例表明,基于人工智能的模型可在仿真中替代运算繁杂的任务。

在此例中,英特尔与高能物理(HEP)科学家合作研究了粒子碰撞过程中所发生的情况。该研究使用了大量 CPU 来支持最复杂最耗时的仿真任务,其中包括处理来自高粒度热量仪的信息(高粒度热量仪是一种测量粒子能量的设备)。该团队旨在加快针对来自设备的碰撞数据的研究,为未来碰撞可能产生的更大数据量做好准备。

该团队希望了解他们在热量仪图像上训练的生成式对抗网络(GAN)是否可以替代目前分析中所使用的运算繁杂的蒙特卡罗算法。生成式对抗网络是一种适用性很强的人工智能应用,因此它非常适合根据所研究的数据生成新的变体。生成式对抗网络还可用于针对复杂的概率分布生成实际样本,因为它支持多模式输出和插值,对缺失数据具备健壮性。

完成生成式对抗网络训练后,该团队发现由此生成的图像与基于仿真的蒙特卡罗算法产生的图像高度一致。他们审查了两种算法的高级特质,如能量簇射形状,以及在单元水平上的热量仪响应细节,而两者一致性非常高。这为进一步研究由机器学习生成的分布铺平了道路,以取代基于物理学的昂贵仿真。

人工智能应用上手

您在迈出人工智能与高性能计算相融合的第一步之前,务必需要了解不同的人工智能能力,及其能够帮助解决的特定问题。第二步要寻找能够为您的用例提供支持的人工智能框架。在进行框架选择时,最好选择已针对您当前使用的高性能计算基础设施完成优化的框架。对于希望在基于英特尔® 技术的现有基础设施上运行人工智能的公司,我们编制了针对热门人工智能框架进行了优化的资源概览供参考。

第三步要在您现有的高性能计算基础设施上试运行人工智能工作负载。英特尔致力于与学术界、政府和企业客户合作,帮助他们在高性能计算环境中审视、规划和使用人工智能功能。想要了解更多有关如何优化高性能计算架构,实现人工智能融合的信息,请阅读此解决方案简介

对于希望针对特定工作负载(如专业可视化或仿真和建模)优化现有基础设施的组织,面向高性能计算的英特尔® 精选解决方案可提供易于部署的基础设施。英特尔® 精选解决方案已针对特定高性能计算应用完成了优化,有助于尽快实现突破、提供可行洞察和设计新产品。

高性能计算

了解英特尔的高性能计算 (HPC) 处理器、架构、框架和解决方案的产品组合。

了解更多

人工智能

实现解决方案加速和运营自动化,收集更好的洞察,以及做出更明智的决策。

了解更多

高级数据分析

了解跨行业利用的高级数据分析如何推动业务转型。

了解更多

产品和性能信息

1从单节点系统扩展到 8 路集群,速度提升 21.7 倍,性能提升 20 倍。8 路集群节点配置:CPU:英特尔® 至强® 6148 处理器,2.4GHz;内核:40;插槽:2;超线程:已启用;内存/节点:192GB,2666MHz;网卡:英特尔® Omni-Path 主机网络接口(英特尔® OP HFI);TensorFlow:v1.7.0;Horovod:0.12.1;OpenMPI:3.0.0;集群:ToR 交换机;英特尔® Omni-Path 交换机。单节点配置:CPU:英特尔® 至强® 融核处理器 7290F,192GB DDR4 RAM,1x 1.6TB 英特尔® 固态盘 DC S3610 系列 SC2BX016T4、1x 480GB 英特尔® 固态盘 DC S3520 系列 SC2BB480G7、英特尔 ® MKL 2017/DAAL/英特尔 Caffe在特定系统的特殊测试中测试组件性能。硬件、软件或配置的差异将影响实际性能。当您考虑采购时,请查阅其他信息来源评估性能。关于性能和基准测试程序结果的更多信息,请访问 http://www.intel.cn/benchmarks。英特尔技术特性和优势取决于系统配置,并可能需要支持的硬件、软件或服务得以激活。产品性能会基于系统配置有所变化。没有计算机系统是绝对安全的。更多信息,请见 intel.cn,或从原始设备制造商或零售商处获得更多信息。英特尔、英特尔标识、至强是英特尔公司或其子公司在美国和/或其他国家的商标。* 其他的名称和品牌可能是其他所有者的资产。© 英特尔公司版权所有
2从单节点系统扩展到 8 路集群,速度提升 21.7 倍,性能提升 20 倍。8 路集群节点配置:CPU:英特尔® 至强® 6148 处理器,2.4GHz;内核:40;插槽:2;超线程:已启用;内存/节点:192GB,2666MHz;网卡:英特尔® Omni-Path 主机网络接口(英特尔® OP HFI);TensorFlow:v1.7.0;Horovod:0.12.1;OpenMPI:3.0.0;集群:ToR 交换机;英特尔® Omni-Path 交换机。单节点配置:CPU:英特尔® 至强® 融核处理器 7290F,192GB DDR4 RAM,1x 1.6TB 英特尔® 固态盘 DC S3610 系列 SC2BX016T4、1x 480GB 英特尔® 固态盘 DC S3520 系列 SC2BB480G7、英特尔 ® MKL 2017/DAAL/英特尔 Caffe在特定系统的特殊测试中测试组件性能。硬件、软件或配置的差异将影响实际性能。当您考虑采购时,请查阅其他信息来源评估性能。关于性能和基准测试程序结果的更多信息,请访问 http://www.intel.cn/benchmarks。英特尔技术特性和优势取决于系统配置,并可能需要支持的硬件、软件或服务得以激活。产品性能会基于系统配置有所变化。没有计算机系统是绝对安全的。更多信息,请见 intel.cn,或从原始设备制造商或零售商处获得更多信息。英特尔、英特尔标识、至强是英特尔公司或其子公司在美国和/或其他国家的商标。* 其他的名称和品牌可能是其他所有者的资产。© 英特尔公司版权所有