构建从边缘到云的人工智能基础设施

打破数据孤岛,随时随地提供及时洞察

  • 边缘计算、云和 AI 已经在各自发挥作用。但未来的成功离不开三者的结合,以此构建基于 AI 的基础设施,形成数据良性循环。本文详解了其中的三大要素——边缘设备、边缘基础设施和云,并以大量真实案例加以阐释,以及英特尔® 产品和技术在其中的作用。最后,文章还提出了整合 AI 环境的方法,指导您构建从边缘到云的 AI 基础设施。

BUILT IN - ARTICLE INTRO SECOND COMPONENT

简介

随着业务运营速度不断加快,客户期望持续提升,对许多企业和机构而言,越来越多的决策必须从总部下放到其他位置。无论是在车间现场与客户打交道,还是在繁忙的生产线上工作,每个员工都需要洞察和信息来实时做出重要决策。有时,这些决策可能需要完全自动化完成。

越来越多的决策正在基于边缘生成的数据。事实上,边缘采集的数据量十分庞大。Gartner 预测,到 2025 年,将有多达 75% 的企业数据会在传统数据中心以外生成1。将计算能力安排在更靠近数据产生的位置可以实现新的实时用例,甚至可以从敏感数据中创造新的收入来源。

实现这一目标离不开三种技术的有效结合:边缘计算、云和人工智能 (AI)。虽然这三种技术分别都能带来价值,但如果企业可以做到在整个基础设施中整合这些技术并实现全方位从边缘到云的智能,则更有可能取得成功。这就像一个良性循环。边缘越来越多的设备和算力将生成更多数据,从而支持更复杂的人工智能用例。反过来,这又将产生更多洞察,这些洞察可以通过云传输到整个企业和机构,并用于进一步优化未来的数据收集和分析。

从边缘到云的人工智能:定义

• 边缘:边缘计算是指将传输、存储和处理数据的资源安排在更靠近数据源或服务交付点的位置。这样一来,企业可以减少时延,改善体验,优化总体拥有成本,符合数据局部性要求并获得可以指导行动的洞察。

• 云:通过云计算,您可以在数据中心或通过公有云服务提供商远程访问计算、存储和网络资源。

• 人工智能:人工智能包含一系列广泛的、旨在模拟人类能力(如感知、逻辑、学习能力等)的计算机科学。结合使用不同的人工智能技术(如深度学习和强化学习)以推动一般化的智能发展是该领域当前的一个新兴趋势。

边缘包括所有遥远的服务核心(即数据中心或云)以外的数据收集、处理、存储和通信。在本文中,我们将广义的边缘概念分为两部分:

• 边缘设备:生成或使用数据的单一用户资产,如无人机、可穿戴设备、智能手机、智能音箱、工业传感器、智能摄像头等。

• 边缘基础设施:从不同来源提取多个数据流的设备,比如网络录像机、网关、本地服务器、超融合边缘基础设施(或“一体式数据中心”)等。

本文将探索企业和机构从边缘到云的人工智能之旅,探讨人工智能的运用方法与场景,以及背后的技术支持。

云端人工智能用例

如果说边缘人工智能提供的是微观层面的洞察,那么在云端运行人工智则能使企业和机构在宏观层面创建更加深度的智能。通过使用云,他们可以运用更大的数据集,这些数据往往来自基础设施中的多个站点或外部来源。随着时间推移,就能对趋势和规律形成全面透彻的认识。

云端人工智能用例示例:语言识别

语音和文本识别(即自然语言处理)可支持多种用例,比如为客户提供服务的自动聊天机器人,或者为客服中心员工提供实时支持。语音识别软件提供商科大讯飞为众多行业提供基于语音的云解决方案。

边缘人工智能用例

如今,边缘人工智能是推动许多行业众多创新转型用例的关键助力。

边缘设备人工智能用例示例:零售业

通过为商店内的设备集成人工智能功能,零售商可以增强顾客体验,更高效地利用空间并加强库存管理。机器视觉能够读取编码、文本和数字,从而帮助管理、追踪和分析库存水平,确保有需要的人员能够掌握关键资料。互联、智能的响应式数字标牌可以根据顾客行为与喜好为顾客推荐优惠或产品,并帮助零售商了解他们传递的讯息何时真正起到了作用。自助服务设施 (英文),乃至完全自动化的无人商店可为顾客提供一系列服务,从而帮助打造个性化、零接触的顺畅零售体验。与此同时,机器学习可以分析以流媒体方式传输到本地边缘网关的购物者视频片段,帮助实时识别潜在犯罪行为。

边缘基础设施人工智能用例示例:医疗

在医疗领域,人工智能有许多潜在用途,医疗影像就是其中颇受欢迎的一种。每天会产生成千上万的医疗影像,如 CT 扫描、X 光和 MRI,每个影像都需要仔细分析来发现其中异常,实现准确诊断。通过在采集点实施深度学习功能,飞利浦已经能够将 CT 扫描成像速度提高 188 倍2,帮助临床医生更快地诊断和治疗患者。

从边缘到云的人工智能基础设施基本要素

如今,许多企业和机构已经开始利用人工智能,但通常是以相对零散的方式加以利用。个别的项目固然可以带来宝贵成果,大大提高业务价值。然而,采取进一步行动,在整个企业和机构层面实现端到端的人工智能则可以显著加速并扩展这些优势,还能带来一系列新机遇。

在整个企业内广泛实施人工智能时,务必要确保基础设施的三大要素——边缘设备、边缘基础设施和云——均有能力支持人工智能。这些能力具体包括:

高性能:人工智能工作负载往往计算密集度高,因此在进行人工智能训练或推理的地方,必须具备强大的计算性能。

低时延:人工智能的一个优势在于能够支持实时决策。通过将部分人工智能工作负载迁移到边缘,可以降低计算、存储和网络的时延。

高容量:人工智能依赖大量数据,因此,确保计算、存储和内存容量能够胜任这项任务,就可以避免运行人工智能的基础设施遇到瓶颈。

可靠的安全性:人工智能工作负载不仅需要大量数据,而且这些数据往往较为敏感(例如,医疗或公共安全行业的数据)。无论是何种人工智能工作负载,运行所用的设备和软件必须安全可靠。

英特尔提供的技术和解决方案使企业和机构能够支持从边缘到云的人工智能工作负载,同时满足这些总体要求(见图 1)。面向人工智能的英特尔® 边缘技术解决方案能够在各类设备上实现高性能推理,包括本地服务器、PC、摄像头、机器人和无人机等。我们的 CPU、VPU 和 FPGA 产品组合已针对低时延推理进行调优,利用全新的网络、内存和存储技术帮助突破数据瓶颈。

图 1. 英特尔® 人工智能技术支持从边缘到云的人工智能。

边缘设备

边缘设备通常较小(例如,智能手表或智能摄像头),几乎没有空间容纳又大又重的组件。而且它们通常需要依靠有限的电源供电运行,这意味着所有硬件必须要高效利用空间和电能。但是,为了在这些设备上支持人工智能工作负载,它们还必须提供高性能

虽然边缘设备可以且经常完全独立运行,并主要执行人工智能推理工作负载,但在有些用例中,将多个边缘设备连接起来,实现联邦学习,从而进行人工智能训练将更有裨益。这样一来,边缘设备可合作学习一个共享的预测模型,同时所有训练数据都在设备上,就不必将所有学习数据存储在云端。这也能在人工智能模型的训练中发挥作用,因为设备会下载新模型,基于设备上的数据学习,然后在一个小型集中的更新中反馈变更。随后,该更新可以加密发送到云端,并在云端帮助改进共享的模型。借助这种联邦学习的方法,所有数据均可保留在设备本地,从而帮助确保数据安全性。

用例示例:机器人原型帮助抗击新冠疫情

在美国,机器人使用紫外线 (UV) 帮助对医院表面进行消毒 (英文)。紫外线能够有效杀死病毒,但也会对人类造成伤害。机器人利用人工智能在医院导航,先检查所在空间没人,再发射出紫外线,快速全面地对大空间进行消毒。这有助于确保整个医院的安全,同时尽量保持繁忙区域开放,以供使用。

这种机器人采用了英特尔® Movidius™ VPU,一款专为计算机视觉和深度学习推理打造的人工智能加速器。该加速器将计算机视觉、摄像头图像处理和人工智能深度学习推理集成到了一个独立的片上系统 (SoC) 中。这意味着,它可以作为边缘设备独立部署,直接在设备上实现强大的识别和计算机视觉分析功能。而当它与主机 CPU 共同部署在边缘或云端时,英特尔® Movidius™ VPU 还能提供强大的深度学习加速。对于可以实时查看、处理视频信息并对信息进行编目的网络录像机等应用而言,这可以帮助加快媒体处理与图像分析。
                
用例示例:计算机视觉助力自动车牌识别

智能摄像头能够带来巨大价值,可帮助自动执行重复性的日常任务,从而解放员工,使他们专注于解决更复杂的挑战。由英特尔® AI Builders 成员 Wahtari (英文) 开发的基于人工智能的车牌识别解决方案就是一个典型范例。摄像头在英特尔® Movidius™ VPU 和英特尔凌动® 处理器上运行。其低功耗和高性能的特性意味着摄像头不仅高效节能,还具备在边缘运行复杂的人工智能工作负载所需的计算能力。英特尔凌动® 处理器支持高分辨率超高清 4K 和高帧率 (FPS) 多媒体流处理。当与英特尔® Movidius™ VPU 这样的加速器结合使用时,英特尔凌动® 处理器也可为深度学习工作负载提供低功耗且经济高效的支持。最终,Wahtari nLab 人工智能训练平台能够以每秒 45 帧的速率提供人工智能推理,每小时可检测超过 7,000 个车牌。

Wahtari 解决方案的构建使用了英特尔® 分发版 OpenVINO™ 工具包。该工具包基于卷积神经网络 (CNN),支持开发和加速可模拟人类视觉并在各种英特尔® 硬件上运行的应用。

边缘基础设施

如果硬件以边缘集群或网络服务器等形式支持更全面或复杂的边缘计算,它们所依赖的组件性能往往高于独立边缘设备。为了支持其指定用例,它们也可能根据需要使用安全或连接功能。英特尔® 边缘技术解决方案提供灵活性,无论是从零开始还是在现有基础上开发,都可无缝添加对边缘人工智能的支持。

用例示例:计算机视觉帮助保障公共安全

计算机视觉和人工智能可以帮助政府和运输公司等大型企业和机构确保公共安全与便利。例如,工程和设计公司 Klas Telecom (英文) 为铁路行业开发了一款基于计算机视觉的解决方案,支持十字路口的行人与车辆检测,车上空位检测以及入侵者检测。这有助于维护公共安全与安防,同时使员工专注于最需要他们关注的问题或风险。

Klas Telecom 解决方案使用了第十代英特尔® 酷睿™ i7 处理器。该处理器提供高性能,可运行复杂的边缘人工智能工作负载,同时保持高能效。其深度学习算法的构建也使用了英特尔® 分发版 OpenVINO™ 工具包,利用通用 API,帮助在异构英特尔® 架构中加速从边缘到云的人工智能工作负载。

用例示例:边缘机器学习帮助提高产品质量

在制造业和工业领域,边缘计算蕴含巨大潜力。奥迪的内卡苏尔姆工厂每天要组装多达 1,000 辆汽车,每辆汽车大约有 5,000 个焊点。如果每天都要人工检测上百万个焊点,不仅成本高昂,耗时耗力,也不太现实。奥迪制定了目标,希望以超高精度实现焊点全检。为实现这一目标,奥迪使用机器学习算法、英特尔® 工业边缘洞见软件包和 Nebbiolo 边缘平台简化数据分析。最后,开发出的解决方案可基于焊枪控制器数据实现自动检验。奥迪成功将人工成本降低 30%-50%,让员工有更多时间从事公司内其他更有价值的工作。最终,工厂以 18 毫秒的单次焊接检测时延水平将焊接检测效率提高了 100 倍。

该解决方案由集成英特尔® 深度学习加速技术的全新第三代英特尔® 至强® 可扩展处理器提供支持,该处理器能够为人工智能工作负载提供集成的性能加速,为敏捷、可靠且可扩展的边缘奠定基础。

用例示例:计算机视觉为精细的环保工作提供支持

一些濒危动物的栖息地环保人员难以进入,而智能摄像头和视频分析则有望帮助监控与保护这些栖息地。例如,监控珊瑚礁通常需要潜水员直接下水收集数据,或手动拍摄珊瑚礁的视频或图像,供日后分析。这些方法虽然可靠,但潜水员可能会干扰野生动物行为,无意中影响研究结果。此外,数据采集也很有限,因为潜水员一次只能在水下安全停留大约 30 分钟。菲律宾的 CoRaiL 项目利用智能摄像头和视频分析来研究珊瑚礁的韧性 (英文),解决了这些问题。

摄像头采集的数据在埃森哲的视频分析服务平台上进行分析,该平台由英特尔® 至强® 可扩展处理器和英特尔® Movidius™ VPU 提供支持,并采用通过英特尔® 分发版 OpenVINO™ 工具包开发的算法。此外,该解决方案还使用了英特尔® 现场可编程门阵列(英特尔® FPGA)进一步加速其人工智能工作负载。这些组件犹如可修改的空白画布,可以多次调整,从而满足不同目的。这在边缘人工智能等高吞吐量、低时延应用中尤为宝贵。

用例示例:语义数据湖和人工智能推动主动治疗

人工智能的繁荣发展要依靠大型数据集。医疗行业会产生许多大型数据集。每天,医学影像和基因组测试等都会生成海量数据。位于纽约布朗克斯区的蒙特菲尔医疗中心 (英文) 构建了一个语义数据湖架构来容纳其所有数据。该结构将蒙特菲尔的数据存储与各个本体数据库相结合,定义了超过 250 万条术语以及术语之间的关系。如此一来,运行分析时,不同来源、不同格式的数据都会被考虑在内。

这个解决方案叫做“以患者为中心的数据分析机器学习 (PALM) 平台”,基于英特尔® 至强® 可扩展处理器和英特尔® 傲腾™ 固态盘(英特尔® 傲腾™ SSD)运行。这些设备旨在帮助打破内存和存储瓶颈,可以实时提取和组织边缘数据,并将边缘数据分发到人工智能管道。这些设备可以经配置用作高速存储,也可以用于扩展系统内存,这意味着该系统有能力成为语义数据湖的动力源。

蒙特菲尔首先在 PALM 平台上运行了一个帮助在医院里识别存在高呼吸衰竭或死亡风险患者的机器学习模型。下一步,蒙特菲尔计划将更多预测性人工智能用例应用于该平台,包括将患者更高效地分流至对应诊治区域、预测会浪费宝贵医疗资源的预约未到情况、以及预测和分配医院床位,从而更有效地接待患者,缩短住院时间。

面向开发人员的边缘就绪型人工智能工具包

分布式边缘解决方案十分复杂,开发难度非常高。英特尔致力于推动开放标准并支持容器化和云原生开发,从而帮助开发人员简化他们的工作流程并加快部署分布式边缘解决方案。

我们的全栈式优化软件基于开放标准和接口构建而成。例如,英特尔® 分发版 OpenVINO™ 工具包可支持深度学习应用的开发,这些应用对于边缘计算机视觉用例必不可少,而英特尔® 分发版 Python 则可帮助在英特尔® 平台上为机器学习提供高速应用性能。

对 TensorFlow、Keras、PyTorch、oneDNN 和 BigDL 等常见的库和框架的支持则可面向一系列人工智能工作负载实现快速应用开发。例如,英特尔® AI Builders 成员 Taboola 就使用 TensorFlow Serving (TFS)[1] 框架构建了定制推理解决方案。Taboola 与英特尔合作,在英特尔® 至强® 可扩展处理器上使用面向深度神经网络的英特尔® 数学核心函数库(英特尔® MKL-DNN),成功优化并显著加速了其定制 TensorFlow Serving 应用。

虽然人工智能在边缘的用例越来越多,但云端仍将继续发挥重要作用。例如,人工智能模型可能要在云端训练,才能访问更多和/或更大型的数据集,并且利用更大的算力池。训练完毕后,这些模型可以推广到边缘服务器或单个设备,从而在生成或收集新数据时对新数据进行推理。

同时,边缘的重点数据也可以返回到云端。通过把来自多个边缘位置的数据整理到云端的集中位置,企业和机构可以建立丰富的数据资源,从而掌握对整个基础设施运行的可见度。针对这些数据运行人工智能可帮助识别和预测更宏观的趋势,或提供更深层次的商业洞察。

用例示例:人工智能帮助扩展元数据管理和搜索

记录所有数据从而让数据可搜索、可管理且可扩展是许多行业的企业共同面临的挑战。全球 IT 服务提供商 phoenixNAP 提供了一项服务,使用人工智能来帮助其客户跨多云环境更高效地存储、搜索和分析数据与元数据。

现在,phoenixNAP 的客户可以将其数据存储在横向扩展的对象存储,而非内存,并在英特尔® 傲腾™ 持久内存(随英特尔® 至强® 可扩展处理器一起提供)中缓存热数据,从而加速性能。英特尔® 傲腾™ 持久内存为边缘服务器提供多达 3 倍的每节点存储容量,同时还可大幅降低数据时延3。在 phoenixNAP 的案例中,与将解决方案托管在超大规模云环境中相比,该技术帮助将时延降低了 80%,索引速度提升高达 3 倍4

英特尔® 技术和人工智能:共同发展

全新第三代英特尔® 至强® 可扩展处理器改进了英特尔的四路到八路处理器基础,为深度学习等融合了人工智能技术的数据密集型云服务提供额外支持。第三代英特尔® 至强® 可扩展处理器中,英特尔® 深度学习加速技术的发展使其率先成为提供集成 bfloat16 指令的一款通用服务器 CPU。对于图像分类、语音识别和语言建模等应用,这将扩大主流人工智能训练的可部署范围。此外,在八路配置中,英特尔® 傲腾™ 持久内存 200 系列支持多达 36 TB 的内存,帮助在医疗或地震成像等大型高价值数据结构上加速人工智能推理。

整合人工智能环境的方法

对于任何人工智能计划,站在战略高度去进行从边缘到云的开发都至关重要。与客户合作时,我们建议遵循以下 4 大步骤:

• 建立坚实的基础:各利益相关方应协同一致,致力于实现应对实际业务需求的共同目标。无论您计划在哪里部署,确保您所提出的人工智能用例具备强有力的商业逻辑。

• 整理并列出您的数据管道:确保数据战略和人工智能需求是相一致的。清楚了解您需要哪些数据,以及这些数据将来自哪里。制定计划,确保在正确的位置和时间提取、存储、处理和分析所有数据。

• 开发您的人工智能模型:您可以利用大量现成的工具包、库、框架和软件优化来简化该流程。

• 部署您的人工智能工作负载:正确组合经优化的硬件、网络和应用进行部署。

以下电子指南详细介绍了这些步骤以及应对各个阶段工作的建议:轻松开启人工智能之旅

安全性

随着 IT 环境不断发展且日益复杂,保护 IT 环境既是当务之急,也将成为未来的重中之重。敏感数据和工作负载无论部署在基础设施的什么位置、在哪儿传输或使用,必须始终受到保护。这意味着您需要确保数据中心和边缘设备能为本地工作负载提供集成的强大安全性,同时,在混合云环境中,云服务提供商 (CSP) 也要能够达到此类要求。此外,还要让最终用户尽可能察觉不到这些保护措施。每位员工应该能够在各自选择的设备上访问和使用所需数据,工作效率不受影响。

英特尔与业内的主要安全公司、CSP 和独立软件供应商 (ISV) 密切合作,开发深入芯片级别且支持整个从边缘到云的基础设施 (英文) 的定制安全解决方案。我们的安全技术符合现行标准和基准测试,比如由美国国家标准与技术研究院 (NIST) 制定的标准。

其中,关键的英特尔® 安全技术包括:

• 英特尔® 软件防护扩展(英特尔® SGX)(英文):英特尔® SGX 是一组指令,能够加强对使用中的应用代码和数据的保护。应用开发人员可以使用该组指令在 CPU 内存中创建可信执行飞地 (TEE)。只有在 TEE 内部,数据和代码才不加密,并由通过密码获得许可的应用进行处理。在发布之前,还要再次加密。TEE 与操作系统、虚拟机管理程序和 BIOS 服务器等其余环境相互隔离,这有助于防止任何人访问飞地内的数据和代码,无论是应用开发人员、系统管理人员、服务器所有者还是 CSP,均无法访问。

• 英特尔® 控制流强制技术(英特尔® CET)(英文):英特尔® CET 提供 CPU 级别的安全功能,帮助防御常见恶意软件攻击方法。要想缓解这些攻击,单靠软件是难以实现的。许多恶意软件广泛使用的攻击手段是通过控制流劫持攻击滥用的合法代码,这正是这项技术主要解决的问题。英特尔® CET 为软件开发人员提供两个关键功能,帮助防御控制流劫持恶意软件。间接分支跟踪提供间接分支保护,帮助防御面向跳转或呼叫的编程 (JOP/COP) 攻击方法。影子堆栈提供返回地址保护,帮助防御面向返回的编程 (ROP) 攻击方法。

 英特尔® 全内存加密(英特尔® TME)(英文):英特尔® TME 对全系统内存 (DRAM) 进行加密,从而加强对中介层攻击、喷洒冷冻剂、DIMM 移除等物理攻击的防御。该技术通过 CPU 提供的单个密钥,在系统 BIOS 内直接启用,只需消耗少量内存性能。英特尔® TME 使用 AES-XTS(一个基于 NIST 标准的“存储类”算法)来加密整个内存。在数据写入平台内存之前就先行加密,再在读取时解密,这样就可以对软件保持透明。该技术易于实施,不需要借助操作系统 (OS) 或应用的支持。

加速实现从边缘到云的人工智能

从构建商、集成商、云和网络提供商到开发人员,在整个边缘价值链中,英特尔深耕数十年,积累了丰富经验。我们确保用例一致,解决了常见的集成难题,并依托不断优化和创新的成熟开发人员生态系统提供数百个预配置软件包。利用该生态系统可缩短开发时间,更快地获得成果:

• 可立即部署的企业人工智能解决方案:英特尔® AI Builders (英文) 为成员提供超过 300 个全球主要人工智能软件、硬件和服务提供商以及 150 多个解决方案资源,其中涉及各种用例和各个市场,使所有企业都能快速采用人工智能。

• 确保高水平的人工智能部署:面向人工智能的英特尔® 精选解决方案 (英文) 利用已在英特尔® 至强® 处理器上进行优化并通过了严格的基准测试和验证的解决方案,帮助您简化和加快基础设施部署。

• 减少开发和协作挑战:英特尔® AI:in Production 利用英特尔® 技术、软件工具、开发套件、代码样本和我们生态系统的解决方案,帮助加快人工智能走向生产之路。

更多信息

• 解决方案简介:面向在 Apache Spark 上运行的 BigDL 的英特尔® 精选解决方案 (英文)

• 解决方案简介:面向人工智能推理的英特尔® 精选解决方案

• 网页:www.intel.cn/ai

• 网页:人工智能成功案例

• 网页:www.intel.cn/cloud

实际性能受使用情况、配置和其他因素的差异影响。更多信息请见 www.Intel.cn/PerformanceIndex (英文) 。

性能测试结果基于配置信息中显示的日期进行的测试,且可能并未反映所有公开可用的安全更新。详情请参阅配置信息披露。没有任何产品或组件是绝对安全的。

具体成本和结果可能不同。

英特尔技术可能需要启用硬件、软件或激活服务。

英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。

© 英特尔公司版权所有。英特尔、英特尔标识以及其他英特尔商标是英特尔公司或其子公司的商标。其他的名称和品牌可能是其他所有者的资产。

0321/JL/CAT/PDF

产品和性能信息

2配置详情:硬件:型号:英特尔® 至强® 铂金 8168 处理器,2.70 GHz,禁用英特尔® 超线程技术。BIOS 版本:SE5C620.86B.0D.01.0010.072020182008。系统内存:192 GB,2,666 MHz。英特尔® 睿频加速技术:启用。固态盘:带有不可移除介质的 ATA 设备。型号:英特尔® SSDSC2CW240A3。软件:Ubuntu 18.04.1 LTS (GNU/Linux 4.15.0-29-genericx86_64)。Keras 2.1.1。TensorFlow 1.2.1。OpenVINO™ 工具包:2018 R2。面向深度神经网络的英特尔® 数学核心函数库(英特尔® MKL-DNN)v0.14。数据集:骨龄预测模型:299x299x3.png 图像。由飞利浦在 2018 年 8 月进行测试。https://newsroom.intel.com/news/intel-philips-accelerate-deep-learning-inference-cpus-key-medical-imaging-uses/#gs.o36v3z
3截至 2019 年 2 月 26 日英特尔所做测试。平台:Dragon rock 双路英特尔® 至强® 铂金 9282(每路 56 个内核),启用超线程,启用睿频,总内存 768 GB(24 插槽/32 GB/2,933 MHz),BIOS:SE5C620.86B.0D.01.0241.112020180249,Centos 7 内核 3.10.0-957.5.1.el7.x86_64,深度学习框架:面向英特尔® 架构优化的 Caffe 版本:https://github.com/intel/caffe d554cbf1,ICC 2019.2.187,MKL DNN 版本:v0.17(commit hash:830a10059a018cd2634d94195140cf2d8790a75a),模型:https://github.com/intel/caffe/blob/master/models/intel_optimized_models/int8/resnet50_int8_full_conv.prototxt ,BS=64,无数据层合成数据:3x224x224,56 个实例/双路,数据类型:INT8,与英特尔 2017 年 7 月 11 日所做测试的对比:双路英特尔® 至强® 铂金 8180 CPU,2.50 GHz(28 核),禁用超线程,禁用睿频,通过 intel_pstate 驱动程序将扩展调节器设置为 "performance",384 GB DDR4-2666 ECC RAM。CentOS Linux 版本 7.3.1611 (Core),Linux 内核 3.10.0-514.10.2.el7.x86_64。固态盘:英特尔® 固态盘 DC S3700 系列(800 GB,2.5 英寸 SATA 6 Gb/s,25 纳米,MLC)。性能测量基于:环境变量:KMP_AFFINITY='granularity=fine,compact‘,OMP_NUM_THREADS=56,CPU 频率设置为 cpupower frequency-set -d 2.5G -u 3.8G -g performance。Caffe:(http://github.com/intel/caffe/),修订版 f96b759f71b2281835f690af267158b82b150b5c。推理性能的测量基于 "caffe time --forward_only" 命令,训练性能的测量基于 "caffe time" 命令。对于 "ConvNet" 拓扑,使用合成数据集。对于其他拓扑,数据在本地存储,并且在训练之前在内存中缓存。拓扑规格来自于 https://github.com/intel/caffe/tree/master/models/intel_optimized_models (ResNet-50)。英特尔® C++ 编译器版本17.0.2 20170213,英特尔® MKL 小型库版本 2018.0.20170425。使用 "numactl -l" 运行 Caffe。
4性能测试中使用的软件和工作负荷可能仅在英特尔微处理器上进行了性能优化。配置:索引速度提高多达 3 倍,缓存时延降低多达 80%——基于截至 2019 年 3 月 phoenixNAP 和 Panzura 在 Elasticsearch 上进行的测试:英特尔® 至强® 金牌 6230 处理器,总内存 256 GB RAM,1.5 TB 英特尔® 傲腾™ 持久内存,超线程:启用,睿频:启用,ucode:0x043,操作系统:(‘centos-release-7-5.1804.el7.centos.x86_64’),内核:(3.10.0-862) 对比 AWS i3xlarge(英特尔)实例,Elasticsearch,内存:30.5 GB,虚拟机管理程序:KVM,存储类型:经优化的 EBS,磁盘卷:160 GB,总存储:960 GB,Elasticsearch 版本:6.3。