英特尔为全球主流云平台构建创新基石

大型云服务提供商 (CSP) 采用英特尔® 架构实现超大规模运营。

  • 本白皮书介绍了全球主流云服务提供商 (CSP) 在用的几项关键英特尔® 技术,涵盖了以下几个方面:高性能智能网络连接、应用和数据隐私、人工智能和高性能计算,以及工作负载性能提升。云服务提供商利用这些英特尔® 技术可以在实施超大规模运营时轻松应对挑战。

BUILT IN - ARTICLE INTRO SECOND COMPONENT

数据中心管理者深知数据中心运营面临的多重挑战:他们需要扩展基础设施来应对不断增长的数据量、优化系统以应对人工智能 (AI) 等严苛的新型工作负载、保护应用和数据隐私不受新兴攻击手段的威胁,还要坚持不懈地全方位提高性能。云服务提供商 (CSP) 在实施超大规模运营时,同样面临这些挑战。因此,他们通常会选择与英特尔合作,共同打造解决方案。
    
几十年来,英特尔一直走在超大规模云服务前沿。通过与全球主流云服务提供商开展联合研发以及业务合作,英特尔已经交付了数代专为云规模优化和打造的定制芯片。自此,原本为超大规模云服务提供商设计的许多功能现在也已融入以数据为中心的英特尔® 技术产品组合中,供各种规模的数据中心使用。

本白皮书介绍了全球主流云服务提供商在用的几项关键英特尔® 技术。我们希望这些信息能从以下两方面为您创造价值: 

•    如果您计划将工作负载迁移至公有云,那么本文可帮助您认识并了解支持您正在迁移的这些工作负载的英特尔® 技术优化有哪些优势,从而助您找到符合您需求的云服务提供商产品。
•    如果您计划继续在自己的数据中心本地运行关键工作负载,您也应该考虑采纳主流云服务提供商用来应对超大规模运营挑战的这些技术。选择这些已经在全球大型数据中心经过强化的技术意味着您也拥有了一定程度的基础设施兼容性,能够更轻松地在数据中心和公有云之间按需迁移工作负载。

尽管英特尔® 睿频加速和英特尔® 超线程技术(英特尔® HT 技术)等可能已经集成到云服务提供商几乎所有基于英特尔® 技术的实例中了,但有些技术可能还仅存在于个别专用实例,对此您也需要知悉。英特尔致力于全面普及云服务,帮助企业和机构找到适合自身的业务模式。

本白皮书讨论的英特尔® 技术将涵盖以下几个方面: 

•    智能网络连接:云服务提供商采用了具备灵活性并且可以适应不断变化的需求和工作负载的高性能网络连接,从而在提高数据传输速度的同时维持较高的计算性能。
•    应用和数据隐私:您的企业需要确保迁移至云端的工作负载和数据仍可保持私密性,不受恶意威胁侵扰,甚至连云服务提供商也无法访问这些数据。
•    人工智能和高性能计算 (HPC):云服务提供商已经越来越适应在基于英特尔® 技术构建的专用实例中运行计算高度密集的工作负载。
•    性能提升:企业和机构越来越需要事半功倍的方法,通过处理器、内存和存储创新提高工作负载性能和密度。

在当前瞬息万变的时代中,把握正确发展方向需要敏捷、可信且可扩展的解决方案来确保业务持续性,取得长期成功。面对快速发展的业务需求,IT 基础设施必须能够以相同的速度做出响应。这就意味着要在本地快速扩展或是在云端优化工作负载性能,以满足不断变化的需求。英特尔® 技术无论在企业数据中心还是公有云服务提供商的产品服务中都处于核心,除了提供可满足当今和未来工作负载所需的性能、提升从数据中心到云再到边缘的扩展运营效率,还能为平滑过渡和高效迁移奠定可信的技术基础。
 

英特尔有哪些关键的云技术?它们如何发挥作用?云服务提供商如何利用这些技术?这些技术又为云服务提供商及其客户带来了哪些业务价值?本文简要概述了上述的各项技术,从而为您解答此类问题。了解超大规模云服务提供商如何利用英特尔® 技术可以帮助数字企业的基础设施架构师及其他决策者制定云策略。决策者必须清楚他们关于公有云和私有云服务的决策会产生的种种影响,并了解其底层所使用的英特尔® 技术。


高性能智能网络连接

相较于单一用途的固定硬件和设备,超大规模云服务提供商会选择智能、可扩展、软件定义的基础设施。这种选择主要基于两大关键趋势:算力愈发向远程站点分配;数据中心功能愈发靠近边缘。如果网络基础设施的数据传输速度无法满足网络流量增长的要求,就可能会限制计算性能和数据处理与分析。软件定义网络 (SDN) 是充分利用计算性能的必要条件。SDN 是一种具备灵活性并且可以适应需求和工作负载不断变化的高性能网络连接。从以太网网络接口控制器 (NIC) 和英特尔® 硅光子技术到交换机产品和技术,英特尔长期致力于包括硬件、软件和解决方案在内的网络产品创新,推动构建了一个可让超大规模云服务提供商广为受益的生态系统。

英特尔® 以太网控制器和适配器

在以太网带宽从 25 Gbps 到 50 Gbps 再到 100 Gbps 的持续增长过程中,诸多应用也在竞相争用带宽,因此服务网络接口所需的处理开销逐渐成为问题。现代数据中心网络需支持性能提升、虚拟化和覆盖网络等技术,因此复杂性越来越高。这进一步加剧了上述问题。数据中心运营商需要快速、智能的以太网适配器,用以支持网络上的动态需求,包括加速 NIC 上某些基础设施工作负载的处理。英特尔® 以太网网络适配器具备经验证的广泛互操作性、关键性能优化和敏捷性,因此受到了广泛云服务提供商的青睐。

英特尔® 以太网网络控制器和适配器支持高达 100 Gbps 的速度。英特尔® 以太网网络适配器具备一系列旨在使超大规模云服务提供商和大型数据中心广泛受益的主要功能特性,包括:

•    面向网络功能虚拟化 (NFV) 的数据包处理速度和性能提升:英特尔® 以太网网络适配器结合了硬件和软件加速功能,包括用于实现可定制数据包过滤的动态设备个性化 (DDP)、支持高级数据包转发的增强版数据平面开发套件 (DPDK),以及适合云端和 NFV 工作负载的高效数据包处理。 
•    用于更好满足服务级别协议 (SLA) 的高级流量导向功能:具有应用程序设备队列 (ADQ) 功能的英特尔® 以太网 800 系列提供专用队列,可针对关键应用在以太网上的数据传输来调整流量,从而提高应用响应时间的可预测性、降低延迟,并提高数据库、Web 层和缓存应用等关键应用的吞吐量。这些都能让超大规模云服务提供商更好地满足服务级别协议要求。 
•    具备灵活可扩展输入输出 (I/O) 虚拟化功能的服务器虚拟化:英特尔® 虚拟化技术通过虚拟机设备队列  (VMDq)  和灵活的端口分区 (FPP) 等技术对每台虚拟机 (VM) 网络流量应用单根 I/O 虚拟化 (SR-IOV),从而优化 I/O 性能并减少 I/O 瓶颈。此方法可带来近原生的性能与虚拟机可扩展性。借助英特尔® 虚拟化技术(英特尔® VT),英特尔® 以太网网络适配器可在虚拟的服务器环境中实现出色的 I/O 性能。


智能网络接口卡 (SmartNIC)

与数据中心运营商类似,云服务提供商也想要在高效管理基础设施任务的同时优化关键工作负载。如果智能网络组件可以加速基础设施任务,那么服务器 CPU 就可以释放出来用于处理关键工作负载。

超大规模云服务提供商使用基于英特尔® 现场可编程门阵列 (FPGA) 的 SmartNIC,通过在 SmartNIC 上运行通常由 CPU 内核执行的基础设施任务来减少服务器开销。SmartNIC 可以提升基础设施工作负载性能,而且可以通过现场软件更新来更改网络技术。云服务提供商可以使用 SmartNIC 来运行终端客户虚拟机,从而释放主机 CPU 内核,也可以使用 SmartNIC 将服务器作为裸机服务器进行分区以支持托管业务。

对于已投入大量成本定制 SmartNIC 并将其集成到基础设施中的云服务提供商而言,采用基于英特尔® FPGA 的 SmartNIC 可为他们带来下列优势:

•    提升业务效率和应用扩展,因为有更多的主机 CPU 内核专供虚拟机执行客户工作负载 
•    加速基础设施工作负载,例如 Open vSwitch 等虚拟网络功能 (VNF)、IPsec 和传输层安全协议 (TLS) 等安全负载,以及 NVMe over Fabrics (NVMe-oF) 等存储负载 
•    利用英特尔® FPGA 的灵活性和可编程性打造面向未来的解决方案:企业和机构可以增加功能或提升基于 FPGA 运行的工作负载的性能,从而适应不断变化的要求和标准 
•    降低总体拥有成本 (TCO),因为同一 FPGA SmartNIC 可按需配置,用于运行不同工作负载;例如,同一硬件可在高峰时段运行安全应用,而在网络流量较低的时段进行更新以运行数据分析工作负载


采用 Tofino 的 P4-可编程交换机
    
超大规模云服务提供商希望从供应商处获得的不是一个黑箱产品,他们想要拥有对底层代码和功能的可见性,想要能够按需控制、调试和重新编程的开放系统。而在大规模 SDN 中使用 P4 可编程交换机能够为他们带来敏捷性与可扩展性。Barefoot Networks 是开发 P4 编程语言的先锋。自 P4.org 成立以来,P4 生态系统不断壮大,成员已超过 100 个,而 Barefoot Networks 在这个过程中发挥了重要作用。
    
英特尔支持包括 SONiC 在内的一系列开源网络操作系统。SONiC 最初由 Microsoft 开发,目前为许多超大规模云服务提供商所用1。SONiC 基于 Linux,可在多家供应商的交换机和专用集成电路 (ASIC) 上运行。英特尔支持面向 Tofino 交换机 ASIC (6.4 Tbps) 和  Tofino 2 交换机 ASIC (12.8 Tbps) 的 SONiC 代码。超大规模云服务提供商可通过强大的原始设备制造商 (OEM) 和原始设计制造商 (ODM) 生态系统获得基于 Tofino 和 Tofino 2 的交换机。除了白盒交换机,Arita 和思科等 OEM 也引入了基于 Tofino 且支持 SONiC  的可编程交换机。
                
基于 Tofino 的以太网交换机在数据平面上具备可编程性,允许用户在简单的 P4 程序中定义硬件功能、将其编译到 ASIC 上并以  Tbps 级别的速度运行。例如,经过设置,这种交换机既能以更大规模、更高质量运行标准交换与路由协议,也可以通过快速软件更新添加分布式拒绝服务 (DDoS) 筛查、深度数据包检测或网络地址转换 (NAT) 等上层功能。

在新冠疫情期间支持远程工作

与很多公司一样,为应对新冠疫情爆发,英特尔迅速安排大量员工在家办公并提供相关支持。这些新增远程办公人员需要通过虚拟专用网 (VPN) 即时接入办公环境。我们面临的挑战是扩展充足的 VPN,并保障较低的网络时延,使员工在新环境中也可保持工作效率。

英特尔 IT 部门双管齐下,在本地和公有云中均提供 VPN。两处均依赖支持 SR-IOV 的英特尔® 以太网网络适配器,以可预测的低延迟扩展大量 VPN 设备。SR-IOV 是一项规范,允许一台 PCIe 设备虚拟出多个独立物理 PCIe 设备。

公有云的扩展能力较强,承受住了疫情前两周的新增负载压力。英特尔谨慎选择实例,纳入支持 SR-IOV 的英特尔® 以太网控制器和英特尔® 至强® 可扩展处理器。根据英特尔 IT 部门在应对疫情期间第一周和第二周的记录,这些虚拟机能够以约 90% 的 CPU 利用率支持 VPN 用户。

借助针对 SR-IOV 优化的英特尔® 以太网网络适配器,英特尔 IT 部门成功将每 VPN 服务器用户数量增加了 50%,而时延保持不变2

在本地,我们采用了运行多种英特尔® 处理器的服务器。其中一些型号较老,其采用的设备可以立即拿来复用。而一些不具备英特尔® 以太网控制器的系统无法扩展至必要的网络/VPN  容量,也无法实现一致的时延。英特尔 IT 部门用支持 SR-IOV 的英特尔® 以太网网络适配器替换了这些系统中的 NIC,最终成功实现扩展,满足了大量用户保持一致低延迟的需求。

由于公有云实例和本地服务器都使用 SR-IOV,二者之间的负载均衡得以简化。随着系统陆续上线,更多工作负载被移回本地。


英特尔® 硅光子技术

英特尔® 硅光子技术能够实现高速远距离的光纤连接,以支持大型仓库级的超大规模数据中心运营。在这种场景下,能够将数据高速传输到远距离的服务器上快速执行处理或分析十分关键。在数据中心内部,光纤链路通过复杂的光缆和光纤收发器网络实现交换机连接。服务器和存储不再需要放在一起,而且可以根据业务持续性和数据保护等要求进行独立扩展。英特尔® 硅光子技术光纤收发器产品使大型数据中心能够部署 100 Gbps 的解决方案,跨越几百米甚至数公里连接交换机,而不仅仅局限在几米范围之内。英特尔采用独特的方法将混合硅激光器集成到光子芯片,支持晶圆级制造和测试,能够提供超大规模云服务提供商所需的规模和质量,以支持其不断增长的数据需求。随着大型数据中心交换机基础设施带宽持续从 3.2/6.4 Tbps 增长到 12.8 Tbps 和 25.6 Tbps,对更高带宽光纤连接的需求也在增长。英特尔也在生产  200 Gbps 和 400 Gbps 英特尔® 硅光子技术光模块来持续推动创新。大型私有数据中心应该考虑跟随超大规模云服务提供商的脚步,采纳这一经济高效的成熟技术。


数据、应用和协作过程中的安全与隐私
                
随着基础设施的扩展,安全威胁和业务风险也会增多。隐私问题是公司在考虑采用公有云时所担忧的一个重大问题,因此也是云服务提供商的首要考虑因素。机密计算是一种新兴的行业举措,旨在帮助保障在用数据的安全,使加密数据可以在内存中处理而不公开给系统其余部分,从而减少敏感数据暴露风险,为用户提供更好的控制和透明度。英特尔是机密计算联盟 (Confidential Computing Consortium) 的创始成员之一,其贡献的一系列英特尔® 技术可赋能云服务提供商和其他各方提升数据中心的应用和数据安全。

英特尔® 软件防护扩展(英特尔® SGX)
                
数据保护要求越来越严格。即使数据在空闲和传输过程中受到充分的加密保护,进入处理阶段仍然易遭泄露。云服务提供商和数据中心均采用英特尔® 软件防护扩展(英特尔® SGX)帮助在数据未加密的关键处理环节保护数据。这有助于在下列用例中提高安全性:

•    联邦(机器)学习:联邦学习是一种分布式机器学习方法,可让多家企业和机构协作开展机器学习项目,但在此过程中需要保护敏感数据。英特尔® SGX 是在云端联邦学习解决方案中打造可信执行硬件环境的理想选择。 
•    机密容器和虚拟机:在多租户云环境中,客户会担心容器和虚拟机遭到攻击的风险。英特尔® SGX 支持可信执行,可用于帮助保护容器和虚拟机进程免遭外部攻击。 
•    机密数据库:很多企业和机构正在将数据库迁往公有云。英特尔® SGX 可通过隔离敏感数据或密钥来增强对这些数据库的保护。 
•    区块链:英特尔® SGX 可帮助云服务提供商增强区块链交易处理、共识机制、智能契约和密钥存储的隐私性和安全性。

英特尔® SGX 是一组指令集,用于创建具有更强保护的安全飞地。 “飞地” 即 CPU 中的小块可信环境,在飞地中执行代码时正常操作系统将无法触及。另外,飞地支持远程验证,即一方可以通过密码学的方式验证另一方计算机上运行的飞地是否在执行未经篡改的可信代码。
                
英特尔® SGX 还可提升云端的安全级别。现在,云服务提供商已经可以做到保持客户敏感数据隐私,甚至连云服务提供商自己都无法访问这些数据3。即使存在未检出的恶意软件或恶意管理员,英特尔® SGX 也能帮助保护客户的数据免遭暴露。
                
多项调查研究显示,数据丢失和泄露是网络安全专业人士在云安全方面的首要顾虑4。在 2020 年的一项调查中,70% 的受访业务主管认为安全顾虑阻碍了公有云的广泛采纳5。云服务提供商将英特尔® SGX 提供的增强安全和隐私视为打消客户关于公有云中数据机密性顾虑的良机,借此可以开启更大规模云迁移的潮流。

图 1. 英特尔® SGX 在应用运行时保护飞地中的信息,应用空闲时保护硬件中的信息
 

英特尔® QuickAssist 技术(英特尔® QAT)
                
英特尔® QuickAssist 技术(英特尔® QAT)为加密、散列、公钥加密和压缩等计算密集型操作提供硬件加速。利用英特尔® QAT,此类工作就可从 CPU 内核中分流出来,实现高达 4.3 倍的效率提升6
                
英特尔® QAT 还提供英特尔® 密钥保护技术(英特尔® KPT)。这是一项重要安全功能,可帮助保护加密私钥7。借助英特尔® KPT,在进入需使用私钥的虚拟机之前,私钥都处于加密状态。只有芯片中的英特尔® QAT 能够解密此私钥,也就是说密钥得到了硬件层面的更好保护。
                
得益于英特尔® QAT 的加速功能,云服务提供商能够增加提供给客户的可用虚拟机数量。云服务提供商可以采用英特尔® KPT 实现差异化的安全功能,抵御日益复杂的软件和硬件攻击,并使自身云平台符合监管规定要求。

    
人工智能和高性能计算
                
云服务已经能够越来越好地支持人工智能、高级数据分析和仿真等计算密集型工作负载。借助云计算,企业和机构能够根据应用的需求来增加或减少计算资源。超大规模云服务提供商通过与英特尔合作,能够交付构建良好的基础设施和资源。这些基础设施和资源可高效处理需要长时间占用大量算力的计算密集型应用。通过在单一计算环境中整合高性能计算、人工智能加速和高级数据分析,英特尔® 以数据为中心的产品组合能够应对计算密集型工作负载的特有挑战,帮助云服务提供商支持客户在科学仿真、金融分析、人工智能/深度学习 (DL) 和 3D 建模与分析领域的工作8。 
                
下面的章节将进一步介绍推动高性能计算和人工智能应用云端可行性的一些英特尔® 技术。
    
英特尔® 高级矢量扩展 512(英特尔® AVX-512)
                
矢量处理需对大量整数或浮点数执行并行算术运算。此类运算在科学仿真和 3D 建模等应用中可能会相当密集。
    
英特尔® 高级矢量扩展 512(英特尔® AVX-512)是一套 CPU 指令,可加速矢量处理密集型计算工作负载,实现高达 1.6 倍的性能提升9。 
                
英特尔® AVX-512 会对计算、存储和网络功能产生重要影响。512 指的是寄存器文件位宽位数,它设定了一组指令集一次能运算的数据量参数。相比前代的英特尔® AVX2,英特尔® AVX-512 将每秒浮点运算次数 (FLOPS) 增加了一倍。这意味着英特尔® AVX-512 每条指令能处理的数据元素数量是英特尔® AVX2 的两倍,是 SIMD 流指令扩展 (SSE) 的四倍。
                
英特尔与超大规模云服务提供商合作推动在现有框架上无需代码修改即可实现运算加速。
                
事实证明,英特尔® AVX-512 能让 DNA 测序这类要在大量数据上进行矢量/矩阵运算的工作负载获得出色的性能提升10。一次运算能够涵盖更多信息意味着英特尔® AVX-512 有利于计算任务的处理,以及人工智能/深度学习、科学仿真、金融分析和 3D 建模与数据分析等工作负载和用例的性能提升。
                
如果您打算将此类人工智能和高性能计算工作负载迁移至公有云,您可从云服务提供商处选择采用英特尔® AVX-512 的实例,以获得出色的性价比。


英特尔® 深度学习加速技术(英特尔® DL Boost)
                
深度学习应用需要低时延以及高性能计算的能力。一直以来,我们都使用图形处理单元 (GPU) 执行机器学习和深度学习工作负载,导致要付出更高的硬件成本才能在特定云实例上获得所需性能。CPU 技术的发展为云服务供应商创造了新机会,可以扩展其核心基础设施服务,集成人工智能加速。
                
云服务提供商在高性能实例中提供英特尔® 深度学习加速技术(英特尔® DL Boost)为客户带来针对内卷积神经网络循环和部分计算密集型工作负载优化的环境。使用英特尔® 深度学习加速技术进行此类人工智能运算可获得高达 3.4 倍的性能提升11

图 2. 英特尔® AVX-512 的一条指令可处理更多数据


英特尔® 深度学习加速技术是一套英特尔® AVX-512 指令,叫做矢量神经网络指令 (VNNI)。这套指令中引入了可加速内卷积神经网络循环的四条新指令,因而扩展了英特尔® AVX-512 的基础12。英特尔® 深度学习加速可大幅提升一类机器学习的性能,它们一般用于图像识别、视频分析和自然语言处理 (NLP) 等人工智能应用13
                
客户只需激活英特尔® 深度学习加速,就能在其用于其他高性能计算工作负载的同一硬件平台上获得针对人工智能工作负载的优化。
                
无论是在本地您用于其他工作负载的同一高性能计算基础设施,还是在云端使用超大规模云服务提供商提供的具备同样功能的实例,您的人工智能/深度学习项目均可受益于英特尔® 深度学习加速技术。
    

英特尔® 现场可编程门阵列 (FPGA)
                
除了上文提到过的 SmartNIC 用例,英特尔® FPGA 还可将运算硬编码到硬件中,从而加速包括机器学习在内的许多其他工作负载。可从 FPGA 中显著受益的机器学习实施包括智能视觉、科学仿真和生命科学及医疗数据分析等14。 
                
由于可以根据不同类型的机器学习模型进行重新配置,英特尔® FPGA 可用于加速每年都会发生几次重大算法变更的人工智能运算。英特尔® FPGA 让低延迟实时推理请求成为可能15。英特尔® FPGA  神经处理单元无需批处理,因而时延将远远低于采用 CPU 或 GPU  处理器的时延。
                
云服务提供商可在云端和边缘为客户提供英特尔® FPGA 加速16。实时推理请求得到加速后,更便于将计算密集型工作负载从本地高性能计算环境迁移至云端。


面向深度神经网络的英特尔® 数学核心函数库(英特尔® MKL-DNN)
                
面向深度神经网络的英特尔® 数学核心函数库(英特尔® MKL-DNN)可加速英特尔® 架构上的深度学习框架。该函数库包含高度矢量化和线程化的构建模块,支持利用 C 和 C++ 接口实现卷积神经网络。英特尔与超大规模云服务提供商合作,将英特尔® MKL-DNN 集成到他们所用的 Apache MXNet 和 TensorFlow 等框架中。              
                
英特尔® OpenVINO™ 工具包
                
英特尔® 分发版开放视觉推理和神经网络优化 (OpenVINO™) 工具包使开发人员能够快速部署模拟人类视觉的应用和解决方案,还能加速音频、语音、语言和推荐系统等其他人工智能工作负载。
英特尔® OpenVINO™ 工具包能跨异构英特尔® 硬件在边缘启用深度学习推理,这些硬件包括:
•    英特尔® CPU 
•    英特尔® 集成显卡 
•    英特尔® FPGA 
•    英特尔® Movidius™ 神经计算棒 (NCS) 或神经计算棒二代 (NCS 2) 
•    搭载英特尔® Movidius™ VPU 的英特尔® 视觉加速器设计

您可使用英特尔® OpenVINO™ 工具包,利用云服务提供商在高性能实例上训练的模型,在您的边缘设备上实施计算机视觉推理17


工作负载性能提升
                
应用是当今商业竞争的关键所在,而应用的性能取决于是否能在正确的时间获得恰当的数据中心资源。无论是英特尔® 傲腾™ 持久内存 (PMem) 这样近期出现的革新性技术,还是英特尔® 睿频加速技术这样久经考验的基础技术,英特尔® 产品和技术都可助力云服务提供商及其客户实现全方位的性能提升。

图 3. 英特尔® 傲腾™ 持久内存的优势


英特尔® 傲腾™ 持久内存(英特尔® 傲腾™ PMem)
                
英特尔® 傲腾™ 持久内存是一项内存和存储技术创新,让云服务提供商能够在更靠近处理器的位置为客户提供更多数据,实现一致的低时延和接近 DRAM 的性能。
                
云服务提供商能够利用英特尔® 傲腾™ 持久内存经济高效地扩展可用内存容量,从而支持在严苛的工作负载中处理更大量的 “热” 数据。内存数据库就是可从内存纵向扩展中获益的一类工作负载,因为当数据集可以在内存中一次性处理时,此类数据库将更加高效。但 DRAM 的高昂价格却让人望而却步,降低了内存纵向扩展的成本效益。
                
在针对英特尔® 傲腾™ 持久内存优化内存数据库管理系统 (DBMS) 方面,SAP HANA 一直处于前沿。其努力包括做出必要调整从而充分利用内存持久性功能。因此,云服务提供商一直在努力推出具备优化实例的产品,此类实例能基于配置大量英特尔® 傲腾™ 持久内存的英特尔® 至强® 可扩展处理器在云中更好地运行 SAP HANA18。在本地运行 SAP 解决方案的企业和机构同样能够通过在私有云中添加英特尔® 傲腾™ 持久内存而收获内存持久性带来的种种益处。例如,系统重启速度将有数量级的提升19
                
云服务提供商还发现了英特尔® 傲腾™ 持久内存在运行其内部大型数据库系统方面的价值20。 
                
英特尔® 傲腾™ 技术填补了昂贵的 DRAM 内存和速度较慢的 NAND 存储之间的空白。持久内存作为 DIMM 部署在内存总线上时可以作为一种经济高效的替代方案来实现 DRAM 内存的纵向扩展。随着越来越多的软件供应商针对持久内存做出优化,持久内存的附加价值和普及程度也会随之增长。


英特尔® 傲腾™ 固态盘 (SSD)
                
英特尔® 傲腾™ 固态盘 (SSD) 同样采用了支持更大、更经济内存的英特尔® 傲腾™ 技术来提高存储层的性能和耐用性。尽管英特尔® QLC 3D NAND 固态盘已经可以满足云服务提供商对大容量存储的需求,但对于缓存层这类要求更低延迟、更高耐用性的场景而言,英特尔® 傲腾™ 固态盘是更具吸引力的选择。
                
因为能够快速读写大量数据,云服务提供商看到了英特尔® 傲腾™ 固态盘在缓存层的应用价值。随着客户工作负载有越来越大的数据集要向云端迁移,缓存速度有可能成为性能瓶颈。例如,缓存过慢可能会阻碍复杂的数据分析和人工智能应用尽快从数据推导出洞察。通过纵向扩展实现更快速的缓存层能够提升这些复杂工作负载的性能,更好地满足客户预期。
                
此外,云服务提供商也看到了英特尔® 傲腾™ 固态盘的另一个重要特性,即其耐用性。与汽车轮胎类似,固态盘按报废前的“里程”论优劣。在固态盘中,我们用驱动器在整个生命周期内的总写入数据量(以 PB 为单位,PBW)来衡量其耐用性。超大规模云服务提供商很可能一整天都需要以最高读写速度来运行驱动器,所以对驱动器而言,耐用性是衡量总体拥有成本 (TCO) 的关键因素。一家超大规模云服务提供商发现,一个由两块英特尔® 傲腾™ 固态盘组成的磁盘阵列的 PBW 要比六块 NAND 固态盘的阵列高出四倍,缓存时延还更低21。 
                
英特尔® 傲腾™ 固态盘可帮助云服务提供商和私有云扩展快速缓存层,能写入大量数据而不会很快就导致驱动器过热。
                
                
英特尔® 超线程技术(英特尔® HT 技术)
                
一直以来,一些由英特尔率先开发,而如今已经相当成熟的技术对云服务提供商提供大规模服务而言也至关重要。英特尔® HT 技术就是一个典型范例。
                
英特尔® HT 技术可用于改善并行计算,从而增加流水线中的独立指令数量。借助英特尔® HT 技术,一个物理内核可被操作系统当成两个处理器,实现每内核双处理器并发调度。云服务提供商通常使用英特尔® HT 技术为客户提供相当于物理内核数两倍的虚拟 CPU,同时不会让两个客户共享同一内核的线程,避免共享资源引发安全风险。当客户运行的应用需要从一个内核获取较高的单线程性能时,云服务提供商也允许禁用英特尔® HT 技术。
                
                
英特尔® 睿频加速技术
                
英特尔® 睿频加速技术也是一项您可能在本地环境中已经习以为常的成熟技术。当您把工作负载迁移至云端时,应使用基于英特尔® 处理器的实例,这样才能确保您获得您已经习惯的高性能水平。
                
英特尔® 睿频加速技术可在处理器内核的工作功率、温度和规格额定限值内自动允许处理器内核高于额定工作频率运行,从而提高处理器性能以满足峰值负载需求。这使得云服务提供商能够在客户工作负载需要时提供更好的性能,这也是云服务提供商能够为基于英特尔的实例进行高定价的原因之一。


英特尔® 技术为出色的云环境奠定基础
    
典型的数据中心面临的挑战同样也困扰着主流超大规模云服务提供商。当发展到前所未有的运营规模时,超大规模云服务提供商将首当其冲面临新问题和新局限。正如本文所强调的,云服务提供商信任英特尔® 技术能帮助他们解决问题,克服当前和未来超大规模扩展带来的局限。

您也可以从这些超大规模云服务提供商的经验中获益。作为云服务的消费者,了解支撑云实例的底层技术有助于您选择合适的云服务方案,确保您获得所需的功能,实现无缝迁移。如果您管理着私有云,了解支持主流云服务提供商的底层技术可以让您获得最佳实践参考,助您选择合适的技术来应对自己的数据中心所面临的挑战。遵循超大规模云服务提供商的最佳实践,您可以缩短上市时间,充满信心地扩展您的私有云。

图 4. 英特尔® 傲腾™ 技术填补了高成本内存和慢速存储之间的空白


随着企业和机构升级业务策略并陆续采纳云计算服务,清楚云端内部有哪些技术可助您缓解风险、提升性能、实施扩展,并落实您选择的方案。
                
围绕英特尔® 架构构建云策略,也能提升您的敏捷性和灵活性, 为您的业务需求选择合适的云服务提供商和架构。

面向英特尔® 架构优化的工作负载可帮助企业和机构在支持相同关键英特尔® 技术的不同云之间轻松转移数据和应用。如今越来越多企业既运营本地数据中心,也采用多个公有云,因此这一点尤其有价值。您可以在私有云中采用超大规模云服务提供商的最佳实践,这将使您的工作负载可以出于特定的业务和安全考虑在多个位置运行。

了解更多信息

 

AWS 与英特尔:https://www.intel.cn/content/www/cn/zh/partner/showcase/aws/overview.html

Azure 与英特尔:https://www.intel.cn/content/www/cn/zh/big-data/partners/microsoft/overview.html

Google Cloud 与英特尔:https://www.intel.cn/content/www/cn/zh/partner/showcase/google/overview.html

性能测试中使用的软件和工作负荷可能仅在英特尔微处理器上进行了性能优化。

诸如 SYSmark 和 MobileMark 等测试均系基于特定计算机系统、硬件、软件、操作系统及功能。上述任何要素的变动都有可能导致测试结果的变化。请参考其他信息及性能测试(包括结合其他产品使用时的运行性能)以对目标产品进行全面评估。更多信息,详见 www.intel.cn/benchmarks

性能测试结果基于配置中所示日期进行的测试,且可能并未反映所有公开可用的安全更新。详情请参阅配置信息披露。没有任何产品或组件是绝对安全的

英特尔编译器针对英特尔微处理器的优化程度可能与针对非英特尔微处理器的优化程度不同。这些优化包括 SSE2、SSE3 和 SSSE3 指令集和其他优化。对于非英特尔微处理器上的任何优化是否存在、其功能或效力,英特尔不做任何保证。本产品中取决于微处理器的优化是针对英特尔微处理器。不具体针对英特尔微架构的特定优化为英特尔微处理器保留。请参考适用的产品用户与参考指南,获取有关本声明中具体指令集的更多信息。

您的成本和结果可能会有所不同。

英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。

英特尔技术可能需要支持的硬件、软件或服务得以激活。

© 英特尔公司版权所有。英特尔、英特尔标识以及其他英特尔商标是英特尔公司或其子公司的商标。其他的名称和品牌可能是其他所有者的资产。

0920/SM/PRW/PDF 请回收利用

产品和性能信息

1 据 Microsoft Azure Networking 部门杰出工程师 Dave Maltz 介绍,超过 10 家超大规模云服务提供商和云构建公司将 SONiC 用作交换机操作系统,包括 Microsoft 和阿里巴巴。来源:The Next Platform。“Is Microsoft’s SONiC Winning the War of the Noses?”(Microsoft SONiC 斩获青睐?),2020 年 5 月。nextplatform.com/2020/05/12/is-microsofts-sonic-winning-the-war-of-the-noses/
2 基于英特尔 IT 部门在应对疫情期间第一周和第二周的记录。
3 2020 年 4 月,Microsoft Azure 成为全面推出基于英特尔® SGX 的机密计算的首家云服务提供商。来源:Microsoft。“DCsv2-series VM now generally available from Azure con_dential computing.”(DCsv2 系列虚拟机在 Azure 机密计算中已全面可用),2020 年 4 月。https://azure.microsoft.com/en-us/blog/dcsv2series-vm-now-generally-available-from-azure-con_dential-computing/ 。Microsoft 授权使用。
4 在一项针对 700 位 IT 和安全专业人士的调查中,81% 的云用户称曾面临重大安全顾虑,其中 62% 的受访者对数据丢失和泄露风险表示担忧,紧随其后的是监管合规方面的担忧,有 57% 的受访者曾有这方面的担忧。数据来源:AlgoSec。“Cloud Security Alliance Study Identi_es New and Unique Security Challenges in Native Cloud, Hybrid and Multi-cloud Environments.”(云安全联盟研究发现原生云、混合云和多云环境中的独特新型安全挑战),2019 年 5 月。globenewswire.com/news-release/2019/05/21/1833639/0/en/Cloud-Security-Alliance-Study-Identi_es-New-and-Unique-Security-Challenges-in-Native-Cloud-Hybrid-and-Multi-cloud-Environments.html。另请参阅:Cybersecurity Insiders。“2019 Cloud Security Report (ISC)2.”(2019 云安全报告 (ISC)2)cybersecurity-insiders.com/portfolio/2019-cloud-security-report-isc2/
5 Barracuda Networks。“Future shock: the cloud is the new network.”(未来冲击:云就是新一代网络),2020 年 3 月。https://lp.barracuda.com/BEU-AMER-WBN-20200304-FutureShockCloudReport_LP-Registration.html
6 借助英特尔® QAT 获得的 4.3 倍性能提升基于 2019 年 11 月 5 日在私钥交换 TLS 1.2 RSA2K 工作负载上进行的测试:英特尔® 服务器主板 S2600WFD,英特尔® 至强® 金牌 6252N 处理器(2.30 GHz,24 个内核,2 个 UPI 链路),英特尔® 睿频加速技术运行在 18 内核/36 线程,英特尔® QuickAssist 适配器 8970,12 个 32 GB DDR4-2,933,BIOS:SE5C620.86B.0X.02.0040.060420190144,微代码:0x5000026,Ubuntu 19.04,5.0.0-23-generic,GCC 8.3 编译器,英特尔® 以太网控制器 XXV710-DA2,NGINX 1.14.2,OpenSSL 1.1.0k,英特尔® QAT 引擎 v0.5.41,英特尔® QAT 驱动程序 L05000007。
7 英特尔。“Intel® QuickAssist Technology with Intel® Key Protection Technology in Intel Server Platforms Based on Intel® Xeon® Processor Scalable Family.”(在基于英特尔® 至强® 可扩展处理器家族的英特尔® 服务器平台中采用具备英特尔® 密钥保护技术的英特尔® QuickAssist 技术),2017 年。intel.cn/content/www/cn/zh/architecture-and-technology/key-protection-technology-white-paper.html
8 深入了解英特尔® 以数据为中心的产品组合,请参见:英特尔。“Intel’s Data-Centric Portfolio Accelerates Convergence of High-Performance Computing and AI Workloads.”(英特尔® 以数据为中心的产品组合加速高性能计算与人工智能工作负载融合),2019 年 6 月。https://newsroom.intel.com/news/intels-data-centric-portfolio-accelerates-convergence-high-performance-computing-ai-workloads/
9 借助英特尔® AVX-512 所获 1.6 倍平均性能提升基于 2019 年 11 月 1 日在金融服务内核工作负载上所进行的测试:英特尔® 服务器主板 S2600WF,双路英特尔® 至强® 铂金 8268 处理器(2.9 GHz,24 个内核,2 个 UPI 链路),12 个 16 GB DDR4-2,933,一块固态盘,BIOS:SE5C620.86B.02.01.0008.031920191559;微代码:0x500001c,Red Hat Enterprise Linux 7.7,内核 3.10.0-1062.1.1。FSI 内核 v2.0:Geomean(3 个工作负载:Binomial Options、Black Scholes、Monte Carlo),英特尔® AVX2 256 版本与英特尔® AVX-512 版本对比,英特尔® 编译器 2019u5,英特尔® 数学核心函数库(英特尔® MKL)2019u5,BIOS:binomial(英特尔® HT 技术启用,英特尔® 睿频加速技术启用,SNC 禁用,三线程/内核),Black Scholes(英特尔® HT 技术禁用,英特尔® 睿频加速技术启用,SNC 禁用,一线程/内核),Monte Carlo(英特尔® HT 技术启用,英特尔® 睿频加速技术启用,SNC 禁用,两线程/内核)。
10 示例详见:DeepVariant 博客。“The Power of Building on an Accelerating Platform: How DeepVariant Uses Intel’s AVX-512 Optimizations.”(加速平台的力量:DeepVariant 如何使用英特尔® AVX-512 优化),2019 年 4 月。https://google.github.io/deepvariant/posts/2019-04-30-the-power-of-building-on-an-accelerating-platform-how-deepVariant-uses-intels-avx-512-optimizations/
11 借助英特尔® 深度学习加速技术 (VNNI) 所获 3.4 倍性能提升基于 ResNet-50 推理吞吐量性能测得;英特尔于 2019 年 12 月 25 日所做测试:1 节点,384 GB 总内存(12 个插槽,32 GB,2,933)的英特尔® 参考平台上 2 个英特尔® 至强® 金牌 6258R 处理器,ucode 0x500002c,英特尔® HT 技术启用,英特尔® 睿频加速技术启用,采用 Ubuntu 19.10,5.3.0-24-generic,AIXPRT 图像分类 AIXPRT v1.01,英特尔® OpenVINO™ 工具套件分发版 2019 R3,ResNet50 v1,面向英特尔® 深度学习加速技术 (INT8):BS=4,56 个实例,对于 FP32 BS=4,56 个实例。
12 英特尔。“Lower Numerical Precision Deep Learning Inference and Training.”(较低数值精度深度学习推理和训练),2018 年 1 月。intel.com/content/www/cn/zh/arti_cial-intelligence/solutions/lower-numerical-precision-deep-learning-inference-and-training.html
13 在使用 PyTorch 测量每路每秒推理图像的测试中,单路英特尔® 至强® 铂金 8280 (Cascade Lake) 处理器采用批量大小 1,在 ResNet50、Faster R-CNN 和 RetinaNet 在 fp32 和 int8 不同场景下集成英特尔® MKL-DNN 获得超出基线(fp32 无英特尔® MKL-DNN)7.7 倍到 105 倍以上的性能提升。数据来源:英特尔。“Intel and Facebook collaborate to boost PyTorch CPU performance.”(英特尔与 Facebook 合作提升 PyTorch CPU 性能),2019 年 4 月。https://software.intel.com/content/www/cn/zh/develop/articles/intel-and-facebook-collaborate-to-boost-pytorch-cpu-performance.html
14 例如,Microsoft 正在进行的 Brainwave 项目。2018 年,必应和 Microsoft Azure 在数据中心部署了新的多 FPGA 设备,改变了 CPU 和 FPGA 之间的算力比,每个服务器中都设置了多个英特尔® Arria® 10 FPGA。数据来源:Microsoft。“Project Catapult.”,microsoft.com/en-us/research/project/project-catapult/。Microsoft 授权使用。
15 例如,英特尔® Stratix® 10 NX FPGA 可赋予人工智能应用高达 15 倍的 INT8 吞吐量提升。基于内部英特尔估算。更多信息,请参见:英特尔。“Intel Stratix 10 NX FPGAs.”(英特尔® Stratix® 10 NX FPGA)www.intel.cn/content/www/cn/zh/products/programmable/fpga/stratix-10/nx.html
16 Microsoft。“What are _eld-programmable gate arrays (FPGA) and how to deploy.”(现场可编程门阵列 (FPGA) 及其部署方法),2020 年 3 月。https://docs.microsoft.com/zh-cn/azure/machine-learning/how-to-deploy-fpga-web-service。Microsoft 授权使用。
17 示例详见:英特尔。“Simplifying Cloud to Edge AI Deployments with the Intel® Distribution of OpenVINO™ Toolkit, Microsoft Azure, and ONNX Runtime.”(借助英特尔® OpenVINO™ 工具套件分发版、Microsoft Azure 和 ONNX 运行时简化云端到边缘人工智能部署),intel.com/content/www/us/en/arti_cial-intelligence/posts/microsoft-azure-openvino-toolkit.html
18 “For SAP HANA solutions, these new o_erings help lower total cost of ownership (TCO), simplify the complex architectures for HA/DR and multi-tier data, and o_er 22 times faster reload times.”(对 SAP HANA 解决方案而言,这些新产品有利于降低总体拥有成本,简化 HA/DR 及多层数据复杂架构,实现 22 倍重载速度提升),数据来源:Microsoft。“Next Generation SAP HANA Large Instances with InteOptane™ drive lower TCO.”(下一代 SAP HANA 大型实例采用英特尔® 傲腾™ 推动总体拥有成本削减),2020 年 4 月。https://azure.microsoft.com/zh-cn/blog/next-generation-sap-hana-large-instances-with-intel-optane-drive-lower-tco/。Microsoft 授权使用。
19 重启时间从 50 分钟缩短到 4 分钟。基于 2018 年 5 月 30 日进行的测试。针对 2018 年 5 月 30 日 发布的 SAP HANA 标准应用基准版本 2 的 SAP BW 版本的 SAP HANA 模拟工作负载。使用传统 DRAM 的基准配置:联想 ThinkSystem SR950 服务器,搭载 8 个英特尔® 至强® 铂金 8176M 处理器(28 个内核,165 W,2.1 GHz)。总内存包括 48 个 16 GB TruDDR4 2,666 MHz RDIMM,5 个 ThinkSystem 2.5" PM1633a 3.84 TB 容量 SAS 12 GB 热插拔固态盘 (SSD),用于 SAP HANA 存储。操作系统是 SUSE Linux Enterprise Server 12 SP3,使用 SAP HANA 2.0 SPS 03,带有 6 TB 数据集。10 次表预加载迭代后完成所有数据的平均启动时间:50 分钟。使用 DRAM 和英特尔® 傲腾™ 持久内存组合的新配置:联想 ThinkSystem SR950 服务器,搭载 8 个英特尔® 至强® 铂金 8176M 处理器(28 个内核,165 W,2.1 GHz)。总内存包括 48 个 16 GB TruDDR4 2,666 MHz RDIMM,48 个 128 GB 英特尔® 傲腾™ 持久内存模组,以及 5 个 ThinkSystem 2.5" PM1633a 3.84 TB 容量 SAS 12 GB 热插拔固态盘 (SSD),用于 SAP HANA 存储。操作系统是 SUSE Linux Enterprise Server 12 SP3,使用 SAP HANA 2.0 SPS 03,带有 6 TB 数据集。10 次表预加载迭代后完成所有数据的平均启动时间:4 分钟(速度提升 12.5 倍)。
20 英特尔。“Baidu Feed Stream Services Restructures Its In-Memory Database with Intel® Optane™ Technology.”(百度 Feed 流服务借助英特尔® 傲腾™ 技术重构内存数据库),https://www.intel.cn/content/www/cn/zh/architecture-and-technology/baidu-feed-memory-database-restruction-with-optane-technology.html
21 百度需缓存磁盘以持续向磁带驱动器库传输顺序数据。6 个 NAND 驱动器达到 36.75 PBW,而两块英特尔® 傲腾™ 固态盘可达到 164 PBW。数据来源:英特尔。“Improve tape-backup speeds by caching with Intel® Optane™ SSDs.”(用英特尔® 傲腾™ 固态盘缓存提升磁带备份速度),2020 年 7 月。https://www.intel.cn/content/www/cn/zh/products/docs/storage/baidu-improves-tape-backup-case-study.html