启数智 云赋能 英特尔「云上AI与数据分析」加速智能创新

  • 英特尔构建了从计算、存储、网络到软件,覆盖各种负载及应用场景的全栈软硬件产品组合;凭借先进的集成AI加速和安全性解决方案的数据中心级平台- 第三代英特尔® 至强® 可扩展平台,以更强的算力、更快的数据处理能力以及更安全灵活的硬件集成与加速,帮助云数据中心实现更优效能,加速AI产业发展与AI落地。

author-image

作者

在呼啸而至的数字化变革中,人工智能(Artificial Intelligence,AI)扮演着重要角色,并成为产业创新中十分活跃的领域之一。以人工智能为代表的信息技术推动着第四次科技革命迅猛发展,并已呈现出巨大的社会和商业价值。

今天,人工智能已实打实地走入医疗、教育、零售、制造、城市治理等领域的众多应用场景之中。举例来说,在医疗行业,基于图像识别技术的 AI 可以帮助医生提供临床辅助诊断,提升医疗效率,降低误诊率,并助力打破医疗资源不平衡的局限,同时在药物研发领域、基因测序、癌症筛查等更多场景中大显身手;在零售行业,无人超市、智能货柜已经走入寻常生活,影响和改变着人们的消费习惯,通过 AI 进行辅助收银、商品识别分析、智能客服等服务提升运营效率和消费者体验;同时,人工智能也在智能制造领域施展拳脚,助力瑕疵检测、精密加工等场景大幅降本增效。

经历三次发展浪潮的跌宕起伏,到今天,AI 已经成为推动行业数字化转型和产业升级的重要驱动力。根据 IDC 发布的数据预测,到 2024 年,全球人工智能产业规模将超过 3,000 亿美元,五年复合年增长率 (CAGR) 为 17.1%1。 AI 迎来高速发展,且潜力无限。

不过,成为聚光灯焦点下的 AI 虽照亮行业 “前程”,但还远没到普惠的阶段,让智能无所不及还有很长的一段路要走。在支撑 AI 发展的算力、算法、数据这三架马车中,数据是基础,算法是工具,算力则是助燃剂;AI 要发挥出实效,需要在强大的算力支撑下,利用人工智能算法在海量数据中挖掘出价值;而大规模、高并发的训练和推理,以及指数级增长的算力需求,对于缺少技术、成本和人才等积累的普通企业用户来说,是应用 AI 提升业务水平、改善服务质量时难以跨越的鸿沟。

图一 人工智能之旅

在此背景下,大数据分析和 AI 与云的结合成为发展趋势,集约化的云智融合、云数一体为人工智能建立了大规模算力和大数据处理的基础,一方面可提供更高性能的存储和数据分析能力,驱动 AI 应用部署更高效;另一方面也能够将云平台与数据分析、AI 平台二合一,打造技术平台化和商业化的重要载体,成为行业用户获取数据分析和 AI 技术的重要方式。

助力云加速 AI 普惠,降低 AI 使用的门槛,是英特尔一直努力的方向。在 AI 的产业生态中,英特尔构建了从计算、存储、网络到软件,覆盖各种负载及应用场景的全栈式软硬件产品组合;凭借先进的集成 AI 加速和安全性解决方案的数据中心级平台- 第三代英特尔® 至强® 可扩展平台,英特尔正以更强的算力、更快的数据处理能力以及更安全灵活的硬件集成与加速,帮助云数据中心实现更优效能,加速 AI 产业发展与 AI 落地。


云、数、智融合,为 AI 落地提供优选路径

以云化架构构建人工智能服务,以云数智融合提供 AI 落地的优选路径,还要从人工智能面对的算力挑战、开发挑战、数据应用挑战说起。


AI 落地挑战
 

  • 算力挑战

当前的人工智能技术以海量数据驱动的学习算法为主,算力是核心支撑。以 BERT、GPT-3 等大规模预训练模型举例,其需要的 AI 算力从 TFLOPS 级别增加到 PFLOPS 级别,甚至开始进 入EFLOPS 级别。中国信息通信研究院发布的数据报告显示2,2020 年中国总算力规模中,智能算力占比达到 41 %,预计到 2023 年智能算力的占比将提升至70%,AI 复杂模型、复杂场景的计算需求进一步催生出面向 AI 的算力基础设施需求。所以,算力挑战带来的昂贵算力成本是横亘在 AI 面前的第一大瓶颈,企业获取 AI 算力研发条件面临着较高门槛。

 

  • 开发挑战

AI 开发涉及从数据收集、数据预处理、数据标注、模型训练、模型评估,到模型部署等一系列任务和流程。在构建适用于企业业务的模型方面,又需要进行模型调参、机器学习算法和框架选择、搭建机器学习所需的软硬件环境等流程,复杂流程、任务带来的高技术门槛和较长开发周期成为了众多企业面临的普遍难题。

图二 人工智能应用的底层数据管道

  • 数据应用挑战

如果把 AI 视为一辆火车,算力、算法、数据则提供了其运行的燃料和发动机,除此以外,足够大的车厢和可靠铁轨同样必不可少,才能为火车提供足够的运力支撑。这就需要 AI 在开发过程中提供对数据的快速处理、高速存储和极速分析等能力,从而让 AI 发挥出足够效能。但是在此方面,大部分企业并没有为 AI 匹配充足运力。


云数智融合为数据分析及 AI 降门槛

面对上述 AI 落地挑战,将云计算与大数据分析和 AI 结合,云数智一体,可有效降低 AI 开发和使用门槛,为企业 AI 落地提供优选路径。

首先,云平台以规模化、集约化建设规避了人工智能所需算力、算法、数据等要素的高起点以及硬件、软件框架、平台等核心环节间的衔接难题。在算力方面,云平台构建计算集群可为单个用户创建数千处理器规模的人工智能计算资源,并借助云的弹性优势使得企业按需使用;在开发方面,领先的云平台构建了包括 AI 开发框架、算子库、AI 使能平台、AI 云底座在内的软硬件 AI 全栈能力,为用户进行低成本、高效率、全流程的 AI 开发提供支持;在服务方面,云平台提供的如图像、语音等标准化产品和服务能力,以及积累的行业实践形成的解决方案,可帮助用户实现人工智能的快速落地。

其次,云数智融合正在成为云服务提供商的战略方向选择。例如,阿里巴巴将阿里云事业群升级为阿里云智能事业群,云和智能上升到十分重要的位置;腾讯云成立云与智慧产业事业群,推动智能上云;百度智能云很早提出 ABC 一体发展战略,构建 AI 原生云;华为一度成立 Cloud & AI BG,推动一云两翼发展;紫光集团成立紫光云与智能事业群,提供全栈智能、全域覆盖能力……这些国内头部云服务提供商的一致行动均指向一个目标:为用户提供普惠的云上 AI,打造智能基础设施。

所以,无论是云平台的云数智融合一体能力还是战略定力,都为降低 AI 开发和使用门槛创造了条件,为 “百花齐放” 的人工智能提供了用得起的创新平台。

云服务提供商以云化架构构建人工智能服务,不仅提供面向 AI 应用加速的硬件基础设施,还在其上部署能够高效分配、调度底层基础设施资源的云平台,以及能在这一云平台上为 AI 应用和模型提供完备运行环境的中间件或框架。也就是说,对于最终使用用户而言,无需关心底层 AI 框架配置和调优,可屏蔽复杂的人工智能技术细节,这进一步为 AI 降低了落地门槛。

云平台和 AI 运行环境的搭配越合理、协作越高效,AI 云服务的整体表现就越出色。在此方面,英特尔为云赋能,不仅有 “画龙之作”,更有 “点睛之笔”。其一,助力打造更为强化的 AI 硬件性能,为用户提供优化的 AI 基础设施,提升应用效率,降低总体拥有成本(Total Cost of Ownership, TCO);其二,面向 AI 开发和 AI 应用提供训练模型调优加速、与实际场景结合的 AI 加速等能力,节省用户在系统部署和优化上的成本投入,从而更关注利用 AI 方法提升业务价值。


英特尔「云上 AI 与数据分析」为云赋能,为 AI 添效能

如果说云数智融合的云上 AI 为企业使用 AI 打开了一扇大门,那么 “隐藏” 在背后的英特尔则让 AI 落地场景更快、更高效、更具效能。

从硬件到软件,英特尔提供了增添 AI 效能的全栈能力和工具。在硬件方面,英特尔做到了从 CPU、GPU、VPU、到 FPGA 全面计算类型的芯片全覆盖,满足不同任务类型的 AI 负载;此外,英特尔还将傲腾™ 持久内存、智能网卡,甚至 SSD 等高效组合在一起,从数据的存储、传输、计算各个环节助力云端打造高性能、高性价比的云上 AI 基础设施;在软件方面,英特尔通过对各类主流深度学习框架进行全面优化,使得硬件能力得到释放与提升,并通过提供OneAPI、OpenVINO™ 工具套件、Analytics Zoo 等一系列开源软件及工具,进一步降低 AI 开发门槛,为企业落地 AI 降本增效。


英特尔® 至强® 可扩展平台提供更高性价比选择

从 AI 产生热度以来,人们普遍认为专有架构是提供 AI 算力的更佳之选,殊不知,以英特尔® 至强® 可扩展平台为代表的通用计算处理器平台在加速 AI 应用,特别是推理上已经成为了一个成熟且具备更高性价比的选择。

作为一款集成了人工智能加速技术的处理器平台,第三代英特尔® 至强® 可扩展平台让企业能够在与既有工作负载相同的硬件平台上运行复杂的人工智能工作负载,与上一代产品相比性能大幅提升;增强型英特尔深度® 学习加速(Intel® Deep Learning Boost, 英特尔® DL Boost)技术是首款同时支持 16 位 Brain Floating Point (bfloat16) 数字格式和矢量神经网络指令 (VNNI) 的x86技术,增强了人工智能推理和训练性能。

为了充分发挥硬件性能,英特尔还推出了面向深度学习应用的开源性能增强库-英特尔® 深度神经网络库(英特尔® one-DNN),加快高性能计算机视觉处理和应用、深度学习推理及部署的 OpenVINO™ 工具套件,针对底层硬件进行了优化设计、包含完整开发环境、软件库、驱动程序、调试工具等要素的oneAPI等一系列配套软件和优化工具包。至强® 可扩展平台在实现软硬件充分优化后,其 AI 性能、特别是推理性能已能与专有架构平台相媲美。

此外,在提升性能的同时,英特尔也进一步增强了数据安全性。例如,英特尔® Software Guard Extensions(英特尔® SGX)通过独立于内存、操作系统或硬件配置的应用程序来提供精细数据和隐私保护,以及英特尔提供的密码操作硬件加速、全内存加密、英特尔® PFR、英特尔® QAT等进行加密、增强数据和虚拟机保护、提升固件韧性,打造硬核级的安全环境。

经过众多云平台的实践应用,英特尔® 至强® 可扩展平台的优势已得到了充分验证。
 

  • CDS 首云与英特尔一起,利用英特尔® 至强® 可扩展平台,在其高性能 K8S 容器平台上导入OpenVINO™ Model Server,为 AI 模型的快速部署及推理效率的提升提供助力。实践结果表明3:基于 OpenVINO™ Model Server 的新方案不仅在用户并发接入能力上远优于传统 AI 模型部署工具,同时在检测时延等关键性能指标上也有更为出色的表现。举例来说,与 TensorFlow Serving 服务框架相比,OpenVINO™ Model Server 面向英特尔® 架构的基础设施实施优化,并发接入能力提升了 2.4 倍;在不良视频内容检测场景中,所有并发接入任务的检测时延均低于 30 毫秒,满足了实时检测的要求。

图三 CDS 首云针对不良视频内容检测场景的验证测试结果
 

  • 阿里云机器学习平台 PAI 在与英特尔的合作中,利用了第三代英特尔® 至强® 可扩展处理器支持的 bfloat16 加速,主攻 PAI 之上 BERT 性能的调优,具体而言以经过优化的 Float32 Bert 模型为基准,利用 BF16 加速能力优化了该模型的 MatMul 算子,以降低延迟。测试结果表明4:与优化后的 FP32 Bert 模型相比,英特尔® 至强® 可扩展平台 BF16 加速能力能在不降低准确率的情况下,将 BERT 模型推理性能提升达 1.83 倍。

图四 PAI 基于 CPU 的优化获取极致性能

  • 通过与英特尔开展紧密合作,百度在其飞桨深度学习平台中发布了 INT8 离线量化方案。实际验证表明5,基于英特尔® 至强® 可扩展平台,并利用其集成的、对 INT8 有优化支持的英特尔® 深度学习加速技术(VNNI 指令集),可在不影响预测准确度的情况下,使多个深度学习模型在使用 INT8 时的推理速度,加速到使用 FP32 时的 2-3 倍之多,大大提升了用户深度学习应用的工作效能。此外,基于第三代英特尔® 至强® 可扩展处理器,百度还打造了全功能 AI 开发平台 BML,该平台不仅能够为用户提供更易用、更流畅、更灵活的 AI 硬件基础设施支持,也进一步提升了平台用户的开发体验。
  • 东软集团与英特尔合作,利用第三代英特尔® 至强® 可扩展处理器和 OpenVINO™ 工具套件优化其 CareVault 智能医疗研究云平台,将东软智慧病理分析系统的推理速度提升了 3.4 倍6,从而赋能用户大幅提升 AI 辅助诊断效率,有效降低 TCO 并实现从 FP32 向 INT8 的快速转换与应用。


傲腾 持久内存加速云端 AI 数据分析

比 DRAM 内存更大的容量、更低的成本和接近 DRAM 内存的性能,多重优势使得英特尔® 傲腾™ 持久内存可为数据分析和 AI 平台构建一个更贴近处理器且能存储更多训练和推理数据的高性能缓冲池,这与专有架构平台通常受限于板卡上缓存容量不足的情形相比,无疑可大大提升 AI 训理和推理的效率。

英特尔® 傲腾™ 持久内存 200 系列将理论带宽平均提升 32%,总内存每路高达 6 TB7。通过创建两层内存和存储分层架构,优化工作负载的性能与成本,提供了破解数据分析难题的一剂良方。从云到数据库,再到内存分析、虚拟化基础设施、内容分发网络等,数据密集型和计算密集型工作负载可以轻松利用大规模持久内存,这些大内存池的实现有助于加速获取云端洞察。

图五 英特尔® 傲腾™ 技术创建多层内存和存储分层结构,从而实现工作负载优化

  • 通过与英特尔开展技术合作,平安云在金融行业内,率先为 Redis 云服务集群引入了全新英特尔® 傲腾™ 持久内存。基于该款革新型内存产品构建的新方案,使得基于 Redis 的平安云云服务的单服务器内存容量大幅提升,达到了 1.5TB8。目前,平安云已向用户提供了容量为 TB 级别的全新 Redis 云服务,并获得了良好的反馈。基于此,基于 Redis 的平安云云服务为众多内、外部客户带来了业务运营效率的显著提升,例如针对读多写少的互联网数据访存模型,大幅提升产品信息读取和页面加载速度;针对视频直播弹幕、聊天室、抢礼物等对性能有着较高要求的模块,提升了业务流畅性,明显改善了用户体验。
  • 为了快速运行数据分析和支持人工智能工作负载,VMware 与英特尔合作打造了混合云数据分析解决方案,该平台不但支持高级机器学习,而且还能为广泛的工作负载提供统一的云操作模型。对于以内存为中心的工作负载,企业可以将英特尔® 傲腾™ 持久内存添加到混合云数据分析解决方案中,这项突破性技术填补了 DRAM 和 NAND 固态盘之间的缺口。与仅采用 DRAM 的系统相比,英特尔® 傲腾™ 持久内存可提供接近 DRAM 的性能,成本却降低多达 39%9。整体而言,这一混合云解决方案既能处理传统的企业级 SQL/NoSQL 工作负载,又可以进行扩展,将计算和需要大量内存的人工智能作业包含进来,例如帮助金融机构利用 AI 进行欺诈检测,助力互联网企业使用人工智能处理和分析大量流媒体视频,提升效能。
  • 通过引入英特尔® 傲腾™ 持久内存,CDS 首云通过与自身云平台系统管理软件相配合,同时结合英特尔® 傲腾™ 固态盘和英特尔® 固态盘,构建 “计算+缓存+存储” 的首云裸金属+托管私有云全闪存储解决方案,以敏捷、弹性的调度能力帮助客户获得所需要的算力和存储空间,并实现性能上的显著提升。经测试验证10,基于傲腾™ 产品的全闪解决方案可以使系统的 IOPS 提升 50% 以上,时延降低 40%-50%,同时单IOPS成本降低 50-60%。得益于此,首云形成了以弹性能力和灵活服务等为特色的裸金属全栈混合云整体能力,促进了业务的快速发展。


Analytics Zoo 打通大数据平台与 AI 任务快捷通道

在人工智能的开发实施中,大数据平台和 AI 应用之间有着密不可分的关系。Analytics Zoo 打造了大数据平台与 AI 任务之间的快捷通道,它是英特尔开发的统一大数据分析和 AI 平台的软件工具。基于可扩展的架构,Analytics Zoo 将 Apache Spark、TensorFlow、PyTorch、OpenVINO™ 工具套件以及 Ray 等常见框架和软件聚合在一起,可以为用户提供一条从数据采集、清洗、AI 训练、一直到推理应用的端到端数据处理和利用的流水线(Pipeline)。

在 AI 应用中,往往需要经过复杂的数据分析过程,Analytics Zoo 通过弥补深度学习框架和大数据分析平台之间的断层加速了这一过程。Analytics Zoo 能帮助企业用户在现有的、基于至强® 可扩展处理器的大数据平台上,直接背靠其积累的海量数据来无缝部署 AI 应用。

并且,Analytics Zoo 先天可对基于英特尔® 架构的硬件基础设施提供全面周到的性能调优,且能支持多种主流 AI 框架。从问世至今的数年时间里,Analytics Zoo已在诸多企业级 AI 应用场景中为用户提供了可靠的 AI 助力。
 

  • 金风慧能基于 Analytics Zoo,将数据存储、数据处理以及训练推理流水线整合到了统一的、基于英特尔® 至强® 可扩展平台的基础设施架构中,进而打造出全新的新能源智能功率预测方案。新方案不仅将 TensorFlow、Keras 模型透明地扩展到大数据集群,让训练或推理方案能够更便捷地采用分布式架构,也将英特尔提供的众多底层优化加速库,如英特尔® MKL、one-DNN 等集成至功率预测方案中,从而使新方案获得了更优的预测准确率和预测效率。经过实地测试11,预测准确率由原方案的 59% 提升到了新方案的 79.41%,且新方案的训练时间也大幅降低。相较于传统根据历史资料以及人工经验来实施功率预测的方法,智能功率预测方案令预测准确率和稳定性更高,不仅有利于调度系统合理调整和优化发电计划,改善电网调峰能力,更能减少弃风和弃光率。

图五 金风慧能功率预测新旧方案对比
 

  • 医渡云构建的可追溯、可监管的医学数据智能平台,将原先基于 TensorFlow 的训练和数据处理工作流迁移到了 Analytics Zoo平台,可以同时承担大数据分析与 AI 分析两类不同的数据分析任务,实现了医疗大数据处理和深度学习的统一分析。在训练或推理阶段,相比较开源版本的Caffe、TensorFlow、Keras 等之上的模型,性能都获得了一个数量级以上的提升12。并且,无需另外开辟 AI 的基础架构和软硬件资源,没有新增任何硬件成本,且平台部署迅速。在此基础上,医渡云构建的大规模多源异构医疗数据处理技术,为协助医疗机构提升数据采集及处理效率,建立疾病模型,大幅缩短科研周期提供了有效支撑。


AI 框架全面优化,提升整体性能
 

  • TensorFlow、PyTorch、Caffe 、MXNet、PaddlePaddle(百度飞桨)、BigDL 等是人工智能领域的主流深度学习框架,英特尔通过对这些 AI 框架进行全面优化,可以进一步提升英特尔® 至强® 可扩展平台的性能,企业可以选择使用适合自身需求的深度学习框架做模型训练,而无需购买或者搭建不同的硬件基础设施。
     
  • 与第三代英特尔® 至强® 可扩展处理器集成的 AI 加速技术及 oneAPI 工具包深度结合后的百度飞桨 2.0,显著提升了多种深度学习模型的推理速度。优化后的飞桨框架能够充分调动深度学习加速技术,可将众多 AI 模型,特别是图像分类、语音识别、语音翻译、对象检测类的模型从 FP32 瘦身到 INT8,在不影响准确度的情况下,大幅提升推理速度13
  • 为了实现高性能,BigDL在各个 Spark 任务中使用英特尔® 数学核心函数库(英特尔® MKL)和多线程编程,大幅提升了硬件性能。通过采用 BigDL,京东能够加载之前已使用 GPU 资源训练好的 Caffe 模型,然后在存储图片的现有 CPU 架构上重新部署模型。与使用 GPU 集群相比,通过使用配备 1,200 个逻辑内核的高度并发架构,从数据库中读取图片数据的流程大大加快,让整体性能提高了 3.83 倍14

可以看出,基于集成 AI 加速的英特尔® 至强® 可扩展平台及创新的软硬件技术,众多云及 AI 伙伴选择英特尔平台落地人工智能有着必然原因。尤为重要的是,对于瞄准 AI 的企业来说,英特尔拥有业内熟知的全栈实力技术生态系统和产业链生态,这意味着企业无需借助特定硬件,即可与主流数据工作流一起无缝地运行 AI 应用。在此其中,英特尔不仅提供技术赋能大型云服务商,也积极与行业独立软件开发商(Independent Software Vendors,ISV)和系统集成商(System Integrators,SI)共建生态,互相协同,从而发挥生态系统的整体竞争力,为最终用户提供更具效能、更优体验的服务和解决方案。

对于云上 AI 与数据分析而言,云数智融合正在助推 AI 的普及应用,让 AI 的使用门槛变得更低,同时带来了更为精准且高效的数据分析能力,这无疑将为行业创新注入强劲动力。在 AI 的发展浪潮中,作为赋能者,英特尔正助力人工智能加速落地,为云赋能、为 AI 添效能,并持续发挥在云计算、边缘计算、人工智能、数据分析等方面的场景孵化能力,为企业 AI 洞察提供全方位能力平台,为产业智能创新装上加速引擎。