英特尔®至强® 助力携程通过 AI 推理优化方案提供高性能、经济的 AI 服务

英特尔®至强® 助力携程通过 AI 推理优化方案提供高性能、经济的 AI 服务

  • 为满足业务需求的同时降低成本压力,携程构建了基于英特尔® 至强® 可扩展处理器的 AI 推理算力平台,并通过高性能算子库、计算图优化、模型压缩、模型部署优化等方式,提升了 AI 推理性能。

author-image

作者

作为一站式旅行平台,携程近年来加大了在 AI 创新方面的投资,将 AI 技术成功应用于酒店、机票、自由行、跟团游、签证、玩乐、租车等旅游度假的多个业务线,为全球用户提供一套完整的旅行产品、服务及差异化的旅行内容。为了在满足业务需求的同时降低成本压力,携程构建了基于英特尔® 至强® 可扩展处理器的 AI 推理算力平台,并通过高性能算子库、计算图优化、模型压缩、模型部署优化等方式,提升了 AI 推理性能。

化解 AI 算力瓶颈需要深度的 AI 推理性能优化

AI 应用的发展凸显了企业在算力方面的挑战。一方面, AI 技术正在日趋多样化与复杂化,为了适应不同的业务场景需求,企业常常需要融合使用传统机器学习、卷积神经网络、 Transformer 等深度学习模型结构,以及知识图谱、图神经网络等技术。同时, AI 模型的深度、宽度以及结构复杂度也在不断提升,增加了企业的开发门槛,也使得 AI 算力调度、 AI 性能优化更具挑战。

另一方面,需要由 AI 赋能的智能化应用正在迅速扩张,需要由 AI 模型处理的数据也在不断增长。在旅行服务行业,内容与广告个性化推荐、实时风控、机器翻译、智能客服、图像处理等领域正在越来越多地使用 AI 技术,以从海量的数据中生成高价值的商业洞察,从而带来了较高的算力基础设施建设成本。与此同时,上层应用对于 AI 模型推理也有着特定的服务级别协议 (SLA) 要求。企业需要在满足 SLA 要求的前提下,通过模型优化等方式,更好地发挥硬件的性能潜力,降低算力基础设施的 TCO。

要满足上述需求,企业首先要面临硬件平台的选择问题:虽然基于独立 GPU 的推理方案能够提供强大的算力,但未必是一个经济的选择。这是因为独立 GPU 不仅采购或租用成本相对较高,而且通常是以专用服务器的模式进行部署和运维,带来了较高的综合成本。考虑到旅行服务中大量的 AI 推理场景所需要的性能经过优化能够得到满足,采用 CPU 的方案将更具成本效益。

除了硬件平台选择之外,企业在 AI 模型推理性能优化方面也面临着以下瓶颈:
 

  • 模型结构种类多,性能瓶颈差异较大,适用的优化方法各有不同,手动优化成本高、门槛高;
  • 传统方式需要对模型进行逐个手动优化,可推广性差,技术覆盖面有限;
  • AI 推理面向的硬件平台存在广泛差异,技术人员往往需要进行针对性调优,引发较高的人力成本和部署成本;
  • 新模型的发布和迭代需要应用优化方法,涉及较高的沟通和接入成本,同时带来了性能的不稳定性;
  • 模型压缩技术对不同模型的优化效果有所差异,可能需要进行模型的再训练,训练和数据准备流程较长,效率低下

基于英特尔®至强®可扩展处理器的携程 AI 推理算力平台

为了降低优化、部署和迭代成本,提高工作效率,并实现稳定性能,携程尝试评估基于英特尔® 至强® 可扩展处理器的 AI 推理算力平台,旨在为算法模型提供更全面易用、稳定性更好、使用和维护成本更低的优化解决方案。

英特尔® 至强® 可扩展处理器内置人工智能加速功能,并已针对工作负载进行优化,能够为各种高性能计算工作负载、 AI 应用以及高密度基础设施带来一流的性能和内存带宽。同时,采用矢量神经网络指令 (VNNI) 的英特尔® 深度学习加速(英特尔®DL Boost)能够有效提高 AI 推理的表现,这使其成为进行深度学习应用的卓越基础设施。

在基于英特尔® 至强® 可扩展处理器的硬件平台层基础上,携程构建了 AI 推理算力平台,该平台还包括引擎框架层、推理优化层、算法模型、应用场景。

为了尽可能地提升 AI 推理性能,释放硬件潜力,携程进行了推理优化。主要的优化思路为两点:一是通过调整/简化模型结构,或改进算法以降低算法复杂度;二是优化软件执行效率,使用硬件优势特征,提升硬件执行效率。

收益:实现性能与经济性的更佳平衡

得益于深度的 AI 模型推理性能优化,以及英特尔® 至强® 可扩展平台的基础算力,携程实现了预期的性能优化效果。在这一方案落地之后,预计将会为携程带来如下收益:
 

  • 在特定的 SLA 要求下,降低 AI 推理应用的 TCO:在通过本轮优化之后,携程的 CPU 服务器 AI 推理性能得到提升,能够满足大量 AI 推理场景对于时延等 SLA 指标的要求,避免了在昂贵的专用 AI 加速器方面的支出。
  • 提升基础设施的敏捷性与灵活性:通过本轮优化,携程能够高效利用现有的 CPU 服务器,根据实际负载需求进行灵活调度,而无需为 AI 推理新增需求部署专用服务器。
  • 为 AI 推理性能优化提供了标准的参考流程:本方案提供了一套标准、可自动完成的参考模型优化流程,能够赋能更多的 AI 应用。