简述
随着人工智能(Artificial Intelligence,AI)技术在更多行业与领域获得落地应用,其运行的环境也变得更为复杂且多样化。为帮助用户有效应对异构硬件平台带来的挑战,致力于打通AI产业落地全链条,打造低成本、低门槛和高可用的AI产品解决方案的腾讯云,正通过推出异构计算加速软件服务,计算加速套件TACO Kit(TencentCloud Accelerated Computing Optimization Kit),助力用户在异构硬件平台上获得便捷、易用且经过有效优化的AI加速能力。
为了让TACO Kit中的AI负载获得更优的推理性能加速,英特尔与腾讯云一起,将英特尔® Neural Compressor(英特尔® 神经网络压缩器)以插件形式集成到TACO Kit中。得益于英特尔® Neural Compressor提供的量化技术及其它性能调优特性,以及英特尔® 深度学习加速(英特尔® DL Boost)技术对量化后模型提供的硬件加速,AI模型的推理性能可获得显著提升,并在双方随后开展的验证测试中获得了充分地证明。
“计算加速套件TACO Kit能帮助不同角色的用户在异构硬件平台上获得便捷、易用且经过有效优化的AI加速能力,从而助力AI应用实现全方位、全场景的降本增效。而英特尔® Neural Compressor是TACO Kit中AI推理负载获得充分性能加速的有效技术保证。” ——叶帆,腾讯云异构计算专家级工程师
解决方案
从工业制造到金融医疗,从社交购物到日常生活,算力的突破、算法的演进与数据洪流的助力,正让AI技术在人们的生产、生活中扮演越来越重要的角色,在推动各类商业模式、生产流程以及交互沟通场景发生巨大变革之余,也使生产效率和生活质量获得大幅提升。
但新的挑战也随之而来,从云端、边缘到终端设备,更广泛的应用场景意味着AI的部署环境正变得更为复杂且多元化。而要在异构硬件平台上运行全栈软件,用户不仅需要基于不同的硬件基础设施来设计高效稳定的开发和部署方案,还需要根据业务场景、软件框架的不同来实施复杂的调优过程,任何环节的缺失和短板,都可能无法最大化发挥软、硬件的潜力,这不仅将抬高用户的技术准入门槛,也会大幅提升AI应用的构建成本。
因此,在异构硬件平台上提供全栈式的软硬件解决方案,显然已成为业界面临上述挑战时的共识。而作为AI领域的领先企业之一,英特尔和腾讯云也通过深入的合作,以硬件异构、软件同构的构建模式,如图一所示,通过软硬件结合的方式,携手为用户提供了高性能的异构加速解决方案。
■ 腾讯云打造全新的异构计算加速套件TACO Kit
腾讯云面向不同角色用户,包括AI方案设计者、AI开发人员以及AI使用者推出的全新异构计算加速软件服务,计算加速套件TACO Kit,以一系列软硬件协同优化组件和特有的硬件优化方案,为用户提供支持异构硬件的跨平台统一软件视角,并借助多元化异构、高性能加速框架、离线的虚拟化技术以及灵活的商业模式等优势,实现了对多元算力的轻松驾驭,从而助力用户的AI应用实现全方位、全场景的降本增效。
而作为异构加速服务的入口,TACO Kit内置的AI推理加速引擎TACO Infer则能针对用户AI应用中不同的训ru练和服务框架、不同的优化实践和使用习惯、不同的软件版本和硬件偏好,以计算加速、无感接入和鲁棒易用的特性和优势,帮助用户一站式解决其 AI 模型在生产环境中部署与应用的痛点。
TACO Infer引擎所提供的功能特性包括:
- 无感集成:可跨平台透明适配CPU、GPU、NPU等不同的异构芯片。尊重用户使用习惯,无需改变模型源格式。无需进行IR(Intermediate Representation,中间表示)转换,对无显式算子结构模型友好;
- 基于原生框架Runtime:可基于多种流行原生框架,包括TensorFlow、PyTorch、ONNXRuntime 等运行。可基于框架原Runtime构建,并可充分leverage框架自定义的扩展机制;
- 无缝对接服务框架:包括TF Serving、Triton以及TorchServe等。
借助计算加速套件TACO Kit以及TACO Infer 推理加速引擎,无论在何种场景中,用户在硬件平台上部署其AI应用,都无需再把精力耗费在繁琐的、针对不同硬件、不同框架进行的适配和性能调优工作上。只需要进行简单的前端交互,就能让TACO Kit在后台以最佳模式启动工作负载,并获得更优的推理性能。
而更优推理性能的获得,也离不开英特尔和腾讯云面向TACO Kit开展的深度协作。这一协作通过将英特尔® Neural Compressor集成到TACO Kit中,来为用户和开发人员提供对AI推理模型的量化支持,在保证精度、动态量化(无需数据校正,优化即用)的前提下,不仅大幅提升AI推理性能,也帮助用户有效降低成本,进一步加速各类AI应用的落地使用。
■ 英特尔® Neural Compressor助力TACO加速推理性能
作为由英特尔开源的神经网络模型压缩库,英特尔® Neural Compressor能够帮助用户降低AI模型的大小,并有效提升其在不同英特尔® 硬件平台上的深度学习推理速度。其不仅面向主流模型压缩技术(如量化、修剪以及知识提取等)提供了跨多个深度学习框架的统一接口,还具有以下的模型性能调优特性:
- 具备由精度驱动的自动化调整策略,帮助用户快速获得最佳量化模型;
- 可使用预定义的稀疏性目标生成修剪模型,从而实现不同的权重修剪算法;
- 能够从更大的网络(“教师”)中提取知识用于训练更小的网络(“学生”),从而实现更小的精度损失。
如欲了解更多英特尔® Neural Compressor信息,请参阅英特尔官网:https://www.intel.cn/content/www/cn/zh/developer/tools/oneapi/neural-compressor.html
在英特尔和腾讯云开展的协作方案中,英特尔® Neural Compressor可通过插件的方式集成到TACO Kit中。得益于上述英特尔® Neural Compressor提供的优势特性,如图三所示,TACO Kit在与之实现集成后,能够利用量化压缩技术来为不同的深度学习框架(如TensorFlow、PyTorch、ONNXRuntime等)提供统一的模型优化 API,实现便捷的模型推理优化过程(由FP32数据类型量化为INT8数据类型)。同时,其内置的精度调优策略可根据不同的模型内部结构生成精度更佳的量化模型。该过程不仅大幅降低了用户进行模型量化的技术壁垒,也有效提升了AI模型的推理效率。
在云端部署时,量化后的模型可通过英特尔® 至强® 可扩展平台内置的英特尔® DL Boost技术来获得行之有效的硬件加速。借助英特尔® DL Boost所提供的AVX-512_VNNI(矢量神经网络指令)指令集,量化为INT8数据类型的模型能获得更高的推理效率。以指令集中的vpdpbusd指令为例,以往需要3条指令(包括vpmaddubsw、vpmaddwd、vpaddd)完成的64次乘加过程,现在仅需1条指令(vpdpbusd)即可完成,并可以有效地消除运行过程中的处理器饱和问题。同时,乘加过程中的中间数值也可直接从内存播送。综合以上种种性能优化措施,融合英特尔® DL Boost(AVX-512_VNNI)的INT8模型处理性能,可达初始FP32模型的4倍1。
方案验证与未来展望
为验证集成英特尔® Neural Compressor后的TACO Kit在不同AI模型推理工作负载中的性能加速情况,英特尔与腾讯云一起选取了多种被广泛应用的自然语言处理深度学习模型进行了验证测试。测试中,各个深度学习模型在通过TACO Kit进行优化后,进而使用英特尔® Neural Compressor进行了INT8量化以及性能调优。推理性能加速结果如图五所示1,在保持精度水平基本不变的情况下,各个深度学习模型的推理性能均获得了显著的提升,提升幅度从55%到139%不等。在其中的bert-base-uncased-mrpc场景中,推理性能达到了基准值的2.39倍,获得了令人满意的成果。
面向未来,TACO Infer会在软硬件兼容性和性能提升上进行不断地迭代优化,包括融合硬件厂商优化算子、自研AI编译技术升级等。同时,双方还计划进一步将第四代英特尔® 至强® 可扩展平台及其内置的深度学习加速技术与腾讯云计算加速套件TACO Kit相融合,借助新平台更为澎湃的算力输出与深度学习加速新技术提供的性能调优,在保持易用性的基础上,为用户提供更加高效可用的异构AI加速能力,助力客户真正发挥出云服务的算力性价比优势,创造增量价值。