中国联通

中国联通采用 Big DL Chronos 框架实现 5GC 网络动态节能,打造新型数字信息基础设施

  • 中国联通采用英特尔 BigDL Chronos 框架,结合 5GC 等业务特有的性能和质量指标,面向部署在通信云资源池中的 5GC 网元资源,推出占用率预测创新方案,大幅提升预测准确率,达成预期目标,也为未来对云资源池开展广泛的能耗优化,加速打造新型数字信息基础设施奠定技术基础。

author-image

作者

“碳达峰”、“碳中和” 等节能减排目标的提出,开启了中国以技术创新引领低碳发展的新格局。中国联通作为全球领先的电信运营商,将构建以绿色节能为主要特征的新型数字信息基础设施作为重点工作,借助一系列创新技术方案,助力经济社会绿色发展,并为全球应对气候变化贡献力量。

其中,作为 5G 核心网(5G Core Network,以下简称 5GC)等重要业务的承载基础,拥有海量服务器的中国联通通信云资源池,希望引入更高效的能耗管理方案,来助力节能减排。为此,中国联通对云资源池所在的数据中心能耗占比开展了深度分析,并结合业务发展需要,针对服务器自身能耗控制优化提出创新方案。

实现这一方案的前提,是中国联通能够根据云资源池业务量变化,对处理器占用率等资源使用情况实施快速、精准和细致预测。为此,中国联通与合作伙伴英特尔携手,采用 Chronos 框架打造全新的 5GC 网元资源占用率预测方案。Chronos 框架是英特尔开源的统一大数据分析和人工智能平台 BigDL 推出的用于构建大规模时间序列分析应用程序的组件。通过一系列测试与实验室验证表明,新方案的预测准确率符合中国联通的预期,为后续的数据中心节能减排方案落地奠定了坚实的技术基础。

作为承载各类通信业务的基座,通信云资源池的能耗管理水平将直接影响中国联通实现节能减排的总体目标。为此,我们借助 AI 技术,以时间序列预测方案来助力降低服务器能耗。在这一过程中,来自英特尔的 Chronos 框架帮助我们更快更好地完成了新方案的搭建,并获得了良好的预测准确率。”

康凯
通信云项目经理
云网运营中心
中国联通

背景概述:践行绿色环保理念,推动算力中心能耗管理创新

通信云作为 5GC 等通信业务能力的承载基座,正随着 5G 用户量的持续增长及 5G 网络规模的不断扩大而同步高速扩容,不仅需要中国联通进行巨额的硬件投资,还需其承担数据中心能耗持续增长带来的运营成本(Operating Expense,OPEX)增加。

这与中国联通践行的绿色环保理念显然不符。作为全球领先的知名电信运营商,中国联通在 2021 年发布的《“碳达峰、碳中和” 十四五行动计划》中就明确提出要 “不断提高通信网络基础设施绿色化水平,助力行业绿色低碳高质量发展迈上新台阶1”。对于通信云的构建、管理和运维,中国联通希望在其保障 5G 等各类通信业务高效发展的同时,尽可能降低能耗开销。

传统上,业界普遍采用优化数据中心能源使用效率(Power Usage Effectiveness PUE)指标来提升数据中心的绿色环保水平。所谓 PUE,是指数据中心消耗的总能源与 IT 设备消耗的能源之比,数值越接近 1 表示效率越高。近年来,中国联通已通过引入各类新型制冷技术及精细化的能耗管理方法,力争 2022 年将新建数据中心的 PUE 降至 1.42

然而,一方面 PUE 的降低并非永无止境,PUE 降低到一定程度后会进入瓶颈期;另一方面,一味地追求 PUE 降低还可能带来数据中心建设成本增加,从而影响数据中心整体的 TCO 控制。如图 1 曲线所示,实践已表明: PUE 值(竖轴)越趋近于 1,数据中心在建设和维护上的投入(横轴)就越高。

图 1  PUE 值与数据中心成本关系

因此,中国联通决定在持续推进数据中心 PUE 降低的同时,从数据中心能耗的核心——IT 设备入手来打造新方案。如图 2 所示,在中国联通看来,传统 PUE优化方案压降的只是制冷等其它能耗,而对机房中的主要能耗源,如服务器、网络设备等 IT 设备却未有触及。而事实上,在数据中心中,IT 设备能耗占比远大于其它能耗。对这些设备的能耗开展优化,一方面具有更大的优化空间,另一方面会带来制冷能耗的联动降低,无疑将获得事半功倍的效果。

图 2  不同方案能耗优化总量的对比

然而,5GC 网络是面向亿级用户提供语音、数据通信的核心网络,对服务质量的要求极高。随之而来,其对算力资源供应能力也非常敏感。短时间的业务峰值,需要确保算力及时供给,否则就可能会造成接通率等指标的下降。因此,要在不影响业务运行效率的前提下,对承载 5GC 网络各类核心通信业务的服务器等设备进行能耗优化并非易事,在降低能耗的同时要保证核心业务的高效持续运行,需要周全和稳妥的方案。基于这一需求,中国联通尝试对 5GC 业务的业务量、服务质量的处理器、内存等资源消耗进行精细化分析和建模,来了解三者之间的精确定量关系,为业务运行所需资源的精准快速预判提供基础数据。

为此,中国联通与英特尔一起,引入智能化的时间序列预测人工智能(Artificial Intelligence,AI)技术,打造全新的智能数据中心管理机制,采用英特尔 BigDL 推出的 Chronos 框架,结合 5GC 等业务特有的性能和质量指标,通过底层数据采集、AI 建模与预测等环节来对部署在通信云资源池中的 5GC 网元资源占用率做出预测,形成可执行的资源调整策略。


解决方案:借助 Chronos 框架构建精准 5GC 网元资源占用率预测方案

■    5GC 网元资源占用率预测方案建模分析

在方案制之前,中国联通需要先确定 5GC 网元业务量与服务器资源的相互关系。从已有数据分析可知,通信系统的业务量是一个典型的时间序列模型,如图 3 左侧所示,不同业务的数据量是一系列随时间变化的数据序列。同时,包括处理器和内存等核心设备在内,主要影响服务器能耗的设备占用率(使用压力)也是随时间变化的数据序列。

基于这一前提,中国联通与英特尔一起,对 5GC 网元业务量与处理器/内存占用率的数据,进行了探索性分析与可视化。从图 3 可以看到,在不同的业务类型下,业务数据与处理器占用率均有着较高的相关性,而内存占用率则与业务量则基本不相关。

图 3  5GC 网元业务量与服务器资源占用率关系分析

为进一步确定 5GC 网元业务量与处理器占用率之间的对应关系,如图 4 所示,联通在 5GC 网元上对两种数据的关系开展了分析。通过对大量数据的采集、整理与分析,获得了以下结论并为后续方案建模的依据:
 

  • 5GC 网元业务量与时间(随用户使用量变化)相关,且存在波峰波谷特性;
  • 通信云资源池中的处理器负载和业务量负载变化规律趋于一致,因此方案的建模任务可集中在业务量与处理器占用率上;
  • 在整个通信业务运行期间,可通过实时检测业务负载、业务质量指标的变化,来灵活调整服务器的运行状态,实施动态节能减排;
  • 借助英特尔提供的处理器降频(在业务量负载低谷期间实施)等功能,可以实现服务器能耗调整。

图 4  5GC 网元业务量与处理器占用率对比

■    用于构建大规模时间序列分析应用程序的 Chronos 框架

如前所述,无论是 5GC 网元业务量还是处理器占用率,两者都是一系列随时间变化的数据,即时间序列数据。时间序列数据分析可被广泛应用于各个领域的预测性分析,如通信网络质量分析、数据中心运营的日志分析等。与传统统计学方法相比,基于深度学习方法开展的时间序列任务,已被证明在预测准确性与灵活性上更具优势。因此,中国联通新方案选择了智能化的时间序列预测性分析方法,以寻求技术突破。

但传统上,构建时间序列预测模型并形成高效可用的 AI 应用是一个费事费力,且需要较高技术储备的过程。从数据采集和预处理、特征工程再到模型训练,各个环节都可能影响方案推进。尤其是,以往为提升模型的准确性和性能,通常需要耗费巨大的人力和时间资源对超参数进行手动调优,且结果往往并不令人满意。因此实现更高效的超参数优化(Hyperparameter optimization,HPO)过程,也是中国联通在新方案构建中面临的重要挑战。

为此,英特尔向中国联通提供了用于构建大规模时间序列预测应用程序的 Chronos 框架。如图 5 所示,这一框架源自英特尔开源的统一大数据分析和人工智能平台 BigDL,主要提供了三个组件,功能分别为:
 

  • 数据处理与特征工程(Data Processing & Feature Engineering)组件:内置了 70 多个数据处理和特征工程工具,通过 TSDataset API 接口来供中国联通方便地调用,从而快捷高效地完成数据预处理和特征工程流程;
  • 内置模型(Built-in Models)组件:内置 10 余个可用于时间序列预测、检测和模拟的独立深度学习和机器学习模型;
  • 超参数优化(Hyperparameter optimization)组件:高度集成、可扩展和自动化的工作流(通过 AutoTSEstimator 等 API 实现),能帮助中国联通开展从数据预处理、特征工程到模型训练、模型选择和超参调优等全栈的自动化机器学习过程。英特尔提供的多种优化方式,例如框架所集成的 ONNX runtime 以及英特尔® oneAPI AI Analytics Toolkit 等,也为推理提供良好支持。

图 5  Chronos 框架基本架构

■    基于 Chronos 框架构建 5GC 网元资源占用率预测方案

基于 Chronos 框架的丰富组件和集成的优化策略,中国联通面向 5GC 网元资源占用率的时间序列预测方案基本流程如图 6 所示:
 

  • 首先,使用历史业务数据(如话务量等)与服务器资源利用率日志(如处理器占用率等) 进行建模,由 Chronos 框架提供的TSDataset API接口对时间序列数据快速执行填充、缩放等操作,并开展自动特征生成;
  • 然后,通过 AutoTSEstimator 等 API,实现超参数搜索,并根据预测目标检索出最佳超参数集,优化模型和数据处理工序并形成时间序列预测模型;
  • 最终,使用这一模型对实时业务数据进行推理(或进行效果评估和优化),获得最终的处理器占用率预测数据。

图 6  中国联通基于 Chronos 框架的时间序列预测方案基本流程

Chronos 框架为方案带来了更优的预测效果和更快的预测速度。例如,针对中国联通在新方案中选择的极端梯度提升模型(eXtreme Gradient Boosting,XGBoost)算法,Chronos 框架内置的 AutoXGBRegressor 能够将话务量作为输入,将对应时间的处理器占用率作为输出,并使用均方误差(Mean Square Error,MSE)来衡量最终的预测结果(MSE 越小越好),同时 AutoXGBRegressor 还能利用自动机器学习方法来对模型超参数进行快速精准调整,提升建模效果。


实践收益:新方案预测准确率符合预期,并为数据中心整体能耗优化方案创新奠定基础

目前,新方案已在中国联通与英特尔的携手合作下进行了卓有成效的测试验证。验证结果3 如图 7 所示,在承载各类 5GC 网元的通信云资源池中,处理器占用率预测值与实际值对比的最终 MSE 结果仅为 1.714,而实际的处理器占用率预测绝对误差平均小于 1.4%4,达成预期目标。

图 7  处理器占用率预测结果与实际值对比

基于这一全新的预测模型,中国联通已计划在未来对云资源池开展广泛的能耗优化。一般来讲,为保证业务服务质量(Service level Agreement,SLA)等级,服务器处理器的 Power Governor Policy 会设置为 performance 模式(即:cpupower frequency-info-policy),但这又会导致处理器能耗一直维持在较高水平。

而对处理器占用率的有效预测能够化解这一矛盾,可以带来以下两大优势:一方面是在业务闲时降低处理器频率,帮助中国联通在保证 SLA 等级的前提下降低功耗;另一方面,基于不同业务负载对于处理器核心频率(Core Frequency)和非核心频率(Uncore Frequency)的不同需求,通过精细控制两个频率,可在满足 SLA 等级的前提下进一步降低功耗。

在前期开展的技术性验证中,通过与基于英特尔® 架构的硬件基础设施所提供的内置功耗调解机制(如处理器降频功能等)相融合,新的优化方案预计5 可使单台服务器降低能耗 15% 以上,推衍到整体云资源池中,预计每年可直接节电 4,600 万度,再加上数据中心既有 PUE 方案带来的节能降耗,预计每年可减少二氧化碳排放约 6 万吨。


展望

在接下来的工作中,中国联通与英特尔将继续对云资源池能耗控制优化进行更深入的探索。例如,双方已准备启动基于 SLA 等级的自适应能耗规划能力项目。

这一能力的构建,可帮助中国联通能针对不同工作负载(如语音通话、数据传输等)的 SLA 等级自动调整和规划相应的能耗控制方案。针对这些方案,中国联通将与英特尔一起,通过对不同业务指标的采集来建立各自的时间序列预测应用,并使用业务数据进行可行性验证。同时,双方也会基于英特尔® 架构硬件基础设施来设计研发计算资源的动态调整方案,以闭环控制的模式来实施预测性规划,实现按需分配、灵活调整,形成更高效、更智能的数据中心能耗管理策略,进而更大范围、更大规模地提升节能减排水平, 更快更好地将构建新型数字信息基础设施行动计划落到实处。

联合编写单位及作者

中国联通:

赫罡、张屹荥、韩振东、康凯、童俊杰、程立勋、刘扬、张奎、赵以爽、何万县

英特尔:
任而今,邓珺玮,黄晟盛,江波,孙向辉,张可,郭华志

产品和性能信息

1相关内容引自公开媒体报道: http://www.xinhuanet.com/info/2021-06/17/c_1310013426.htm
2相关数据引自《中国联通数据中心电能利用效率 (PUE) 指导意见》
3该测试结果基于中国联通在某一虚拟机上的验证样本数据得出,在其它类似虚拟机测试场景中也获得了大量具有相同结论的样本数据。
4测试配置:2* 英特尔® 至强® 金牌 5220 处理器; 内存:12* 32G DDR4 ;存储:4*960G SSD,11*8T HDD;网络适配器:2*10GE 端口网卡。
5相关数据援引自中国联通根据内部测试数据所进行的测算