亚信科技借力至强可扩展平台,基于网络大数据探索智能网络应用

  • 亚信科技引入至强® 可扩展平台及 oneAPI 工具套件、BigDL 等,在 Apache Spark 分布式处理架构的基础上部署 XGBoost 等机器学习算法,以丰富的 MR 数据为基础,为用户提供高可用的智能网络应用解决方案;新方案可帮助电信运营商等在网络质量分析和网络性能评估等领域实现效率提升和工作创新,并为面向互联网的市场营销、用户互动需求提供数据基座。

author-image

作者

大数据技术的高速发展为移动网络的未来,特别是它的智能化应用提供了更多可能。随着 5G 时代到来,各电信运营商、终端厂商和相关服务的提供商都在积极寻求更有效的大数据汇集、处理和分析方法,并融合各类人工智能(Artificial Intelligence,AI)应用来更好地促进无线网络技术的开发部署,进而推动基于移动网络的智能应用的落地进程。

为助力客户更高效、便捷地实现这一目标,深耕 ICT 领域多年的亚信科技控股有限公司(以下简称 “亚信科技”)正与英特尔一起,通过引入能为大数据和 AI 应用提供端到端优化的英特尔® 至强® 可扩展平台及英特尔® oneAPI 工具套件、BigDL1 等软硬件组合,在Apache Spark分布式处理架构的基础上部署 XGBoost 等机器学习算法,以丰富的测量报告(Measurement Report,MR)数据为基础,致力于为用户提供高可用的智能网络应用解决方案。

新方案的实施可帮助包括电信运营商在内的客户们在网络质量分析、网络性能评估和网络服务优化等领域实现效率提升和应用创新,并为面向互联网的市场营销、用户互动需求提供数据基座。来自英特尔软硬件产品的全方位助力显著提升了方案的可用性、时效性和准确性。目前新方案已在某大型电信运营商处获得成功部署,并获得了客户的初步认可。

基于 MR 数据等丰富的基础网络信息资源,我们的方案可帮助客户在市场经营、网络管理等领域开展广泛的智能应用探索与落地,成为企业效率倍增、提升用户体验的重要手段。英特尔® 至强® 可扩展平台、英特尔® oneAPI 工具套件和 BigDL 等产品与技术,帮助新方案实现了更高效的开发和更优异的性能。”

鹿岩 无线网络规划优化产品研发总监 亚信科技

挑战:大数据时代的电信网络,亟需更强数据处理能力

与信息化时代数据浪潮伴生的大数据技术,正逐渐成为各行业实现业务协作、获得效能提升的坚实基座。无论是在高速发展的互联网、AI 和云计算领域,还是在蓬勃兴起的 5G、物联网场景,基于大数据的分析和呈现都已成为这些新业态和新经济模式的 “神经中枢”。

在移动通信这一专业领域,大数据同样在扮演越来越重要的角色。不管是对市场和用户的精细化运营,还是对设备和站点的集中化管理,亦或对新商业机遇的探索,各个电信运营商、终端厂商、应用软件开发商以及最终用户都在高效汇集海量数据,并引入诸多新算法、新平台来实现更优的数据处理方式,并以此推动上述创新应用场景的演进与实践。

作为电信领域重要的数字化转型使能者,亚信科技也正凭借其深耕移动通信领域多年所积累的经验,基于 MR 数据等基础网络信息资源,助力电信运营商及其它相关服务提供商打造一系列基于网络大数据的智能应用,来开展对网络质量的分析、对网络性能的评估和对电信网络服务的优化,以求从用户的真实感知出发来全面提升用户体验。

MR 数据正是移动通信中评估无线环境的重要依据之一,例如上行 MR 数据就能及时准确地上报终端的信号环境信息,包括参考信号接收功率(Reference Signal Receiving Power,RSRP)、参考信号接收质量(Reference Signal Receiving Quality,RSRQ)等。通过对海量 MR 数据的汇集、处理与分析,并与其它网络数据融合处理,就能为多种智能网络应用与服务提供有效数据载体。

亚信科技基于 MR 数据的典型应用解决方案如图一所示,来自无线网络的各种原始MR信息在与信令信息等进行合并后形成 MR 数据上报,上报后的数据在利用 “MR 定位指纹库”(由路测数据、关联MR数据、位置特征库等数据融合训练得到)模型开展推理预测后,会形成可用的 MR 定位数据,并结合由电信信令提供的定位修正、GIS 场景修正和标签融合能力,共同为无线网络质量提升、用户感知提升、位置能力等上层应用提供数据源。

图一 亚信科技基于 MR 数据的应用解决方案

以利用 MR 定位数据开展无线网络优化为例,电信运营商可通过 MR 定位数据的变化来分析基站所在地的无线环境变化。如图二所示,当基站 A 的无线环境受到干扰,会引发最终的 MR 定位数据同步发生变化,网络运维和优化团队可据此对网络质量进行预警或治理。

图二 基于 MR 定位数据开展无线网络优化

但在现网环境的研发与部署中,这一方案同样也面临着严峻的挑战。首先,在高速率、大容量的 4G、5G 无线网络中,用户终端的状态和信息时时刻刻都在发生变化,因此上报的 MR 数据可能数以亿计且有效窗口极为短暂。

其次,考虑到其典型的应用场景,位置服务方希望借助基于 MR 定位数据相关模型来向进入某区域的用户发送特定信息,例如让用户在进入特定区域后能收到该区域相关提示,但又不希望打扰到非目标用户(例如仅是路过的人群)。此时,方案就需要利用对海量 MR 信息的高速处理来快速、准确地分辨和预测出目标用户的轨迹,而后进行信息的定向发送。

融合 MR 数据自身的特性以及对它们进行处理的需求,方案就需直面两个主要的挑战:
 

  • 如何面向海量数据开展高效建模和快速处理;
  • 如何保证算法模型的时效性和准确性。

为此,亚信科技与英特尔一起,通过引入英特尔® 至强® 可扩展平台、 英特尔® oneAPI 工具套件和 BigDL 等软硬件组合,在 Spark 分布式处理架构上部署相应的 XGBoost 等机器学习算法,来开展 MR 定位数据建模与处理,进而为客户提供全新的、基于 MR 数据的智能网络分析解决方案,为 5G 时代的网络应用与服务提供更可靠也更智能的数据支持。


方案:导入英特尔软硬件组合,打造基于 Spark 的网络大数据智能应用平台

为满足方案所需的海量数据处理能力,方案首先采纳了 Spark 分布式处理架构作为基座。作为面向大规模数据处理而设计的计算引擎,Spark 架构基于内存进行数据处理,并将中间结果存储在内存中来减少迭代运算时的存储时延(通常由 HDD 硬盘和 SSD 固态盘等外部存储设备的 I/O 操作带来),并通过并行计算进行有向无环图(Directed Acyclic Graph,DAG)的优化,减少不同任务之间的依赖,从而降低整体时延等待时间2

同时,亚信科技还引入多种开源组件来实现 XGBoost、LightGBM 等机器学习算法在 Spark 上的部署。以XGBoost为例,方案以开源XGBoost4j-Spark与Spark的MLLib框架一起,实现 XGBoost 和 Spark 的无缝集成。这一集成模式不仅能使 XGBoost 在性能上获得显著提升,还能充分利用 Spark 强大的数据处理引擎功能来涵盖方案所需的数据预处理、特征工程、管道以及持久化等功能3

在提升算法模型的时效性和准确性方面,英特尔也分享了多年来面向不同行业所积累的丰富经验。如图三所示,为更有效地帮助亚信科技梳理优化路径,英特尔帮助亚信科技将方案的优化聚焦在数据处理、算法选择和参数调优三个维度,这三个维度有着下表的特性和应对方法:

图三 方案优化的三个维度

数据处理

无线网络的数据集规模通常在千万级别,且包含了很多缺失特征属性和异常值;这些问题都要在进行模型训练之前进行预处理,才能保证后续模型训练时不受噪声数据影响。因此方案加入了对数据集进行超特征缺失行滤除、标签类特征的二值化处理、连续型特征的归一化处理、删除包含异常值的数据等功能。

算法选择

基于 MR 定位数据开展的智能网络应用通常对时效性有着较高要求。方案选择 XGBoost、LightGBM 等机器学习算法,其不仅在性能上有着优异表现,且具有自动处理缺失数据、训练速度快、调整参数较少等优势。

参数调优

在模型训练的过程中,方案并没有采用完全靠经验的参数选取方法,而是通过交叉验证的过程来搜索最优参数,使最终的模型训练可获得较优的模型准确率,满足客户对方案准确率的要求。

基于对以上三个维度的梳理,如图四所示,英特尔帮助亚信科技将面向 MR 定位数据的完整模型训练和预测方案通过 BigDL 无缝部署在 Spark 平台上,以更小的工作量实现了 AI 模型从线下训练到线上部署的全过程。

图四 基于 BigDL 部署的 Spark + XGBoost 的方案架构

作为由英特尔开发和开源的统一大数据分析和 AI 平台,BigDL 能通过一个易于扩展的架构,将 Spark、TensorFlow、PyTorch、XGBoost、OpenVINO™ 工具套件等常见框架和软件聚合在一起,通过打造一条从数据采集、清洗、AI 训练、一直到推理应用的端到端管道,来更高效地帮助使用者构建出对接高价值网络数据与智能应用的捷径。

在本方案的实际开发与部署中,得益于对 Spark 和 XGBoost 的良好支持,BigDL 成功帮助亚信科技实现了 XGBoost 单机方案的分布式部署,使方案中巨大的计算负荷更为均衡地落地在整个集群上,从而解决了方案在面向大规模 MR 数据处理时遇到的工程挑战和性能挑战。

作为方案所用基础设施的核心,英特尔® 至强® 可扩展平台为方案的高密度计算负荷提供了高效的算力支持。尤其引入第三代英特尔® 至强® 可扩展处理器后,可借助其全新的微架构设计、更优的内核性能、更大的内存和 I/O 带宽,以及多种内置技术特性,或者说对特定应用的加速能力来为方案涉及的不同算法提供性能加速。例如 XGBoost 的重要特性之一是其对并行计算有良好的支持,因此可充分利用处理器的多线程能力实现性能优化,而第三代英特尔® 至强® 可扩展处理器在这方面就提供了出色的支持(在面向单路和双路的第三代英特尔® 至强® 可扩展处理器中,每处理器最多可集成 40 个内核、支持 80 路线程),而且这款处理器内置的英特尔® 高级矢量扩展 512 (英特尔® AVX-512) 技术 ,也同样在利用不断更新迭代的 SIMD(Single Instruction Multiple Data,单指令多数据流)指令集为并行计算提供更进一步的加速能力。

另一项重要的优化措施来自英特尔® oneAPI 工具套件。如图五所示,这一集成了多种英特尔软件开发工具和高性能库的工具套件,不仅能提供友好的编程环境,还能为方案提供英特尔® oneAPI Data Analytics Library(oneDAL)、面向英特尔® 架构优化的 Python 以及优化的开源深度学习/机器学习框架(如 TensorFlow)等,以快速实现从数据预处理到数据特征工程、数据建模和部署的整体端到端优化,让亚信科技能够在多种基于英特尔® 架构的硬件(包括 CPU、GPU 以及 FPGA 等)上构建和部署以数据为中心的高性能应用程序,并实现更优的硬件性能。

图五 英特尔® oneAPI 工具套件架构

图六 英特尔® oneAPI AI Analytics 工具套件组成

面向英特尔® 架构优化的Python 可发挥的作用尤其值得一提:其提供了基于英特尔性能库构建的多种核心 Python 数据和科学软件包来助力用户方案获得更多性能加速,例如用于装饰 Python 代码的即时编译器 Numba Compiler。这一编译器能充分借助基于英特尔® 架构的处理器提供的最新 SIMD 指令集以及多核执行能力,让用户以原有的编程模型,通过 DPPy(Data Parallel Python,数据并行 Python)方法来对多路设备进行编程而无需重新为设备编写处理器代码,从而获得效率上的显著提升。


实践:面向 5G 网络,提供多维度智能应用方案

亚信科技与英特尔在多个维度上的协同优化,使方案在部署后能基于 MR 定位数据的 AI 模型,在可用性、时效性和准确率上都取得不俗的表现。以上文所述的精准轨迹预测模型为例,在 BigDL 以及其它 AI 技术的助力下,目前方案相较于传统算法,定位精度提升了 10% - 15%,模型的预测误差可小于 50 米4,能够更有效地支持商业化应用的开展。

目前,基于 MR 定位数据的各类网络智能应用已在面向未来 5G 网络的无线网络优化、商业营销等多个领域获得广泛运用,典型的应用场景或用例包括:


无线网络布局及信号质量的精准优化

基于新方案,电信运营商能通过对全网 MR 数据的汇总与分析来进行 20 米栅格分析填充,辅助无线信号分析。通过 MR 数据,网络运维、优化人员可根据信号覆盖强度进行聚合分析,并结合互联网地图和 GIS 平台快速展示 20 米栅格信号覆盖强弱情况,从而做出下一步的优化策略。同时也可以结合电信运营商 B 域数据以及附近的互联网兴趣点(Point of Interest,POI)数据,进行站点规划的预选址和站点扩容建议,优化站点价值,提升电信运营商的投资效率。


获客选址/实时营销

基于 LBS(Location Based Services,基于位置的服务)的营销服务能力一直是商家和用户开展良性互动的有效手段,但其对用户定位的精度和速度有着较高要求。基于新方案,电信运营商可通过三角定位等应用采集用户位置分布,在对号码等敏感信息加密脱敏后,基于大数据平台进行 50 米栅格内客户数量与客户画像分析,从而为商家和用户提供双向的本地化服务,例如向用户提供信息点查询、周边搜索、实时交通信息、导航等功能,以及向商家提供基于 LBS 的产品促销、本地团购以及用户互动等能力。


助力疫情防控

通过与某电信运营商合作,亚信科技基于 LBS 能力打造的疫情防控系统能让用户自主查询行程,并通过手机订阅的方式了解自身活动区域与风险区域(确诊用户/疑似用户的活动区域及住所)的重叠度分析,从而感知病毒接触可能性,并了解所到区域的风险。其核心功能包括:
 

  • 动态更新风险小区感染系数:根据 LBS 信息,确定风险区域所关联的无线小区(以无线蜂窝网为基准),并通过确诊用户与疑似用户的用户传染系数(借助 AI 分析分别建立,随时间递减),实时更新潜伏时限内(如向前 14 天)的小区感染系数;而对于未关联到的小区,则按照用户传染系数递减函数进行自然更新;
  • 计算轨迹风险系数:基于全网各个无线小区(以无线蜂窝网为基准)的感染系数,通过接入过的无线小区将对应感染系数加权平均,得到轨迹风险系数并实时更新。


人流动态监测

基于定位算法及可视化技术,亚信科技与某电信运营商合作研发了人流动态监测平台,用于保障重点区域、重点人群的提前预警和防范。平台可实现的能力包括:
 

  • 通过 “春节返乡” 应用实现对大批量人流的交通方式识别、迁移图供决策部门参考;
  • 针对旅游和交通行业中的不同需求,如节假日各大景区的人流监测预警,形成旅游洞察、市场调研、客户挖掘和智慧服务等多个方向的定制场景和服务; 
  • 通过对区域内用户位置信息的捕捉和分析,形成可视化的区域人流实时监控;结合用户位置、用户身份信息、用户通信特征等数据,实时分析城市公共区域人群流量(密度),对公安警务和街道社区管理工作形成助力。


金融及安全应用

亚信科技与某电信运营商一起,通过加密数据接口,向经授权的机构反馈对指定用户的实时位置、位移数据、历史位置等信息的脱敏数据分析结果,从而获得用户位置信息真伪验证。这一成果可广泛应用于互联网行业、金融安全、诈欺识别等领域,如基于位置技术验证在金融终端上操作的是否为用户本人等。


展望

亚信科技导入英特尔一系列软硬件组合,并与英特尔携手打造和优化的、基于 Spark 的 MR 数据定位模型的智能网络分析解决方案,不仅在性能上有着良好的表现,可满足电信网络的严苛要求;在模型准确度上,也能够有效发挥 MR 大数据的优势,使定位精度达到业界领先水平。目前这一方案已在某大型电信运营商处获得成功部署并运行良好,得到了客户的一致肯定。

面向未来,亚信科技还将与英特尔进一步开展深入合作,结合在 5G 网络智能化上所面临的新挑战、新机遇,在机器学习、大数据与 AI 等领域不断创新,借助英特尔强劲、可靠的计算、AI、大数据与云计算技术能力,持续推动电信领域的智能化进程,不断为客户创造新的价值。

产品和性能信息

1 BigDL : 指 BigDL2.0,其合并原始 BigDL 和 Analytics Zoo。
2 如欲了解更多 Apache Spark 信息,请参阅:https://spark.apache.org/
3 如欲了解更多 XGBoost4j-Spark 信息,请参阅:https://xgboost.readthedocs.io/en/latest/jvm/xgboost4j_spark_tutorial.html
4 该数据援引自亚信科技未公开的内部测试,如欲了解更多信息,请联系亚信科技:https://www.asiainfo.com/zh_cn/index.html