随着数字化、信息化技术的加速发展,工业物联网、全息通信、数字孪生等前沿应用场景正快速兴起、演进和落地,这不仅为未来经济社会发展勾勒出美好蓝图,也对信息与通信技术(Information and Communications Technology,ICT)行业战略转型、技术突破和业务布局产生着巨大影响。
作为全球领先的电信运营商,中国电信也秉承“云网融合”的战略目标,采用全新的算力网络技术将分布在各处的计算、存储资源与行业用户需求进行灵活匹配和动态调度,以算力资源一体化的服务模式为各类行业用户应用场景提供按需投放、柔性供给的算力支持。
这其中,构建对算力信息的收集、编排与分发过程起核心作用的算力网关至为关键。为此,中国电信与合作伙伴英特尔携手打造全新算力网关产品方案,通过引入第三代英特尔® 至强® 可扩展处理器、基础设施程序员开发工具包 (Infrastructure Programmer Development Kit,IPDK)、 数据平面开发套件 (Data Plane Development Kit,DPDK) 等软硬件产品与技术,为新方案带来充沛的计算处理能力以及灵活可用的方案部署和加速能力。经在甘肃、上海和南京等地试点部署表明,新方案实现了预期目标。
算力网络将在未来网络演进、运营商业务升级中扮演越来越重要的角色,也是中国打造‘东数西算’,形成全国算力枢纽体系的重要组成。英特尔® 至强® 可扩展处理器、IPDK、DPDK以及下一阶段英特尔® IPU的引入,将为我们在算力网络中构建高效能算力网关提供强有力的软硬件支撑。
背景概述
近年来,急速增长的产业数字化规模正推动包括中国电信在内的电信运营商们,将业务范围从基础网络服务向计算、数字平台等领域拓展,为更多行业用户提供数据感知、存储计算、分析处理等新型服务能力。同时,在中国启动“东数西算”工程,以及提出“布局全国算力网络国家枢纽节点,构建国家算力网络体系”的新形势下,更多的行业用户也正借助中国电信对云上算力的有力支持,驱动企业效能的新一轮提升。而这些变化对中国电信既有的云服务与网络基础设施架构提出了巨大的挑战。
由于网络中分布大量不同规模与状况的计算、网络、存储等资源,而不同用户的服务级别协议(Service Level Agreements,SLA)需求也不尽相同。如要应对上述挑战,中国电信需要通过网络灵活匹配与动态调度,实现算力资源一体化服务,来对用户业务需求与算力资源做最优化匹配。而要让传统架构中相对独立的云计算资源和网络设施实现融合,形成一体化的供给、运营和服务体系,中国电信则需要打造简洁、敏捷、开放、融合、安全和智能的新一代网络信息基础设施,才能保障算力资源的调度与供给。因此,中国电信借助其在网络和云计算领域的技术优势和丰富的经验积累,聚力打造先进的算力网络。
目前中国电信已在ITU-T Y.25011中提出了算力网络的概念与架构,如图1所示,架构包括了算力网络服务层、算力网络控制层、算力网络资源层以及算力网络编排管理层。基于这一架构,算力网络可以结合网络信息和用户业务需求,提供计算、存储、网络等资源的分发、关联、交易与调配能力,实现全网整体算力资源的优化配置和使用,解决算力供给不均衡问题。在组网方式上,算力网络通常采用集中式、分布式以及混合式三种方案来实现。
围绕该架构,中国电信也在几个关键方向上推动重点技术的研发与功能迭代:
- 算力度量:对算力资源及业务需求进行量化,同时以统一的描述语言赋能算力流通属性,并为算力的感知、管控、服务提供基础和标准;
- 算力感知:在算力度量的基础上,捕捉用户业务的算力需求信息及算力资源信息,为算力网络调度编排提供基础,实现资源配置的最优化;
- 算力路由:将网络资源信息、算力资源信息进行有机整合后分发,从而实现全网资源信息的通告,达成全局信息的共享;
- 算力交易:将各类算力资源按需提供给算力消费方,包括算力资源接入、算力资源消费需求、各类业务与应用场景的解析等,从而使资源获得最佳匹配;
- 算力编排:根据交易合约快速分配资源,如虚机/容器分配、虚拟私有云(Virtual Private Cloud,VPC)构建、网络连接建立等,并在完成后快速回收资源,更新资源信息。
这其中,作为算力网络核心网元之一的算力网关设备对算力信息的收集、编排与分发过程起到核心作用。为此,中国电信与英特尔携手,引入第三代英特尔® 至强® 可扩展处理器、IPDK、DPDK等软硬件产品,借助硬件平台的充沛计算处理能力,以及软件技术对产品方案提供的便捷部署、处理负载卸载的优化加速等支持,打造新一代算力网关产品。
解决方案
在分布或混合式算力网络组网方案中,可通过引入算力网关设备来卸载传统云服务与网络基础设施中相关云管、网管及软件定义网络(Software Defined Network,SDN)控制器的部分功能,与算力网络交易及管控平台相配合,实现算力资源信息的交互与分发、上报与交易、资源池与用户间网络连接的建立等核心功能。
如图2所示,算力网关凭借对算力资源池信息的感知,即通过遥测(Telemetry)等技术感知时延、丢包等网络信息,形成网络时延圈,供用户选择合适的算力资源池;并通过边界网关协议(Border Gateway Protocol,BGP)、内部网关协议(Interior Gateway Protocol,IGP)协议扩展等方式,将信息传递给算力域内各个算力路由节点设备和算力网关,形成算力路由表,构建资源视图。
算力网关将与算力网络用户、算力网络交易管控平台、算力资源节点和其他算力网关/算力路由节点进行交互,联通算力网络中相关资源。如图3所示,交互流程主要包括:
- 算力资源信息交互:算力网络可通过多种方式去感知与其连接的算力资源节点的算力资源信息,例如资源池将可用的资源信息(如可闲算力、服务等)分配成标准化的单元,用URL方式标识出来后通过L1接口发送给算力网关,或直接通过与平台的交互接口从云管平台获取;
- 增强型路由分发:在完成算力资源信息收集后,算力网关会将信息在相邻的算力网关/算力路由节点通过L2接口进行通告,所通告信息包括处理器、内存等算力资源信息,以及时延、抖动等网络相关指标。同时,网络中的算力网关也会将自身维护的算力资源信息使用路由协议进行通告;
- 算力资源路由表生成及上报:在获取算力资源节点分布状况后,算力网关会生成本域内的算力路由表。除传统路由表中维护的网络参数(时延、抖动)外,算力路由表中还会包含算力资源信息,从而构建“网络+计算”的全局路由表,并通过L3接口上传至算力网络交易管控平台,生成全域路由信息表;
- 算力资源占用与网络连接建立:算力网络交易管控平台根据算力路由信息与用户需求,生成以用户为中心的交易视图。平台可根据用户需求为之分配相应的算力资源,建立确定的转发路径(如SRv6、VPN等),并通过L4接口拉通用户应用与所选算力资源的网络连接,调用相关的算力单元、存储单元等。
从上述流程不难看出,算力网关需要在极短的时间内,根据所收集的算力资源信息以及来自其它算力网关、算力路由节点的通告来完成算力路由表的构建,这首先就需要可靠且强劲的计算处理能力予以支持。为此,中国电信在第一阶段的产品设计中,引入第三代英特尔® 至强® 可扩展处理器作为其计算处理引擎。基于算力网关在性能上的需求,这一处理器平台可带来的计算处理优势包括:
- 基于平衡、高效的架构,具备更多的内核,可大幅提升计算处理性能,使算力网关能够有效应对构建算力路由表所需的大量计算负载;
- 基于更大的内存带宽以及更多的英特尔® 超级通道互联(英特尔® UPI)通道,可以帮助算力网关应对大规模算力信息交互所需的密集I/O负载。
而在计算处理能力支持之外,英特尔也通过IPDK为算力网关产品提供跨平台的方案部署和性能加速。IPDK是一款开源开发工具包,能够基于统一的P4(Programming Protocol-Independent Packet Processors)语言,在方案的网络协议之上进行转发业务逻辑的编码(例如支持SRv6),并将转码结果相对一致的工作负载部署到运行于英特尔® 架构处理器、其它异构算力设备之上的IPDK工具套件目标系统中。
如图4所示,部署在第三代英特尔® 至强® 可扩展处理器或英特尔® 基础设施处理单元(Infrastructure Processing Unit,IPU)之上的IPDK可以支持任何定义了接口相关类型的设备,并屏蔽它们之间的差异,从而使中国电信算力网关产品可以灵活加载到不同的硬件载体上;同时,其也为算力网关产品中各类应用,包括路由协议、用于URL解析与DNS的服务代理等,提供了一致性的访问接口,可以有效解决算力网关产品面临的软件生态复杂、框架多、接口杂以及开放难度高等问题。
不仅如此,方案还引入了DPDK来构建IPDK目标系统。借助DPDK对数据包收发负载的有效卸载和对网关性能的有效优化,算力网关能够轻松在任意云实例中灵活部署,充当客户云网关。
随着英特尔在IPU领域不断推陈出新,新的IPU产品将以更强的服务性能和更优的管控效率,为云网设备带来强有力的性能加持。中国电信也计划在算力网关产品的下一研发阶段引入英特尔® IPU,作为IPDK在异构加速平台上的目标运行系统。
英特尔® IPU采用可编程阵列逻辑(Field Programmable Gate Array,FPGA)芯片或专用集成电路(Application Specific Integrated Circuit,ASIC)芯片等可编程、可配置的算力组件作为硬件加速引擎,用于卸载和加速算力网络方案中海量数据的I/O、转发、存储等,并加入通用处理器来对各类控制面功能实现卸载,从而实现更多的算力释放、更出色的网络性能表现,并降低处理时延。英特尔® IPU的引入,将能让算力网关在运营商边缘节点提供高效能的网络吞吐能力,也可使不同类型的边缘算力网关通过SRv6进行互通,从而将算力信息通告到整个算力网络。
方案成效
为验证基于英特尔软硬件产品与技术打造的算力网关的性能表现,中国电信正携手英特尔,通过东西部省份间各级网络、网关和算力节点等的协同,开展算力网络试验网部署。目前,新方案已在甘肃、上海和南京等地开展了试点部署。
如图5所示,新的部署计划利用西部省份的算力资源,通过算网调度平台来满足东部省份的客户(算力消费者)算力需求。其中一个典型的应用场景是通过结合“5G+人工智能+云+边缘”模式的算力网络,满足未来生产制造、工程建设领域中构建“数字孪生”场景的需求。新方案需要满足“数字孪生”场景中对实时性的要求(高性能算力),同时又能实现海量数据处理与人工智能训练快速迭代(高性价比算力)。
来自一线的实践表明,新的算力网关产品不仅在技术方案可行性、运行稳定性方面符合预期,其上线后在用户体验、用户感知等方面也交出了满意的答卷。同时,这些成功尝试也将为打通东西数据通路,巩固“东数西算”工程基础提供有益的参考实践。
未来展望
构建算力网络,促进新型基础设施建设,为数字化时代铸造稳固的算力资源一体化服务“底座”和“基石”,推动数字经济持续高速增长,是中国电信一直以来的目标和发展方向,而本次与英特尔合作构建全新算力网关产品方案,正是其中的一个重要节点和里程碑。
在完成第一阶段的产品研发、原型机落地和试点部署后,中国电信将继续与英特尔一起,针对第一阶段存在问题和用户的新需求,引入更多的先进产品与技术,来对算力网络方案进行新一轮的功能增强,并在更大规模范围内进行更复杂、更多维度的验证(例如,在分布式算力网络组网方案中进行部署验证),开启更深层次产品化合作开发与验证新征程,助力中国算力网络体系建设。