中国电信* 2016 年提出的网络智能化、业务生态化、运营智慧化三大转型目标,至今已初见成效。2017 年其收入同比增长 6.9%,连续三年高于行业平均水平1。高速增长的业务对中国电信的各项支撑系统,特别是位于核心的计费系统,提出了严峻考验,在人口密集、业务繁忙的四川省尤为明显。以计费系统中的核心网元余额管理中心(Account Balance Management,ABM)系统为例,其每日 REDO 日志数据归档量高达 3TB2,如此频繁密集的数据提交,使四川电信旧有 ABM 系统的存储系统倍感压力。为适应新的业务形态和业务高速发展带来的挑战,四川电信主动出击,与英特尔公司携手,在双方派出的专家团队的支持下,根据四川电信旧有 ABM 系统存储系统的使用状况和未来发展目标,制定了全套行之有效的存储系统升级方案。新方案中,四川电信不仅将其旧有 ABM 系统的存储系统以全新的 Server SAN 架构予以重构,还导入基于英特尔® 3D XPoint™ 技术,面向数据中心的英特尔® 傲腾™ 固态盘DC P4800X 为其提供加速。实际部署后,该存储系统在每秒读写操作次数(Input / Output Operations Per Second,IOPS)、磁盘利用率、log file sync 等待事件以及稳定性等多个指标上均收获令人满意的结果。这种新架构与新产品的结合,还帮助四川电信有效降低了总体拥有成本(Total Cost of Ownership,TCO)。
在电信业务日趋多元化,以及信息通信技术(Information Communications Technology,ICT)加速融合的今天,四川电信已能实时响应市场需求,持续推出“抖音*无线流量卡”、“9 元随心卡”等创新产品和业务,为用户带来更多优惠和更丰富多样的消费选择。这些新业务,往往具有跨网络、多产品捆绑以及组合营销等特点,并涉及大量账务优惠产生的流量赠送、话费分摊、定向减免等数据,并对这些数据的实时性和准确性有非常严苛的要求,这些都给四川电信的基础运营设施,尤其是计费系统,带来了巨大挑战。要应对这一挑战并非易事——电信计费系统各计费网元彼此关联、纷繁复杂,在优化方案制定上,稍有不慎,就可能牵一发而动全身,造成系统级灾难。为此,四川电信引入“外脑”英特尔,根据未来业务发展方向和目标,规划了合理高效的计费系统升级优化方案。作为电信计费系统中承载各类余额类数据、联结各类计费网元的核心系统,ABM 系统的优化工作是双方合作的重心。
“数据大管家”亟待重构
作为电信计费系统的“数据大管家”,ABM 系统在四川电信的业务处理流程中扮演着至关重要的角色。一方面,它存放了四川电信所有的话费余额、流量余量、用户信息、套餐定价、用户消费历史等重要数据;另一方面,它也是四川电信实施各类交叉优惠、业务融合的基础平台。通过多年努力,四川电信在 ABM 系统中成功构建了基于存储区域网络(Storage Area Network,SAN)架构的存储系统。如图一所示,四川电信旧有的 Oracle* 实时应用集群*(Real Application Clusters,RAC*)存储环境部署在传统的SAN架构存储服务器上,并通过光纤通道(Fibre Channel,FC)存储协议与磁盘阵列相连接。
图一 四川电信旧有 ABM 系统存储系统架构图
而今不断增多的业务总量和类型,为这一传统存储架构带来接连不断的挑战,也使之成为四川电信聚焦的重点。尤其对于在安全性、可用性上有着“5 个 9”要求的电信级计费数据库应用来说,能否高效、稳定和安全地对 REDO 数据进行操作,成为了考量整个系统能力的关键点。
REDO 数据是 ABM 系统存储系统的生命线。在 ABM 系统的日常工作中,REDO 数据会将各类事务日志事无巨细地提交到存储系统予以留存,而一旦数据库发生停电、宕机或遭遇其他意外事件,REDO log file(归档日志文件)就可以轻松帮助运维工程师将数据完整地恢复到意外发生前。
Log file sync 等待事件是衡量 REDO 数据操作性能的关键指标之一,每当系统执行提交操作时,Oracle 数据库的后台 LGWR 进程就会将缓存中的信息写入 REDO Log File,完成后再由 LGWR通知系统,这段等待时间就被称为 log file sync 等待事件。虽然多年来四川电信 ABM 系统存储系统的 log file sync 平均等待时间一直处于业内较佳水平,但仍希望百尺竿头更进一步,将这一指标突破到 1 毫秒以内2。
不过,这个目标却不易达成:一方面,受制于旧有系统的传统 SAN架构,REDO 数据的提交依赖于 FC 存储协议,其在存储服务器和磁盘阵列之间提供的传输速率最高被限制在 16Gbps3;另一方面,这一指标也受限于存储设备的 IO 能力,在旧有系统中,REDO和数据文件均被存放在上一代固态盘产品中,其读写性能显然还有待更进一步的优化。
在与英特尔专家团队共同进行了严谨的技术方案论证后,四川电信对其 ABM 系统存储系统进行了全面优化。从架构上,四川电信选择了更敏捷、扩展性更高的 Server SAN 架构,而在存储硬件上则选择了全新的英特尔® 傲腾™ 固态盘DC P4800X。部署后的测试数据表明,新的优化方案不仅在存储性能上获得突破,在稳定性上也可圈可点,同时,新架构与英特尔新产品的结合,也帮助四川电信有效降低了 TCO。
新架构+新产品
基于软件定义存储(Software Defined Storage,SDS)理念的Server SAN 架构,正成为众多企业构建新一代存储系统的首选。在此次优化升级方案中,四川电信也秉承创新理念,率先进行了架构变革上的尝试。
如图二所示,新的四川电信 ABM 系统存储系统采用了全新的Server SAN 架构,并通过基于 Infiniband 标准的 iSER(iSCSI Extensions for RDMA)存储协议进行互联,传输带宽达到了56Gbps4,远超旧系统。基于 SDS 的 Server SAN 架构为四川电信运维团队带来了出色的管理便捷性和扩展能力。在系统上线后,四川电信只需要根据业务的发展步骤,计算出相应的存储、计算模块需求,并予以添加即可,无需再对存储系统进行繁琐地升级,这不仅能有效降低运维复杂度,还可以大大降低成本。
图二 升级后的四川电信 ABM 系统存储系统
作为一类典型的联机事务处理(O n - L i n e Tr a n s a c t i o n Processing,OLTP)应用,ABM 系统中 REDO 数据的提交操作具有高并发、数据量大、响应速度要求高等特点。为此,在存储硬件的选择上,四川电信选择了英特尔® 傲腾™ 固态盘DC P4800X,来保障 REDO 数据的安全高效稳定操作。
英特尔® 傲腾™ 固态盘基于创新的英特尔® 3D XPoint™ 技术,以及一系列英特尔先进系统内存控制器、接口硬件和软件进行构建,可以比传统 NAND 介质固态盘提供更好的 I/O 性能与更稳定的 I/O QoS。尤其在 OLTP 类应用上,英特尔® 傲腾™ 固态盘产品一贯有着其他固态盘产品无法企及的性能表现。
在四川电信的部署实践中,英特尔® 傲腾™ 固态盘 DC P4800X 同样没有让人失望。与同样部署在四川电信 ABM 系统中的英特尔®固态盘 DC P4500(基于 3D NAND 介质)相比,其 IOPS 是后者的 10 倍左右,此时从存储节点侧来看,其磁盘利用率仅上升 1% 左右2。而在 FIO*(一款 IO 测试工具)测试中,当 DC P4500 磁盘利用率达到 40% 时,DC P4800X 磁盘利用率仍徘徊在20% 的低值2。同时,在四川电信关注的 log file sync 等待事件指标上,英特尔® 傲腾™固态盘 DC P4800X 更是一举突破 1 毫秒大关,达到了惊人的 0.7毫秒,仅为旧有系统的一半2。
图三 英特尔® 傲腾™ 固态盘 DC P4800X 和 “英特尔® 固态盘 DC P4500 的 IOPS 和磁盘利用率对比
不仅如此,英特尔® 傲腾™ 固态盘在 I/O QoS 稳定性上,也赢得了四川电信上下的一致好评。从图三可以看出,当面对数据提交压力时,DC P4800X 不仅在 IOPS 指标上一骑绝尘,在抖动率上也远比 P4500 来的平滑,而这也正是 OLTP 业务非常看重的一点,成为系统稳定高效运行的基石之一。英特尔® 傲腾™ 固态盘为四川电信 ABM 系统存储系统提供的另一项 “ 杀手锏”,是其卓越的硬盘每日写入次数(Drive Writes Per Day,DWPD)性能,作为衡量固态盘使用寿命的“金标准”,其将直接影响用户的运维效率和 TCO。四川电信ABM系统目前每天的REDO数据在采用 ASM NORMAL 冗余方案后为 6TB,如果单盘容量为 350GB,则 DWPD 为 5.7。普通的固态盘产品 DWPD 仅为1~3,意味着每年都要更换固态盘,这显然在效率和费用上都是客户所无法接受的2。而英特尔® 傲腾™ 固态盘 DC P4800X高达 30的 DWPD 设计,则让其能够放心地在固态盘的整个生命周期内尽情使用,彻底免除后顾之忧2。
下一步合作
在前一阶段的合作中,四川电信与英特尔的专家团队已经地对新架构、新产品在四川电信 ABM 系统存储系统中的部署和应用进行了充分探讨和实践,积累了宝贵经验。未来,双方团队还将就新架构、新产品在四川电信系统中的进一步优化,进行更深入的研究。一方面,在硬件配置和部署上,由于测试数据表明英特尔® 傲腾™ 固态盘 DC P4800X 在远端使用时,会带来一定的性能损失,下一步,英特尔团队将帮助四川电信把这款产品部署到本地使用,来提高性能表现。同时,鉴于 NVOF* 存储协议在理论上会比 iSER 存储协议具有更低的系统开销和更好的性能表现,双方也将尝试将 NVOF (NVMe over Fibre) 协议应用到四川电信 ABM 系统生产环境中去。
另一方面,在软件优化上,双方团队计划引入英特尔®存储性能开发套件 (英特尔®Storage Performance Development Kit, 英特尔®SPDK) 中的轮询机制(Polling mode),消除中断机制带来的性能影响,进一步提升系统性能。目前,双方团队正计划结合NVOF 存储协议来开展这方面的实践和研究。可以想象,未来双方更为全面和深入的合作必将有力地推动 CT 和IT 融合的进程,并为电信运营商的服务转型,提供一系列有价值的参考和借鉴。