7 月 19 日,英国经历了破纪录的 104 华氏度(40 摄氏度)高温,使位于英国的谷歌云和甲骨文服务器遭遇了与冷却相关的宕机。
谷歌在其谷歌云状态页面上指出,该公司在英国的一个数据中心遭遇了 “与冷却相关的故障”,使该区域的部分容量故障,导致 VM(虚拟机)终止和一小部分客户的机器损耗。甲骨文在其状态页面上为客户提供了类似信息,直接将英国 “与季节不符的高温” 列为故障原因。
数据中心承载着亿万数据高速交汇碰撞,构成了数字社会的重要基础设施,维持其正常高效的运行,成为和维持供水、供电一样重要的一环。自中国把数据中心纳入新基建以来,多个地方政府将数据中心的建设列入当地发展规划。在政策利好加持下,数据中心行业加速发展,与此同时,数据中心作为公认的高耗能行业也面临着减少能耗的重大挑战。
从微软把数据中心放到海底,Facebook 将数据中心靠近北极圈,阿里云千岛湖数据中心使用深层湖水制冷,各大互联网巨头都在设法利用自然条件降低数据中心的能耗。
但这种方式对数据中心基础设施提出了 “昂贵” 的要求,而绝大多数的数据中心,必须找到 “物美价廉” 的解决方案。
一、能耗大户要 “瘦身”
数据中心作为数据流的 “河道”,肩负着数据的接收、处理、存储与转发的职能,众多企业在这条 “河道” 畅游成长,也为持续发展数字经济修炼 “内功”。根据 《“十四五” 信息通信行业发展规划》,到 2025 年,全国数据中心算力将达到 2020 年的 3.3 倍。
由于数据中心包含大量的 IT 设备、供电与制冷设备,其耗能和碳排放量规模可观。据中国信通院的数据显示,2020 年全国数据中心耗电量约 760 亿千瓦时,占全社会总耗电量的 1%。虽然整体上数据中心耗电规模占全社会比重不及电力、化工等高排放行业,但随着数据中心算力的不断增长,绿色低碳必将并且已经成为新型数据中心发展的重要基本原则之一。
按照 《新型数据中心发展三年行动计划(2021-2023 年)》 以及 《工业能效提升行动计划》 等部署,下一步,要持续开展国家绿色数据中心建设,推动老旧数据中心实施系统节能改造,并基本形成建设布局合理、技术先进、绿色低碳、算力规模与数字经济增长相适应的新型数据中心。到 2025 年,新建大型、超大型数据中心电能利用效率PUE值优于1.3。
PUE 全称 “Power Usage Effectiveness(能源使用效率)”,是数据中心消耗的一切动力与 IT 负载运用的动力之比,比值越接近于 1,说明能源越接近全部都用于 IT 负载上。而实际情况是,大多数数据中心 PUE 值都在 1.5 以上,即消耗在冷却等非 IT 负载上的能源,占到了 IT 负载的一半以上。
如何降低数据中心的能耗?中国工程院邬贺铨院士曾为数据中心厂商指出三条路径:首先,优化数据中心选址,可部署在像西部以及低碳环境的地区;其次,改进数据在存储、调用、计算的管理,提高数据运作的效能;第三,数据中心要善于处理 “冷数据”。
服务器的计算能力愈加强大,其部件的散热挑战就越大,如何在有限的空间内把热量及时有效散出去是产业链上下游都关注的一个问题。
据英特尔绿色数据中心项目负责人介绍,新建数据中心可以通过选择使用一系列先进的软硬件技术,或选址在高纬度地区,通过新风进行散热。风冷也可以使PUE值达到 1.3 甚至更低,但是要进一步降低 PUE,或是数据中心选址在南方等年平均气温较高的地方,液冷就可能从可选项变成必选项。从另一个维度考虑,对于 “中心城市的数据中心”,由于需要避免延迟的问题,数据中心要尽量靠近客户,如深圳周边的数据中心承接本城市低延迟业务,液冷可能就会成为比较好的数据中心散热方案。对于存量数据中心,目前国家出台了一系列的鼓励措施,对 “小、慢、散” 数据中心进行升级改造或者鼓励退出。对存量数据中心的改造相对比较复杂,使用渐进式的、软件为主的手段进行升级改造,能够实现对业务的影响最小化。据其介绍,英特尔正在与产业链上下游企业一起共同探索多种散热方案的成本优化,在能效与功率密度、散热技术和基础设施智能化三个垂直领域,以及芯片、服务器、机架、数据中心四个水平方向,提供了一系列的从器件级到服务器系统、机架和数据中心层级的整体解决方案和参考设计,包括先进风冷、冷板式液冷和浸没式液冷等多种散热方式的创新工程实践。
在能效与功率密度上,英特尔通过高压直流、分布式电池技术、48V 集中式供电技术配合英特尔 FIVR 等技术,可以从各个层面帮助更广泛的数据中心生态合作伙伴提高其硬件产品设计能效,功率密度以及上架率的目标。
在散热技术上,英特尔从硅片出发,提供一系列从器件级到服务器系统、机架和数据中心层级的整体解决方案和参考设计,包括先进风冷、冷板式液冷和浸没式液冷等多种散热方式的工程实践。
在基础设施智能化上,英特尔通过软件调优措施,对数据中心各个层面的部件进行调整优化,实现提高整体能效的目的。
二、服务器在水里 “泡澡”
冷却设备是数据中心非 IT 设备能耗的主要来源,在总能耗中占比达到 30%。随着云计算数据中心的单体规模越来越大,无论局部散热还是整个数据中心散热,风冷技术均趋于能力上限,且每年会产生大量的电力消耗。提升冷却效率也成为建设绿色数据中心的一个重要选择。
此外,提升冷却效率,就能够有效降低 IT 设备的工作温度,使得具备动态频率调节能力的 XPU 等关键组件能够以较高频率稳定运行,有助于数据中心服务器在高负载下依然保持稳定的高性能输出。而且,由于工作温度的降低,IT 设备的运行寿命得以提升,在冷却方面耗费的成本也得以降低。
传统数据中心多采用空气作为冷却介质,这种方式较为成熟且应用广泛,但是缺陷也相当明显:当数据中心部署了高密度的服务器时,由于房间水平的空气循环,传统的空气冷却系统无法在垂直机架阵列的 IT 设备入口处提供均匀温度的空气;此外,空气冷却系统效率相对较低,特别是在机架中的高密度服务器运行时,满足散热需求的空气冷却系统的总功率常会达到 100kW 以上,这在经济性、供电、噪音等方面都会带来巨大的困扰。
前述各 IT 巨头迁移数据中心到海底、乃至深层湖水的解决方案,虽实现了直接物理制冷的效果,但数据中心在水下,对服务器部件的要求非常高,轻易不能宕机且能够两年以上不间断连续工作。这要求服务器的产品设计、部件选型,都需要大量的磨合工作。
近年来,国内外许多头部 IT 企业也开始布局液冷技术,根据相关的数据,液冷数据中心每年至少可以节省 30% 用电量。市场分析机构预计,到 2026 年,液冷数据中心市场的初始估值从 2018 年的 14.3 亿美元增至 1205 亿美元,年化复合增长率达 30.45%。
目前液冷技术主要有三种部署方式,分别是浸没、冷板、喷淋。其中,浸没式冷却被业内称为 “把服务器在水里泡澡”,通过将整个系统浸入环保冷却液中,散发的热量可以几乎 100% 由液体传导走,也方便了后期的热量回收。
液冷数据中心虽然增加了泵和冷却剂系统,但省略了空调系统和相应基础设施的建设,节省了大量空间,可以容纳更多的服务器。同时,液冷技术的冷却能力优良,可以应对高功率密度数据中心的冷却工作,因此液冷数据中心可以配备高密度服务器,从而获得更高的计算效率。更大的好处在于,配备浸没式冷却技术的数据中心可回收 90% 的废热来另作他用。如此一来,数据中心就能从耗电大户变身为热电厂,为房间和建筑物供热、冷天里为过道供暖,甚至热量直接输入到城市供热网中,辐射到周边温室、垂直农业、渔业养殖等地方。
英特尔围绕浸没式液冷所面临的材料兼容性、电气信号完整性、芯片散热特性、服务器系统散热特性、服务器及机柜 (Tank)结构设计等课题,与合作伙伴开展了广泛而深入的合作,从处理器定制和服务器系统开发与优化着手,突破芯片功耗墙功耗和冷却两大影响算力提升的关键问题,使得液冷服务器能够成功大规模部署。比如,英特尔与 Submer 在巴塞罗那合作的 AI 研究中心,部署了使用英特尔验证的特殊液体,服务器产生的热量被捕获并作为加热源被重新注入其供热系统中,热量得以循环利用。
“无论从政策角度、市场需求还是技术成熟度看,均标志着数据中心进入‘液冷时代’。”中国电子节能技术协会秘书长吕天文表示,液冷技术的兴起为数据中心节能降耗带来了无限可能。液冷技术不仅能够满足数据中心高密度、低能耗的发展需求,还将驱动数据中心内的各种配置和部件进行优化和创新,带来一场持续性的优化改革。
三、给服务器铺上 “凉席”
目前,液冷系统的技术路线可以分为冷板液冷、浸没液冷和喷雾液冷。其中,冷板液冷主要方法是组建冷却液回路,利用 CDU 分配冷却液。在通过冷板收集计算节点的热量后,冷却液不断流向另一个冷的 CPU,并通过另一个连接器离开服务器冷板管道,实现液冷计算节点的液冷循环。冷板液冷技术目前在行业内相对成熟,在传统数据中心改造、数据中心基础设施复用等方面具备一定的优势。
冷板液冷,形象说就是给服务器铺上 “凉席”,把热传导出去。这种技术相对比较成熟,在中国市场对比浸没式液冷来说更加流行。
例如,京东云冷板液冷解决方案是从数据中心级到系统级的整体解决方案,采用了基于第三代英特尔® 至强® 可扩展处理器的定制化服务器,调整了核心数、基础和 Turbo 频率、TDP、RAS 特性、T 机箱等主要参数,以适配其可持续的液冷数据中心。方案涵盖了 CDU、机架、服务器等不同层级的产品与技术,在 CDU、工作液、歧管、服务器等方面进行了针对性的设计。
在相同服务器节点配置下,京东云对比了空气冷却与冷板液冷在 25°C 和 35°C 环境温度下的冷却效果,后者的服务器节点的风扇功率比前者显著降低了 18% 和 44%。服务器节点出口温度降低 11-16°C,噪音降低 1.0-7.0dBA。
采用冷板液冷后,京东云数据中心的 PUE 值从 1.3 降低到 1.1,每个 14KW 机柜可节电 31031 度。与传统风冷式整机柜相比,液冷整机柜服务器使数据中心部署总体能耗降低 40% 以上;采用 N+N 冗余的集中供电设计,满足多节点供电需求的同时,通过电源均衡优化技术,可以使电源一直工作在最高效率,比分布式电源模式整体效率提升 10%;做到一体化交付,高效运维部署,交付速度提高 5-10 倍。
目前,液冷整机柜服务器已在京东云数据中心实现规模化部署,为京东 618、双十一、央视春晚红包互动提供了基础算力保障,数据中心综合效能提升 34%-56%。
虽然冷板液冷技术不复杂,但现状是缺乏标准化。由于液冷与空气冷却系统在设计上有较大的差异,很多技术仍缺乏充分的验证,因此在效率、稳定性、经济性等方面都存在可优化空间。
英特尔绿色数据中心项目负责人表示,国家在绿色数据中心领域的明确诉求是降低 PUE,而液冷是直接可以为之贡献力量的技术。目前冷板液冷技术相对成熟,但是市场上还没有一个统一的标准能让整个生态系统去使用。对此,英特尔与业界合作伙伴组成了工作组一起探讨制定冷板技术标准。目前,该工作组已经有 20 多家企业,广泛代表中国服务器市场制造商与使用者的声音,工作组的成果也得到了国家标准机构的积极认可。“客户在中国,供应商在中国,部件商也在中国,再加上高质量的本土制造能力,我们应该有能力最大限度的降低冷板液冷解决方案的采购与使用成本。帮助我们的客户更好更快的采用低 PUE 的散热方案,从而助力国家双碳大战略。”
四、算力调控 “七十二变”
液冷技术可以立竿见影地降低能耗,但对数据中心基础架构的改变比较大,这较适用于资金实力雄厚的互联网巨头和超算中心。那些无法引入架构变化的企业,就需要渐进式的软件“改良”,以达到节能减排等目的。
实际上,通过灵活配置处理器多个核心的运行状态,对其功耗和频率进行精细化控制,可以有效提高数据中心的能效比,在某些具体应用中可达到 5%-30% 的效率提升与收益。
例如,英特尔® 速度选择技术(英特尔® SST)能够对处理器单个及多个核心的运行状态、频率和功耗进行精细化控制,依靠 PP、BF、CP 和 TF 四种不同但又可互补的配置模式,在更优能效的前提下,满足不同应用场景或应用负载的差异化需求,从而为企业多样化、差异化应用需求提供更优支持。
具体来讲,在性能要求高、时延敏感的在线游戏场景中,至强® 可扩展处理器就可以在英特尔® SST 助力下,调整为高主频、低核心数模式,以少量核心发挥英特尔® 处理器高主频优势。
在云业务等寻求高并发计算吞吐量的场景中,至强® 可扩展处理器则可被调整为低主频、高核心数模式,充分体现英特尔® 处理器多核心 + 多线程的优势。
在一些应用场景中,处理器每个核心的负载并不均衡,常常会出现运行关键任务的核心已满载甚至超载,而其它核心却相对轻闲或空闲。面对这种情况,在英特尔® SST 中的 SST-BF(Base Frequency) 模式和 SST-TF(Turbo Frequency) 模式下,处理器能够更加精细化、差异化地对不同核心的基频 (SST-BF模式) 或睿频 (SST-TF模式) 进行调整。将低优先级负载核心的频率尽量降低,再利用它们释放出的功耗储备,让那些正在承载高优先级负载的部分核心运行在更高频,即更高算力输出状态下。
此外,英特尔® SST 还拥有 SST-CP 模式(Core Power),可对多个核心进行分组,并赋予不同的频率状态,来应对不同优先级的负载需求。在处理器负载非常高时,SST-CP 模式会对执行低优先级任务的核心组进行降频,以确保执行高优先级任务的核心组不受影响。
中国电信曾与英特尔一起,在控制云、转发云等网元上进行了英特尔® SST 的部署,并取得了出色的实用效果,控制能耗,显著提高性能。
五、以技术创新拥抱可持续的未来
作为算力基础设施的重要组成部分,数据中心是促进 5G、人工智能、云计算、大数据等新一代信息化、数字化技术和应用发展的数据中枢和算力载体,对于数字经济增长以及提供数据服务具有重要的作用。作为承载数据、各行业信息系统的基础保障设施,数据中心是发展以数据为基础的产业链的关键一环。
因此,数据中心的可持续发展,是未来数字社会可持续发展的基础条件。而可持续发展目标对数据中心带来的改变,远远不只是冷却方式,更会是一个影响深远的转折点,影响到数据中心设计的方方面面。可以说,数据中心的绿色环保是未来 ICT 可持续发展的关键方向。
就碳减排行动的第一步——碳测算来说,数据中心碳排放数据的测量相当复杂。由于越来越多的计算以虚拟机和容器的方式进行组织,各种业务以混杂的方式部署在不同硬件系统上,且在不停移动。要实现对不同业务碳排放的测量,就需要对虚拟机和容器级别的功耗都进行测算。在 DevOps 上加入对能耗统计的 API,使得程序员在开发之初,就能对采集应用功耗的情况进行考量,这意味着基于碳排放数据测算基础上的减排行动,有了科学推进的内置工具。
2022 年 4 月 14 日,英特尔公布到 2040 年实现全球业务的温室气体净零排放,提高能效并减少英特尔产品和平台的碳足迹,助力行业伙伴及客户成功打造更环保的解决方案,以及联合一些全球公用事业公司协力加快可再生能源电力入网,到 2040 年全面实现 “可持续计算”。
具体来说,英特尔规划围绕电源设计、冷却技术等构建行业标准,降低实施成本,结合中国市场特点,以助力提升能效、降低 PUE,进而推动先进绿色数据中心建设,实现绿色节能发展。同时,英特尔还将通过异构算力产品,跨 CPU、IPU、XPU 的一致软件堆栈,以及智能网络结构,加速数据中心变革。
5 月,英特尔又宣布了两项重大计划,首先是投资超过 7 亿美元,建造一座 20 万平方英尺的研发设施,以着力于解决热回收与再利用、浸没式冷却、以及用水效率等问题。按照该计划,这座研究实验室将于今年晚些时候在俄勒冈州希尔斯伯勒 (Hillsboro,Oregon) 的琼斯农场 (Jones Farm) 园区开建。此外,英特尔披露了业内首个基于开放知识产权 (open IP) 的浸没式散热解决方案的参考设计。英特尔希望借此简化并加速其浸没式液冷散热方案在全球市场的推广。
以技术创新造福于人是英特尔的不渝追求,而要做到这一点必须依靠打破常规、颠覆传统的革命性解决方案,以更少的自然资源投入创造更大的价值。