在全球开展数字化、智能化转型的今天,突飞猛进的算力需求所带来的能耗问题,正令数据中心面临巨大挑战。在“双碳”等政策的指引下,数据中心亟需寻求更为先进的散热技术,构建可持续算力,满足绿色环保要求,助力应对环境挑战。
作为全球领先的云计算及人工智能(Artificial Intelligence, AI)科技公司,阿里云正坚持让计算成为公共服务,助力全球客户加速价值创新。依托自身在技术、业务等方面的优势,阿里云一直致力于探索数据中心节能极限,不遗余力地寻求创新与突破,在浸没式液冷技术研究方面迈入行业前列,并通过与英特尔多年以来开展的产品与技术合作,打造出领先的阿里云单相浸没式液冷方案,实现了落地应用。
在阿里云数据中心的落地实践表明,该方案不仅在PUE(Power Usage Effectiveness,能源使用效率)等能耗指标上表现优异,低至1.09,其也能大幅提升功耗密度(Power Density),使单机柜功耗达100千瓦以上1;同时,方案还能有效降低数据中心建造和运营成本、故障率以及噪音等,从而切切实实地赋能绿色数据中心建设。
浸没式液冷方案能有效降低数据中心能耗水平,并在提升机柜功耗密度的同时,压降成本、故障率以及噪音等,是我们阿里云打造绿色数据中心的重要技术方向之一。来自英特尔产品与技术的支持及与其开展的合作,帮助我们的方案在材料兼容性、芯片电气特性等方面取得巨大突破,使方案在落地实践后取得了巨大成功。” ——钟杨帆,阿里云基础设施服务器研发事业部,资深技术专家
方案背景:构建可持续算力,亟需绿色计算参与
作为现今时代最重要的生产要素之一,算力无疑已成为全球数字化、智能化进程中不可或缺的角色。在人们日常生活的每一天,无论是电商购物或远程医疗,还是智能制造或城市治理,由强大算力所支撑的人工智能、云计算、大数据以及5G网络等前沿技术,正在千行百业高效运行,加速着数字化转型和数字经济发展。
各行各业不断丰富的应用场景推动着算力需求的急剧提升。以当前火热的AI领域为例,随着大模型等新技术的高速演进,其算力需求正呈每半年左右翻一番的速度增加2。在这一趋势下,数据中心作为算力的主要承载体,必须通过持续的算力“扩容”来满足数字经济蓬勃发展的需求。
但这一“扩容”过程也面临着一个严峻的考验,即能耗问题。算力的提升,除了需对处理器等硬件设备的技术架构、工艺制程进行优化和革新外,对设备降耗也会提出更高要求。如图2所示,以主流服务器处理器的TDP(Thermal Design Power,热设计功耗)为例,近十年来其已从100多瓦提升至350瓦3,加上其他网络设备、存储设备功耗的增加,数据中心整体能耗也快速增长,预计到2025 年,中国数据中心耗电将占社会总用电量的 4%4。
众所周知,为应对全球气候变化带来的挑战,世界多国都出台了一系列引导低碳发展的相关政策,中国也在2020年9月明确提出 2030 年“碳达峰”与 2060 年“碳中和”的双碳目标。为此,数据中心亟需通过各类节能减排方案来减低PUE、TUE(Total-power Usage Effectiveness,能源使用效率)等能耗指标,提升绿色环保水平。
数据中心核心能耗指标定义:PUE与TUE PUE:数据中心总能耗/IT设备能耗 TUE:数据中心总能耗/核心数据处理设备(处理器、存储设备以及网络设备等)能耗 |
分析数据中心的能耗构成可知,散热是影响能耗指标的重要因素。在传统的风冷方案中,包括散热风扇、对应的供配电带来的能耗,往往可占到数据中心总能耗的20%-30%5。但风冷技术经过多年的发展,进一步优化和改良所能带来的边际收益已非常有限。所以,如何借助更为先进的散热技术来降低PUE和TUE水平,同时应对机柜功耗密度、散热设备运维成本、设备故障率以及噪音等更多挑战,突破目前多数的数据中心PUE值都在1.5以上的瓶颈,已成为包括阿里云在内的数据中心所有者所关注的焦点。
为应对上述挑战,在液冷技术领域始终位于业界前列的阿里云,正与合作伙伴英特尔协同创新,基于英特尔® 至强® 可扩展平台进行紧密技术协作,推动浸没式液冷技术在数据中心的实践与运用。目前,阿里云单相浸没式液冷技术方案已在阿里云数据中心实现大规模部署并取得了良好的效果,包括PUE值达到了极低的1.09等,有力证明了该方案可成为阿里云实现双碳目标的有力抓手1。
解决方案:携手英特尔,共同打造浸没式液冷解决方案
■ 阿里云打造业内领先的单相浸没式液冷方案
液冷方案是使用特殊液体(如碳氢化合物或氟化物)作为冷媒的散热技术。经过多年发展,其已形成喷淋、冷板、浸没等多种部署方式。如单相浸没式液冷方式,是将发热器件全部浸泡在冷却液中,通过液体循环流动带走热量。与风冷等传统散热方式相比,浸没式液冷方式在换热效果、散热效率等方面都有着更优异的表现,已成为散热技术发展的重要趋势。
把握数据中心散热技术趋势,阿里云早在2016年就发布了其首套浸没式液冷系统,并于第二年完成了浸没式液冷集群的构建;在其后的2018年,阿里云建成首个互联网液冷数据中心;到2020年,阿里云又打造了中国最大规模的单相浸没式液冷数据中心暨全国首座5A级绿色液冷数据中心。同时,阿里云还与合作伙伴一起,在2021年发起成立了浸没液冷智算产业发展论坛,以协同技术创新、实践积累来驱动生态繁荣,推动整个液冷产业的发展。
如图3所示,部署有阿里云单相浸没式液冷方案的数据中心,不再是传统的服务器机柜和穿梭其间的引风、排风设备和管道,取而代之的是一个个整体排列的TANK。所谓TANK,就是用于安装服务器、交换机等IT设备的浸没式箱体。作为数据中心最重要的组成部分,各类服务器、交换机等设备将全部浸没在TANK内的冷却液中;而“单相模式”是指冷却液会始终保持在液态,当设备工作时,热量会直接传导到冷却液中,通过循环管线(红热蓝冷)将热量带到热交换区,并最终通过室外冷源散热。
与传统风冷方式和冷板液冷方式相比,阿里云单相浸没式液冷方案有着更高的散热效率。以往风冷方式使用空气作为冷媒,通常需借助散热片来与空气进行热交换,但由于散热片很难覆盖全部器件,同时器件能耗大小不同,表面温度也并不均匀,存在局部过热的隐患。而冷板液冷方式虽然可以覆盖高功耗的器件,但仍需依靠风冷来解决冷板没有覆盖的部件,无法实现设备产生的热量100%通过液体直接捕获(Heat Capture)。
浸没式液冷方案使用液体作为冷媒,由于液体的比热容和密度远高于空气,在换热过程中单位体积的液体可以带走更多热量,而且当器件全部浸没在TANK内的冷却液中时,其热量可以很均匀地传导到液体中,从而实现100%的热捕获效果;而这也使得单机柜可以支持更高的功耗密度,可在TANK内部署更多器件。同时,在省去各类引风、排风设备和管道后,数据中心还可释放更多空间用于IT设备部署。
■ 英特尔与阿里云携手优化浸没式液冷方案
多年来,英特尔都通过基于英特尔® 至强® 可扩展平台的软硬件产品组合为阿里云数据中心提供强劲算力引擎,并面向各类云上应用共同实施优化。如大家所熟知的,传统的服务器及其芯片等器件在过去几十年中都是基于风冷设计,浸没式液冷彻底改变了服务器中各种器件的工作环境和使用条件,是一个从未被探索,有大量的问题亟需研究和解决的领域,需要数据中心的各个参与方一起深度协同,来对方案进行设计、验证和优化。
如图4所示,从2015年前后起,英特尔与阿里云就开始在浸没式液冷技术领域开展广泛合作,协同开发浸没式液冷服务器,并在材料兼容性、芯片电气特性、服务器系统结构设计以及产业链拓展等方面获得了巨大成功。
• 材料兼容性:浸没式液冷中的芯片需要完全浸没在冷却液中工作,芯片浸泡在液体中可能会发生物理特性变化,甚至与液体发生化学反应。即便是非常缓慢的化学反应和物理特性变化都会影响芯片长期运行的可靠性,因此方案必须对浸没在液体环境中的器件开展充分的材料兼容性分析和验证,避免处理器等器件的材料在冷却液中发生特性变化和性能下降。为此,英特尔针对芯片材料兼容性设计了一整套测试方案和数据分析方法,并通过大量的实验来验证英特尔® 至强® 可扩展处理器等硬件产品在浸没式液冷环境下运行的可靠性。
• 芯片电气特性:传统风冷服务器中有大量电信号是以空气为介质传输的,而在浸没式液冷方案中这些信号的传输介质就从空气变成了液体。由于空气与液体的电气特性不同,这些电信号尤其是芯片间互连的高速接口信号可能在液体环境中出现波形严重失真、时序错误等信号完整性问题。为应对这些问题,英特尔和阿里云的工程师们对英特尔® 至强® 可扩展处理器、英特尔® AgilexTM FPGA芯片等的高速接口电路在浸没式液冷的工作环境中重新做了信号完整性仿真分析和测试验证,并与其它零部件和服务器整机厂商合作改进了高速信号连接方案,确保几十乃至上百G赫兹、皮秒级别的高速信号在浸没式液冷方案中也能具备与风冷方案相同的信号完整性和系统可靠性指标。
• 服务器系统结构设计:为了让浸没式液冷方案实现更高的机柜功耗密度,支持更高TDP的处理器,也需要对浸没式液冷服务器系统结构做优化设计。英特尔和阿里云的工程师们为此搭建了浸没式液冷服务器系统散热仿真模型和测试验证平台,对服务器内部的液体流场和温度分布、液体的自然对流和强制对流等效应做了深入研究。同时,双方也与各个合作伙伴携手,共同开发高性能的浸没式液冷散热器方案,优化了服务器系统结构设计。
• 产业链拓展:英特尔与阿里云深知浸没式液冷技术的探索、开发和落地需要完整的产业链支持,因此双方也在业界积极推进液冷技术的标准化,以及跨区域的行业合作。目前,英特尔在OCP(Open Compute Project,开放计算项目)组织中已发布了多个关于液冷技术的白皮书和设计规范,同时也与阿里云一起,通过与ODCC(Open Data Center Committee,开放数据中心委员会)组织的紧密合作,全力支持本土标准的制订和技术白皮书的推广。
应用成果
现在,单相浸没式液冷方案已在阿里云多个数据中心中获得成功部署与验证,来自一线应用的数据表明,方案在散热效率等多方面有着显著优势1:
• 采用浸没式液冷方案的数据中心PUE值可达到极低的1.09,对比风冷方案的年均1.5,下降幅度达34.6%;
• 采用浸没式液冷方案,机柜功耗密度得到显著提升,单机柜功率可达100千瓦以上;
• 与风冷方案相比,浸没式液冷方案的资源利用率提升50%以上;
• 与风冷方案相比,浸没式液冷方案的设备故障率下降了50%。
同时,这一方案也为阿里云带来了巨大的成本收益和环境噪音大幅下降等优势。一方面,与风冷方案相比,浸没式液冷方案所需的基础设备更为简洁,无需建设大型冷却塔,而其管道、TANK也可重复利用且工作寿命非常可观,当服务器等器件需要更新换代时,液冷系统可以跨代使用,无疑可节省大量时间和物料成本;另一方面,浸没式液冷方案不需要风扇等设备,因此工作起来非常安静,对降低环境噪音有着很大助益。
未来展望
在碳达峰、碳中和等节能环保政策的推动下,以先进散热技术构建可持续的绿色算力输出,已成为更多数据中心孜孜以求的目标。阿里云与英特尔携手共建的浸没式液冷方案成功落地应用,无疑为加速这一进程提供了可参考的实践案例和新的行业标杆。面向未来,双方还将在绿色数据中心技术领域开展进一步合作,使得数据中心更好地实现绿色发展可持续,引领更多行业伙伴共推液冷技术普惠发展,助力“双碳”战略实施,共筑美好未来。