数据中心多场景冷却系统失效研究

2021-11-10 10:40中国农业银行数据中心秦冰月郑匡庆潘兰娜原洪涛程戈亮
暖通空调 2021年10期
关键词:计算机设备机柜温升

中国农业银行数据中心 秦冰月 郑匡庆 闫 涛 杨 欣 杨 帆 潘兰娜 原洪涛 程戈亮

0 引言

保持计算机设备安全稳定运行对数据中心至关重要,美国数据中心电力中断调研报告显示,在所有引起服务器宕机的原因中,由于冷却系统失效造成的宕机占33%,并且有逐年增长的趋势[1]。

造成数据中心冷却系统失效的一个主要原因是无计划停电[2]。停电后机房计算机设备由不间断电源UPS供电而保持运行,计算机设备持续发热;而空调系统虽然有柴油发电机作为后备电源,但柴油发电机启动需要时间,因此停电后空调系统会失效一段时间。此时机房温度骤然升高,直至计算机设备达到极限温度发生宕机。因此研究空调系统失效时机房温度的变化及计算机设备的宕机时间(这个时间直接关系到空调系统可用性和连续性冷却问题,涉及柴油发电机启动时间及电源后备时间长短等问题),对数据中心系统设计及后期运维应急工作具有非常重要的意义。

造成冷却系统失效的另一个原因是多台空调同时故障导致机房冷量不足。目前数据中心大多采用多台空调冗余配置、备机轮巡的运行方案。单台冷却失效时,备用空调会开启用以保证计算机设备的冷量需求。若某一机房发生多台空调同时失效,空调系统将无法满足所有设备负载,这种情况发生的概率极小,但也属于空调系统失效的研究范畴。了解此工况下计算机设备的宕机时间,对于数据中心运维人员制定冷却失效应对方案至关重要。

傅烈虎通过研究数据中心冷却失效引起温升的速率与机柜功率密度的关系得出:功率密度小于10 kW/机柜时,数据中心冷却失效后,温升速率与功率密度基本呈线性关系;机柜功率密度大于10 kW/机柜时,温升速率与功率密度呈二次多项式关系[2]。在不同的功率密度下,服务器机柜平均进风温度的温升速度不同;功率密度越大,服务器机柜平均进风温度升高得越快[3]。

机房温升与很多因素有关,抛开机房本身建筑结构与机房功率密度外,还包括机柜通道是否封闭、空调冷却失效台数、空调设定温度、空调冷却失效部件(压缩机、风机)等多因素,本文根据上述因素划定多种冷却失效场景,利用CFD模拟各类场景冷却系统失效后机房温升情况。

1 研究方法

1.1 CFD模拟

本文采用6sigmaRoom仿真模拟软件进行CFD仿真,它是由Future Facilities公司开发的专用于数据中心CFD仿真分析的软件。在建模方面,它具有各类数据中心专用模型库,空调、机柜、计算机设备等模型库完备。仿真时只需从设备库中挑选所需设备拖入计算域内,即可完成该模型的建立。大大降低了建模难度,缩短了计算周期。在划分网格方面,6sigmaRoom按照设备类型,对计算域内的网格进行智能划分,节省大量的网格划分时间,划分后的网格质量较高,满足计算要求。

1.2 计算机设备极限温度的确定

计算机设备极限温度是指设备能维持正常工作状态的最高环境温度,超过该温度计算机设备CPU性能将下降甚至出现宕机的危险。ASHRAE中A3、A4类设备环境温度要求分别为5~40 ℃和5~45 ℃。数据中心的服务器、存储器品牌型号众多,工作温度范围也各不相同,表1给出了数据中心某品牌不同型号设备的工作温度范围。

表1 数据中心某品牌计算机设备工作温度 ℃

虽然不同计算机设备的极限温度存在差异,但主要集中在40~45 ℃,再结合ASHRAE TC9.9[4]中规定设备进口最大允许温度为32 ℃,因此本文在模拟冷却失效场景时取32、40、45 ℃进行不同场景的横向对比,记录机房冷却失效时计算机设备进风温度达到32、40、45 ℃的时间。

1.3 冷却失效场景划分

本文研究模拟7种常见冷却失效场景,如表2所示;模拟取室外极端温度40 ℃的夏季工况,场景1、2、4~6模拟因数据中心电力中断导致某一机房精密空调19台全部失效的场景;场景3模拟因室外机局部温度过高触发空调压缩机停机失效、室内风机仍运行的冷却失效场景;场景7模拟多台空调同时失效(10台空调故障)场景。冷却失效模拟计算包括2个步骤:首先是失效前对机房热环境进行仿真,这是一个稳态计算结果,机房环境各点温度不会随时间发生改变。然后在此结果基础上进行不同场景冷却失效计算,这是一个瞬态计算过程,机房内各点温度将随时间发生改变,设定每10 s监测1次数据,当计算机设备的最高进风温度达到45 ℃时计算终止。通过比较计算机设备达到极限温度的时间,评估不同场景应对冷却失效风险的能力。

场景1、场景2与场景6研究机柜开放通道、机柜封闭冷通道与机柜封闭热通道的机房冷却失效影响对比。

场景2与场景3均为机柜冷通道封闭,区别是冷却失效时,场景2空调压缩机、风机均失效,场景3空调压缩机失效,风机仍运行。空调实际运行时会出现此类状况,即当夏季极端高温天气或空调室外机布局较密集时,室外机局部温度过高,触发压缩机跳机、停机从而导致机房冷却系统失效,而此时空调室内风机仍保持运转,维持送风状态。

场景2、场景4、场景5比较不同空调回风温度设定值对冷却失效的影响。

场景7研究多台空调同时故障,制冷系统无法满足机房制冷、冷却失效时机房温升情况。

2 机房冷却失效CFD模拟

2.1 机房模型建立

选取某机房为研究对象,建立基准模型。机房有11排机柜,每2排机柜构成一个通道单元,机柜间面对面一侧形成冷通道,背对背一侧形成热通道,平均功率密度为3 kW/机柜。采用高架地板送风方式,地板高度0.9 m。机房共布置19台房间级精密空调,其中北侧空调间布置11台,机房内南侧布置8台,采用14台+5台运行模式,回风温度控制。按照上述7种失效场景分别建立失效前基准模型,计算采用K-ε湍流模型,选用软件默认设置的残差来控制求解方程的收敛精度。在基准模型达到机房稳态基础上,设定相应冷却失效场景,进一步模拟冷却失效时机房温升情况。数据中心机房CFD模型见图1。

图1 数据中心机房CFD模型

2.2 实测验证

通过在机房中选取若干点进行温度实测,并将实测结果与模拟结果对比分析,从而验证模拟结果的真实可靠性。采用温度自记仪,测量精度为±0.5 ℃,记录不同位置的气流温度。在机房冷通道设备进风侧布置12个测量点。为更加准确地验证模拟结果的可靠性,分别在距离地板0.5、1.0、1.5 m高度进行测量,机房设备布局及测量点位置如图2所示。位置点的送风温度模拟结果与实测结果对比如图3所示。

图2 机房设备布局图及温度测点位置

图3 仿真与实测对比

由图3可知,模拟结果与实测结果的温度偏差为1 ℃左右,误差保持在6%以内。鉴于模拟结果与实际测量数值的变化趋势始终保持一致,且误差在实验测量允许范围之内,认为模型仿真结果与实验测试结果基本一致,基准模型采用的模拟设置正确,此次仿真结果具有较高的可信度,对后续基于此基准模型的冷却失效模拟研究及模型参数的设置都具有指导意义。

3 冷却失效场景模拟结果分析

表3显示了7种不同失效场景的模拟结果。在冷却失效场景下,计算机设备进口温度达到其极限温度的时间主要取决于稳态时计算机设备最高进口温度,并且受不同场景下机房热环境和气流组织的综合影响。

表3 7种冷却失效场景模拟结果对比分析 s

3.1 封闭热通道、不封闭通道与封闭冷通道对比

场景1、场景2、场景6模拟结果显示,计算机设备进口温度达到45 ℃的时间:封闭热通道(740 s)>不封闭通道(600 s)>封闭冷通道(540 s),说明在抵抗冷却失效风险能力方面,依次为封闭机柜热通道、不封闭通道、封闭机柜冷通道。原因是封闭热通道的机房回风热气流更集中,控制相同回风温度时,送风温度偏低(即计算机设备初始进口温度偏低),而不封闭通道机房存在冷热气流混合现象,同样的回风温度设定值,其送风温度稍高,而封闭冷通道的机房由于冷量更集中,同样负荷同样回风温度设定值下,送风温度三者最高,因此计算机设备达到极限温度的时间最短。用冷池也可解释此结果,冷通道封闭的机房,其冷池区域为地板下送风静压箱和冷通道,冷池面积为三者中最小;热通道封闭的冷池为除热通道以外的机房全部区域,冷池面积为三者中最大;不封闭通道没有明显的冷池区域,其冷池面积介于两者之间。图4显示了封闭热通道、不封闭通道、封闭冷通道的温升对比。

图4 封闭热通道、不封闭通道、封闭冷通道温升对比

3.2 仅压缩机失效、压缩机风机均失效对比

场景2与场景3对比:同样是封闭机柜冷通道,在压缩机失效而风机运行场景下,计算机设备达到极限温度45 ℃的时长(1 300 s)远大于在压缩机风机均失效场景下的时长(540 s),风机运行相较于风机失效可多抵御冷却失效风险近13 min。空调系统虽压缩机失效无法制冷,但风机连续运行,计算机设备能够充分利用地板下的剩余冷风进行散热,而压缩机、风机均失效的场景,计算机设备利用的地板下剩余冷风有限,因此前者抵抗失效风险能力强,后者温升较快。仅压缩机失效与压缩机、风机均失效时的温升对比如图5所示。

图5 仅压缩机失效与压缩机、风机均失效时的温升对比

在机房满负载运行时,冷通道封闭且精密空调压缩机、风机均失效的极端情况下,机柜进风温度分布如图6所示。

图6 失效后机柜进风温度分布(场景2)

3.3 不同空调回风温度设定值对比

场景2、场景4、场景5对比:如图7所示,3种空调回风温度设定值下计算机设备温升趋势相同,温升速率与回风温度设定值基本无关,但由于回风温度设定值为25 ℃时,机房初始进口温度更低,当冷却系统失效后计算机设备达到极限温度的速度更缓慢。因此,回风温度设定值越低,抵御冷却失效风险的能力越强。

图7 空调在不同回风温度设定值下失效机房温升对比

3.4 多台空调同时故障

场景7中机房达到计算机极限温度45 ℃的时间为820 s(约13 min),如果是由于空调压缩机故障、室内风机故障亦或动力配电柜故障等重大故障引起的多台空调冷却失效,在实际运维中13 min内无法彻底解决多台空调故障、恢复空调运行,因此在实际运维中,需及时处理单点故障,尽量避免多台空调冷却失效情况,并认真做好空调系统的定期检查工作,采用定期备机轮巡机制而避免固定几台空调经常使用和固定几台空调长期处于备机状态。

4 结论

1) 对于中低密度机房来说,在承担冷却失效风险的能力方面:

① 热通道封闭机房强于不封闭冷通道机房,冷通道封闭机房最差。对于本文模拟的某机房,在冷却系统失效后,设备达到极限温度的时间三者差距都在3 min以内。采用封闭热通道方式不仅节能,而且有较好的抵御空调失效的风险,但它对机房的空间要求高,改造难度大;采用封闭冷通道方式改造方便且节能,但抵御空调失效能力弱;开放式通道抵御空调失效的能力介于两者之间,但不利于节能。因此应充分考虑节能、运维风险、施工难度等因素选取通道封闭方式。

② 空调仅压缩机失效强于空调压缩机、风机均失效,风机运行相较于风机失效而言,计算机设备能够充分利用地板下的剩余冷风进行散热,前者较后者可多抵御冷却失效风险近13 min。

③ 回风温度设定值的升高虽然有利于节能,但一旦空调系统失效,会承担更高的风险。因此应对机房节能及运维风险进行综合考虑,根据机房设备布局、空调系统制冷能力等情况,因地制宜设定合理的回风温度。

2) 本文研究的7种场景达到设备极限温度的时间都长于6 min,在这个时间段内数据中心的柴油发电机系统及其后级负载设备可以全部启动,但多台空调故障无法全部处理,因此对于无计划停电的冷却失效风险在安全可控范围;而对于因多台空调同时故障导致空调系统失效仍存在风险,需定期做好空调检查,及时处理单点故障,配置空调冗余运行及定期轮巡工作机制,保障空调系统良好运行状态。

猜你喜欢
计算机设备机柜温升
门槛可拆卸式机柜车载运输工况的仿真分析
电机温升计算公式的推导和应用
定子绕组的处理对新能源汽车电机温升的影响
基于simulation分析高压电机铁心分段对电机温升的影响
通讯基站柜内空调的传热传质模拟分析
浅谈天津港第一港埠有限公司的计算机设备管理
LED照明光源的温升与散热分析
计算机设备维护管理规范化探究
大中型企业计算机设备运维管理研究
安全级仪控系统机柜状态监测报警设计