数据中心高可靠性BA控制系统优化研究与应用

2020-09-07 09:40李程贵张建雪
通信电源技术 2020年11期
关键词:冷源制冷系统机房

李程贵,王 瑊,张建雪

(中国移动通信集团内蒙古有限公司,内蒙古 呼和浩特 010000)

0 引 言

随着互联网+和云计算业务需求的飞速增长,数据中心的建设逐渐呈现向超大规模、高度集中以及绿色节能的方向发展。目前,数据中心机电工程设计和土建工程设计已经有了国家标准《数据中心设计规范》(GB50174—2017)和Uptime Tier国际标准。《数据中心设计规范》(GB50174—2017)将机房划分为A、B、C共3级,级别依次降低。Uptime Tier国际标准将机房划分为TierⅣ、TierⅢ、TierⅡ、TierⅠ共4级,级别依次降低。一般来说,A级相当于TierⅣ-或TierⅢ+,B级相当于TierⅢ-或TierⅡ+,C级相当于TierⅡ-或TierⅠ+[1-2]。国家标准《数据中心设计规范》和Uptime Tier国际标准给出了数据中心机房的建设要求,明确要有智能化控制系统,但是对数据中心智能化控制系统的建设标准和系统架构没有明确的指导,导致机电工程硬件已经到达了较高级别,但智能化监控系统的建设却级别较低,数据中心的冷源BA控制系统问题尤为突出。

1 现网技术方案存在的问题

目前,中国移动(呼和浩特)数据中心已经建成3栋机房,均为国标A级。图1是中国移动(呼和浩特)数据中心冷源系统示意图。

从图1可以看出,数据中心的冷源系统装配了大量配套设施,包括管路、阀门、冷却塔、风机、冷水机组、板式换热器、分集水器、蓄冷罐、冷却水泵、冷冻水泵、蓄冷泵、水源热泵、电伴热、补水泵、排污泵、集水坑及相关各类传感器与执行机构等,组成了3套冷机系统。这些设施的有效运行和故障监控全部依赖数据中心的冷源BA控制系统。

BA控制系统作为数据中心集中式水冷系统的控制大脑,重要性不言而喻。单套系统承担着超过1 000个机柜、超过15 000台服务器的制冷要求[3]。数据中心冷源BA控制系统结构如图2所示。

本控制系统采用4层网络通信结构[4]:第一层为现场采集层,由冷源系统的各硬件组成部分组成,提供监测控制点,包括送排风系统、污水坑系统、集成冷水机组、集成蓄冷罐以及集成水源热泵机组等;第二层为系统接入层,采用DDC(Direct Data Controller)控制器及I/O模块或网关连接底层设备;第三层为系统控制层,控制设备NAE(Enhanced Network Communication Equipment) 互 联, 采 用BACNET通信协议,用于连接控制设备(DDC及I/O模块或网关),并进行逻辑运算和下发决策控制命令,NAE设备则通过TCP/IP协议接入BA智能化监控服务器;第四层为系统显示层,使用TCP/IP协议,用于连接系统服务器、工作站及第三方系统。

图1 中国移动(呼和浩特)数据中心冷源系统示意图

图2 数据中心冷源BA控制系统结构示意图

中国移动(呼和浩特)数据中心一期工程的DDC、NAE和BA服务器组网结构,如图3所示。

从图3可以看出,一栋机房楼包括制冷站的30个DDC控制器串联在一条总线上,一旦其中某个DDC设备接线端子故障或者DDC之间的连接线故障,将导致下端相连的DDC均无法正常工作,进而引发DDC下端设备的失控。

图3 数据中心冷源BA控制系统组网示意图

同时,单体机房楼和制冷站仅配置1台NAE设备。当单台NAE软件故障、硬件故障或者NAE到上游交换机的链路故障或者到DCC方向的总线故障,冷源BA控制系统将无法正常使用,甚至造成制冷系统失控或中断,存在较大的安全风险。即使此时的冷机系统是2+1保护,供电系统是1+1保护,若BA智能化控制系统处于失控状态,将无法控制现场制冷站内的多台高压冷水机组、水源热泵机组、循环水泵、冷却塔以及管路阀门等一系类设备,即机电配置的A级因智能化监控的低等级而无法发挥设计时应用的保护作用。

数据中心冷源自控系统来源于传统的楼宇自控系统(Building Automation System),针对数据中心运行特点,对系统架构和控制逻辑进行了深度的定制化。经调研多个数据中心发现,冷源系统机电硬件建设是A级或者TierⅢ+,而智能化监控智能层级仅仅是B级或者TierⅡ甚至更低,导致监控故障频发。而大型数据中心通常采用集中制冷系统,一旦集中制冷系统出现问题没有被及时发现和及时处理,将造成整个数据中心高温宕机。数据中心的冷源BA控制系统管理的大量制冷设备启停、阀门切换、模式切换以及故障应急切换等,一旦BA控制系统故障或者瘫痪,将不能有效、及时地发现现有机电硬件的各类故障,从而可能导致大故障发生。

2 高可靠性冷源BA控制系统优化方法的总体方案

分析近年数据中心故障情况,智能化BA控制系统的层级不匹配对数据中心的稳定运行构成了隐患,存在的主要问题可概括为以下3个方面。

用SPSS 20.0统计学软件分析研究数据,t用于检验计量资料,即(±s),x2用于检验计数资料,即[n(%)],P<0.05差异有统计学意义。

2.1 BA控制系统的硬件配置与机电工程硬件配置层级不符

目前,A级数据中心的冷源系统从市电配置、变配电配置、冷机、循环水泵以及管路等配置方面均要求有备份保护[5],但为其建设的冷源BA控制系统没有要求,所以目前的建设方案中存在大量的单点隐患问题,如单串行总线、单控制器以及电阀门单DO(Direct Output)控制等。当一栋机房的串行监控总线有一点故障时,将导致大量制冷设备失控;当BA系统单控制器故障时,群控系统同样会失控。

2.2 BA控制系统网络保护能力不足

BA控制系统测点到DDC控制器、NAE或者网关到服务器,往往是单条链路。当链路中的网线、交换机、路由器、尾纤以及光纤有任何一处故障,甚至电磁干扰大、光纤衰耗大等,都会造成智能化监控系统断链。据不完全统计,一套监控系统有上千个故障点或者场景能够导致智能化监控系统断链退服。

2.3 缺乏明确的高可靠性冷源BA控制系统架构优化方法

数据中心机电配置规范基本形成,明确了各类机电设备的保护要求和方案。但是,冷源BA控制系统目前没有有效的、明确的方案,仅能发现一处故障及时处理一处来尽可能减少故障时长。但是,有些故障定位难度大、故障时间长,有些故障需要更换备件,而备件采购周期长,造成了一段时间的监控盲点。

综上,迫切需要一种大型数据中心高可靠性冷源BA控制系统架构指导数据中心BA控制系统的建设。本文以A级数据中心为研究对象,提出一种大型数据中心高可靠性冷源BA控制系统优化方法,建议数据中心进行机电设计时同步设计与机电保护级别一致的高可靠性冷源BA控制系统,包括高可靠性冷源BA控制系统架构、BA控制系统设备供电可靠性优化和BA控制系统网络保护优化。国标A级大型数据中心机电设施按容错系统配置,同样A级数据中心的冷源BA控制系统也应该按照容错系统配置,以保证冷源系统在运行期间不因单次设备故障、外电源中断、维护和检修导致电子信息系统运行中断,从而为国标A级大型数据中心冷源BA控制系统设计或者改造提供参考。

3 高可靠性冷源BA控制系统优化方法的具体实现

以中国移动(呼和浩特)数据中心一期工程为例,高可靠性冷源BA控制系统优化方法的具体实现过程包括以下3个方面。

3.1 国标A级大型数据中心高可靠性冷源BA控制系统架构

以中国移动(呼和浩特)数据中心的集中制冷系统为例,每栋机房配置了N+M(B01/B02/B03机房是2+1)保护的冷机系统。每套冷机系统保护高压冷水机组、循环冷却水泵、循环冷冻水泵、冷却塔、板式换热器和管路阀门等一系类设备。这些设备必须都正常可控,这套制冷系统才能协调一致地正常工作。若这些设备分散由不同的NAE控制,或者一台NAE控制多套冷机系统组件,那么一台NAE故障时,多套冷机系统不能运行。同样,一台NAE控制3套制冷系统的不同部件时,一旦该NAE设备故障,则3套制冷系统均无法正常工作,从而导致制冷站冷源中断,机房高温宕机。因此,每套系统的各个组件都应该由一台NAE控制,N+M套制冷系统应配置N+M台NAE控制设备。中国移动(呼和浩特)数据中心每个楼的2+1保护的冷机系统需要配置3台NAE,同时将原来的1条总线结构变更为4条总线结构,第4条是机房的各类消防排风机和新风风机等。任意某台NAE故障时机房的制冷系统还有2套可用,能够保障数据中心的稳定运行。优化后的数据中心高可靠性系统示意图,如图4所示。

从图4可以看出,高可靠性BA智能化监控系统把制冷站和机房的各个DDC进行分类,将控制同一套系统的一组DDC串接在一条总线上由一台NAE控制,以保障监控的保护级别和机电配置的保护级别一致。

3.2 冷源BA控制系统设备供电可靠性优化

控制系统服务器通常只有一路UPS保障供电,存在单点隐患,可靠性不足。如遇供电中断,将导致整个制冷系统瘫痪。设备DDC没有UPS保障供电,如遇市电停电,管路阀门及控制系统均无法正常工作,也无法对下端设备发出任何指令。停电后管路阀门停止,再次来电时阀门需要先关闭再打开。如果DDC掉电而管路阀门有电时,管路阀门将直接关闭,导致冷冻水或者冷却水水流中断,存在较大隐患。

所以,冷源系统的冷水机组控制电源、电动阀门、DDC以及NAE等重要设备负荷均需要接入UPS,防止控制电源在市电供电一旦中断,冷机启动所需时间延长,制冷系统停止运行,造成机房高温。图5为数据中心BA系统DDC供电示意图。

本文提出将现有冷源系统的冷水机组控制电源、电动阀门、DDC以及NAE等重要设备负荷均接入UPS不间断电源,将单电源设备接入由2台UPS组成的“1+1”UPS并机系统,将双电源设备接入由2台UPS形成2N甚至3N的UPS保护系统,以提高冷源系统相关控制组件的供电可靠性,如图6所示。

3.3 冷源BA控制系统网络保护优化

通常,冷源BA控制系统现网中DDC控制器-NAE控制设备的网络连接,NAE控制设备-BA控制系统服务器的网络连接,BA控制系统服务器-监控中心网络物理单链路连接,同时BA服务器到数据中心综合管理平台也是物理单链路连接,网络安全存在巨大隐患。即使上述稳定性提高了,但是冷源BA控制系统网络如果存在隐患,整套冷源BA控制系统的可靠性还是难以保障,为此本提案提出了对冷源BA控制系统网络保护优化。

现网中采用单个10GE端口对接,存在安全性低和带宽不足问题。本提案提出采用链路聚合、设备主备冗余或者设备负载分担等方式,在两个汇聚或者核心的设备之间加强链路的健壮性。链路聚合、设备主备冗余或者设备负载分担的物理链路要求是物理不同路由,即不同的敷设方式、不同光缆以及不同波分系统等,避免存在单点隐患。

4 优化效果测试

一种大型数据中心高可靠性冷源BA控制系统优化方法,在中国移动(呼和浩特)数据中心应用后,对现有冷源BA控制系统架构进行了优化改造,实现流程如图7所示。

图4 数据中心高可靠性BA智能化监控系统示意图

图5 数据中心BA系统DDC供电示意图

图6 数据中心高可靠性BA系统DDC供电示意图

图7 数据中心冷源BA控制系统优化流程图

优化改造后进行全量验证。模拟某制冷组故障,系统是否自动切换至下一组,直至切换到可用的制冷组。制造NAE故障、DDC故障、单链路网络故障以及双路市电断电场景,验证群控系统是否正常,释冷泵是否正常启动。制造冷机群控系统断电场景,验证系统阀门管路是否能够状态保持。结果表明,冷源系统稳定性大大提高,方案满足预期要求。

5 结 论

本文提出了高可靠性的智能化监控架构理念,数据中心进行机电设计时要同步设计与机电保护级别一致的高可靠性冷源BA控制系统,提升网络安全性。为从规划设计源头打造低成本、高效率的数据中心,数据中心将该方案的要点及时提交集团设计院,经评审多个要点由集团设计院写入《中国移动数据中心机电工程建设指导意见V3.0》,用于指导数据中心存量机房机电工程的扩容、新建,同时为同行业国标A级大型数据中心冷源BA控制系统设计或者改造提供参考,具有一定的指导作用和实践推广价值。

猜你喜欢
冷源制冷系统机房
平疫结合的CT机房建设实践
基于阳江核电厂冷源拦截网兜材料替换可行性研究
R290/R170单级压缩回热制冷系统模拟研究
某地铁车站环控系统冷源节能优化研究
R134a-DMF吸收式制冷系统性能仿真研究
蒸发冷却式直膨空调在地铁车站冷源系统中的应用路径探讨
数据中心超高效冷源系统能效评价与设计探讨
浅谈广播电视播出机房技术操作与维护
基于VPN的机房局域网远程控制系统
传输机房安全操作和日常维护要点