数据中心基础设施管理应用实践

2022-05-11 23:31刘运
今日自动化 2022年3期
关键词:数据中心基础设施

刘运

[摘    要]数据中心基础设施管理(DCIM)是一种灵活的综合性解决方案,将基础设施管理需求引入到一种全新层次的业务智能。既确保了数据中心稳定、高效、绿色,轻松完成对设施、资产的管理,以及对未来容量、能耗、需求的趋势分析、预测和规划。无论现在还是将来,一个部署完善、成效显著的数据中心基础设施管理都能帮助管理人员高效地利用供电、制冷、网络、空间和承重容量,基础设施以及所支持的IT 工作负载的可用性将因此获得提升,实现效率最大化。

[关键词]数据中心;基础设施;数据中心基础设施管理;DCIM

[中图分类号]TP315 [文献标志码]A [文章编号]2095–6487(2022)03–0–05

Data Center Infrastructure Management Application Practice

Liu Yun

[Abstract]Data Center Infrastructure Management (DCIM) is a flexible and comprehensive solution that brings infrastructure management requirements to a whole new level of business intelligence. It not only ensures the stability, efficiency and greenness of the data center, but also easily completes the management of facilities and assets, as well as the trend analysis, prediction and planning of future capacity, energy consumption and demand. A well-deployed and effective data center infrastructure management helps managers efficiently utilize power, cooling, networking, space and load-bearing capacity, now and in the future, resulting in improved availability of the infrastructure and the IT workloads it supports. Improve and maximize efficiency.

[Keywords]data center; infrastructure; data center infrastructure management; DCIM

企业决策管理层正向IT部门提出更大挑战,要求将数据中心从成本支出中心转变为业务价值的创造部门。数据中心通过使业务能够更快地对市场需求做出反应,来对企业产生更深层次的影响[1]。

1 建设目标

传统的数据中心管理平台面临高能耗、难以扩容、管理效率低等诸多不足。

1.1 管理效率低

没有统一的数据中心管理平台,纷繁复杂的专项管理系统相互独立,集成力差,形成信息孤岛,管理人员无法“一站式”管理;管理系统的智能化仍然依托于巨大的人力成本,无法实现自动化服务。

1.2 告警功能模式单一

传统的管理系统,告警功能只是简单地将设备层、采集层采集的报警信息推送给管理人员,无法做到告警抑制、分类、升级、预警等功能,更不能对告警信息进行过滤和检索分析。而面对资产生命周期中应出现的报警推送功能,也鲜少有管理平台可以做到。

1.3 故障定位难

准确定位故障、解决故障是数据中心稳定运行的关键。但实际上因为设备之间存在着关联,当1台设备出现故障时,经常引发其他设备的并发告警,而且不同专业设备、不同子系统推送信息的格式不同,操作员和管理员收到不同格式的告警推送,面对众多的告警信息,管理人员无法直观快速地抓住报警事件重点,无法准确找到关键故障,需做人工性二次判断。

1.4 资产管理难

数据中心存在大量的基础设施设备和IT资产,管理人员不能准确掌握资产数量、位置与责任人,对于资产的全生命周期管理、日常盘点等業务不能实现流程化管理,人力成本高,账实不符的现象时有发生,往往会对整个企业的资产管理造成很大的负面影响。另外,设备上架时,传统管理系统无法提供可选方案建议,仍旧需要管理人员花费大量的时间自行完成。

1.5 容量利用率低

数据中心建设迭代进行,数据中心的容量决定了该数据中心的计算能力。而传统数据中心管理平台无法计量并分析容量使用信息,不能帮助管理者跟踪容量使用情况或规划关键容量。据调查显示,90%以上的数据中心资源利用率不到60%。容量的低利用必然会造成更大的建设成本与运营成本的投入,同时会带来更大的资源消耗和环境污染问题。

量身定制一款符合需求的DCIM,管理人员可以监控、管理数据中心IT设备和基础设施的使用情况以及能耗水平,为数据中心安全、稳定、高效、节能运行提供基础保障。

DCIM建设要求是:保障可用性计划及降低风险;提高资产和基础设施的利用率;综合降低能源消耗和运维成本;流程化管理满足规定的服务水平;实时自动提供管理决策信息;提高数据中心效率和效益;构建针对数据中心内基础设施的分析、比对与挖掘的数据支撑平台。

2 物理架构

从物理架构角度,系统分为4个层级:展示层、管理服务层、监控系统层和现场采集层。DCIM系统服务器设有两台,设置为双机热备,实现主备服务器之间工作自动切换。当主服务器出现故障,备服务器自动接管主服务器所有功能;当主服务器恢复正常,备服务器自动将所有功能迁回主服务器。主备服务器相互切换过程中,系统能持续提供服务,保证数据的存储不会间断,满足数据不丢失及一致性,保障系统7*24h不间断工作。具体各层级包含的业务处理模块和网络设备如图1所示。

2.1 现场采集层

从7个子系统(动环、配电、视频、门禁、楼控、照明、消防)对应的设备和传感器中采集数据信息。

2.2 监控系统层

子系统从下属设备和传感器中采集数据并将采集的数据和处理后的结果、告警信息等上传至管理层。监控系统层各子系统支持通过Modbus TCP、Modbus RTU、BacNet、SNMP、OPC、Web Services等通讯方式,将监控数据上传至管理服務层。

2.3 管理服务层

管理层基于监控系统层的数据,实现综合管理平台的核心功能。平台管理服务器实现子系统集中监控、资产管理、容量管理、报表管理、告警管理、流程管理、联动管理、日志管理、权限管理等基于平台日常工作的管理维护功能。管理人员通过人机交互界面,在管理系统中完成日常维护。

2.4 展示层

系统提供PC客户端、WEB浏览器、手持移动端、大屏等多种信息浏览方式,根据对接的第三方系统设计相应的友好展示、管理界面。并提供声光、短信、电话、邮件等多种报警形式。无论在公司内网或者公共网络,都可方便地访问系统,实现远程办公[2]。

3 系统功能

数据中心基础设施管理系统通过持续收集数据中心的资产、资源信息,以及各种设备的运行状态信息,分析、整合和提炼有用数据,帮助数据中心运行维护人员管理数据中心,并优化数据中心的性能[3]。

最有效的DCIM 解决方案在运行时主要依靠从基础设施设备和其他管理系统持续获取实时数据。用户可以对UPS、PDU、电表、环境传感器、探测器、安防摄像头、制冷单元、流量计、BMS和其他设备进行设置,令其与DCIM 服务器通信。

DCIM功能划分为四大核心模块:场地设施管理、资产管理、能效管理、容量和变更管理。

3.1 场地设施管理

场地设施管理,通过实时监控动力设备、供配电设备、环境参数,完成数据采集、分析处理、存储、展示,使管理人员实时掌控数据中心的场地设施运行情况,辅助运维团队提升数据中心利用率与可用性。

3.1.1 温湿度监测

通过在机房、配电室、电池间安装温湿度传感器,实时采集环境温度、湿度。通过设定温湿度越限阈值,当室内环境不在IT设备运行的合适条件,系统通过联动空调机组、加湿机、除湿机来调节环境,同时客户端自动切换到故障界面并报警。

3.1.2 空调监控

对空调的风机、泵、加湿器、除湿器、过滤网、送回风温湿度等的运行状态与数值进行采集,可通过管理平台对空调机组进行远程启停机和温湿度值的设定。

3.1.3 漏水监控

通过对机房、配电室、电池间空调机组冷冻水供回水管全程监测,当管路发生漏水时可选择自动切断供水阀门,平台界面自动弹出漏水处画面并显示精确的漏水位置,同时产生报警事件。

3.1.4 配电监测

对机房内配电系统参数进行实时监测,检测内容主要包括输入输出的电压、电流、有功功率、无功功率等参数。实现对各机房及配套设施区域的配电系统参数及设备运行状态进行全面的监控管理。当设备故障或参数越限时,能够在集成系统平台发出实时告警。全面展示配电相关基础设施运行情况,真实反映电力设备分布,直观呈现配电系统的关联关系。

3.1.5 UPS监测

实时监测UPS的输入、输出电压、电流、频率、功率因数、逆变器状态、电池状态、旁路状态、整流器状态以及其他负载保护、在线模式、负载过载等参数、状态。

3.1.6 智能PDU监测

通过监控所有机柜配电单元PDU参数,在平台直观掌握网络设备的功耗等。如通过采集A/B路PDU的输出电压、电流,系统就能获取对应网络设备的实时功率、统计历史耗电量,从而了解各单位、部门、用户能耗。平台可以通过控制端口电源通断实现对服务器的远程电源控制。

3.1.7 新排风机监控

通过日常计划设定,定时启动新排风系统,保持室内空气质量。当检测到室内二氧化碳、氢气浓度异常时,自动启动新排风机与阀门,将危害气体排出。

3.1.8 红外报警监测

通过在重要区域室内侧安装红外微波探测器,无人值守时启动报警模式。当探测到“非法入侵”行为,联动摄像头进行重点录像与抓拍,亦可对出入口管理单元进行联动。

3.1.9 发电机组监测

实时监测发电机的输出电压、电流、功率、油压、水温、转速等参数。

3.1.10 消防监测

实时监测机房内的各消防防区的烟感传感器信号,一旦发生报警,系统自动切换到相应的监控界面,且火警状态图标变红闪烁显示,同时进行报警。

3.1.11 蓄电池监测

实时采集每节电池的电压、内阻、温度。采用先进的内阻测试技术和专家系统分析技术,实时在线分析蓄电池的内阻变化趋势,在线预测电池组中的落后蓄电池,把电池故障排除在萌芽状态。

3.1.12 门禁集成

门禁系统作为安防中的一个重要部分,向集中监控平台提供门禁的各种运行状态数据和独立授权的门禁卡刷卡数据,提供每个门的位置和开/关状态、门的进/出情况报告等。实现集中授权,分区域机房设定权限,实时查看和控制各门的状态,并且记录刷卡、开门与关门等事件的监控功能。同时实现与视频监控系统、消防系统联动。保存门进出信息,可供用户查询指定时间段和对象的门禁刷卡信息。

3.1.13 视频集成

根据摄像头采集的数据,集成视频监控设备,具备处理图像数据、视频接入、浏览、存储、转发、回放等功能,通过平台展现及控制管理。实时监视各路视频图像,通过在电子地图上点击相应图标即可查看该摄像机的当前画面。可实时播放每路视频的实时视频,可显示每路视频的码流信息,在视频画面上可以叠加相应的站名、时间、告警等信息。

3.2 资产管理

在某个安装项目中,服务器上的驱动器和内存被拆下来,误用于另一位经理的项目。没有资产追踪工具记录下此类从机柜拆除设备的活动,该项目的规划出现了缺陷。当项目进入安装阶段时,项目资源已经被用得所剩无几,他们花了一整天的时间来寻找被误用的设备的下落。

而具备资产管理的DCIM,能快速准确对众多资产进行管理和盘点,确保资产数据精准,并能指导运维人员对上架或变更资产放置位置给出建议,充分提高管理效率和数据中心设备设施利用率。对IT资产全生命周期进行管理,实现IT资产全生命周期和使用状态全程定位和跟踪,对资产的数量、库存、上下架、定位、维修、借用、报废、个人占用等关键要素提供丰富的统计分析报表及可视化辅助决策。

3.2.1 资产管理主要特点

(1)过程规范:每个资产的信息全面、流程清晰、责任明确、确保账目与实际相符。以流程为驱动,完整实现资产从购入、发放、维修、借用、转移、收回、报废所有的结果监管,有效保障资产的准确性,提高资产的使用效率。

(2)业务流程化:完善的权限审批流程,所有资产相关的业务都提供完整的流程管理,用户在流程引导下完成日常工作,并可以实时关注事件的进展情况,电子化的办公手段,不再担心人为遗漏。

(3)可靠的数据保障:严格的数据采集和严谨的业务流程,保证了相关数据的准确性,生成的报表文件为用户在资产相关业务操作方面提供完善的数据依据。

3.2.2 资产管理主要功能

资产管理模块,拥有完备的管理体系结构,可以实现出库入库登记、库存预警、库存增删、库存改查的操作、设备台账信息管理、设备上下架管理、设备盘点、调拨、报废等功能等资产全生命周期管理。

资产管理模块,具备完善的流程管理能力,可以根据设备入库、出库、上架、变更、借用等进行工作审批操作,只有在特定权限账号进行审批合格后,事件才会有效,当流程及事件整体操作全部完成后,数据自动同步到后台数据库中。

资产管理模块,可实现资产关联合同编号及维保等相关台账信息,根据信息提醒维保到期、设备保养维护业务等。

资产管理模块具有以下主要功能:

3.2.2.1 数据台账管理

在新增资产并申请入库时,提交入库申请流程。经过审批后,资产入库,并进行入库登记,配置设备资产属性,包含设备附带属性。为资产关联合同编号及维保等相关台账信息,并为资产制作和发放身份证明标签。同时更新资产位置状态属性,完成在库资产的登记工作,建立资产的基础信息台账和库存台账。资产上架使用后,当选中1台设备后,展示设备属性条例,对于IT资产设备,属性中应当包括设备当前活动端口,与下一跳设备端口信息。

根據用户应用要求,在用户提出出库申请,并经过流程审批后,进行设备的上架、领用、借用等属性的变更,并在整个生命周期中跟踪资产的状态,清晰地管理各个IT设备,为日后的具体功能应用打下数据基础。

3.2.2.2 人员管理

建立人员信息管理,赋予超级用户创建、修改、删除用户\用户组。根据用户\用户组对应的设备、应用、物理地址等信息,创建用户策略和权限。根据人员和设备之间的关联关系,明晰责任。

3.2.2.3 资产查询

对于资产的查询,用户可以在权限范围内自由设置筛选条件,包括品牌、应用、所属人员、存放地点、资产状态、服务到期等等。系统提供很多模板,用户可基于模板快速定制化报表。灵活定义各种合适报表格式,使客户能决定采用最可能的方式,将查询结果生成报表,用于深入研究和分析。

3.2.2.4 资产上下架

资产管理子系统,通过流程管控完成设备变更事件。在进行设备上架、迁移、下架等变更时,需提交流程审批,当审批通过后,即可进行相关的操作,同时系统会记录最新操作结果。资产管理子系统可以提供上架推荐和预占功能,为用户推荐最优上架机柜及U位。根据管理平台数据运算,可以对空间、承重、电力、网络、冷量等条件进行上架搜索,从而为用户推荐最佳上架位置,并进行预占审批流程,综合提高数据中心设备设施的利用率。

3.2.2.5 系统报警及提醒

资产管理子系统,对资产日常业务设置了相关的报警和提醒功能。通过报警及提醒功能保障用户对资产日常运维的及时性,报警及预警常用事件包括:系统本身的异常告警;最低库存量资产预警;借用逾期未还资产;到报废期资产;维修维护资产;U位空间、电力、网络等。

综合对日常资产重要业务进行有效的告知提醒,并可根据流程设置,追踪事件的过程和最终状态,保障在日常业务处理中不发生遗漏。对需要标注和设置的内容如:维护完成时间以及下次维护时间、维护周期等,可由管理员进行单独或批量设置。

3.2.2.6 资产的定位及盘点

资产管理子系统,可精确定位IT设备在数据中心的物理位置,具体到设备所属最终U位层级。具体定位方式可以更具定位硬件的不同方式来区分实现,目前常见的有RFID、二维码标签、电子标签方式等。系统可结合相关硬件实现资产快速定位及快速盘点等功能,使数据中心资产追踪管理更加便捷高效。

3.2.2.7 资产报废、变更、维修保养

资产管理子系统,对于资产的变更、报废和维修保养业务,都是采用流程化管理方式实现的。业务生成审批处理等一系列操作都要通过管理系统的预设流程来实现,而且与权限管理密切管理,只有权限范围内才能执行相关操作。

3.2.2.8 资产统计分析

资产管理子系统,可根据用户设定条件,生成各种资产统计报表和分析图形,主要包括:明细报表、趋势图、饼图、雷达图、柱状图等。通过明细报表和相关图形分析为资产的日常管理和决策提供全面和准确的依据。

主要报表包括:①设备数量表,子项查询统计可以按地点、品牌、使用人、状态、应用等多种方式进行分析提供;②资产库存情况表,资产的库存情况汇总分析表、库存年度、季度、月份变化表、结存报表等;③资产使用分析表,可以根据资产的使用、部署、变更、借用、维修、服务到期、报废等子项提供分析报表;④报表方式也可以按用户需求进行组合定制等。

3.2.2.9 资产变更管理

资产管理子系统,对日常的资产属性变化如:状态、使用人、应用、机架位置等,系统提供完整的变更审批流程。用户在进行变更时需按系统指示提供相应的变更申请,在申请批准后方可进行相应的资产处置。统计记录并提供实时跟踪和查询功能,并对不同级别的操作申请制定详细的审批权限。在整个流程进行过程中,系统会根据节点变化,通过邮件及内部信息方式通知相关人员。

3.2.2.10 资产可视化

资产管理子系统,提供三维可视化展示功能,根据现场实际部署方式进行一比一建模,与实物对比所见即所得。系统采取层层渐进的方式,直观呈现设备设施的物理位置,为用户盘点、查找、统计、上下架、迁移等操作,提供现场场景还原,为IT设备管理提供良好的决策依据。

利用可视化展示资产信息,可以做到以下几点:①显示园区、楼层、机房、机柜、U位的层层渐进的展示,图形化TI设备展示;②变更实时刷新显示,与最终现场场景完全一致;③良好的空间、承重、电力、网络展示能力;④对IT设备之间的网络连接提供连线展示;⑤对设备报警采用物理位置提示,根据不同着色闪烁快速提醒故障设备。

4 能效管理

通过准确、详细的服务器级和机柜级能耗信息,深入优化服务器使用率,提高数据中心性能,降低IT系统能耗,以达到更好的可靠性和可用性。

能耗管理,分析細化至机架级的用电量成本,用于计算特定设备的能耗成本,有助于计算电费和编制有效预算。能够监控供电系统设备、IT资产和制冷系统设备使用率和功耗,帮助降低因过度配置、使用率低下,以及数据中心供电和制冷不均衡引发的额外成本。同时持续发现并监控各用电组件,收集数据,跟踪服务器特定信息。这些信息是确保清晰了解数据中心能耗以及它对企业影响的基础。

5 容量和变更管理

数据中心在全生命周期运营中,不断面临着挑战:①下一个服务器的安装位置?②在故障或维护期间,是否仍具备供电或制冷冗余?③是否需要分散部署刀片服务器,以便可靠运营?④如果新增1个服务器,将对现有分支电路有什么影响?⑤新增设备对冗余和安全性有什么影响?⑥现有供电和制冷设备是否能够支持新技术?

在传统数据中心,运营人员只能在有限的、零散的数据基础上,依靠个人经验进行判断决策。譬如,当运营人员试图判断某个机柜上供电容量过载是偶然的异常情况还是发展趋势,他们根据直觉做出判断。如果判断错误,那么当机柜超过电源容量时,断路器会脱扣跳闸。该断路器下游所有执行关键任务应用的服务器都会突然掉电。

而现在,创新的DCIM容量和变更管理,提供数据中心的当前物理状态,并模拟未来添加、迁移和变更物理设备的效果,能够预测新增、迁移、变更设备对空间、供电、制冷、网络、承重容量分配方面的影响。在测量机柜中每个设备的用电量后,根据科学数据做出负载均衡决策,而不是依靠直觉。在断路器脱扣跳闸前发出告警,使得运营者有机会在宕机前作出合理调整。如果某台机柜接近容量阈值,还能够生成预测性模拟选项,并进行评估,以确定最佳的方法来缓解该情况的发生。

容量和变更管理的作用包括模拟结果、规划容量、管理库、工作流程,以及避免局部热点等,让运营者对数据中心整体运营有更长远、更全面的总体认识与规划。IT和业务决策层已经意识到,通过优化物理基础设施规划、进行小规模系统重配置和小幅流程变更,能够节约大量的能源和运营成本支出,并利用历史数据来提高IT机房的未来性能。

6 结论

全文从建设目标、物理架构、系统功能进行分析,对数据中心基础设施管理建设的实现做出阐述。物理架构根据功能分为4层:现场采集单元负责前端传感器和被控对象的参数采集,并将数据实时上传至监控层进行解析与处理;然后将有效数据和告警信息等上传至管理服务层,由管理服务层实现监控业务的日常工作与管理;各子系统对常规异常事件进行联动设定,并将重要的报警信息第一时间以语音、短信、Email、音箱、声光报警、微信的形式通知管理人员,数据与结果通过工作站、智能终端、大屏等多种信息方式进行展示。系统功能分为四大核心模块:场地设施管理、资产管理、能效管理、容量和变更管理。场地设施管理实现对基础设施数据的采集与分析;资产管理实现对IT资产管理的过程规范化、业务流程化;能效管理提供精确的能效指标统计、分析;容量和变更管理提供模拟结果、规划容量、管理库、工作流程,以及避免局部热点等,让运营者对数据中心整体运营有更长远、更全面的总体认识与规划。

到目前为止,该应用项目已经安全、稳定运行3年多时间。通过对数据中心基础设施运行环境和运行状况进行实时监测,做到在提高运维质量的同时,有效降低运营成本,基本解决了该数据中心管理部门所面临的运维管理质量、效益指标等任务。

参考文献

[1] 张成泉.机房工程[M].北京:中国电力出版社,2007.

[2] 林海雄.数据中心的环境监控系统[J].智能建筑与城市信息,2009 (5) :59-62

[3] 数据中心设计规范:GB 50174-2017[S].

猜你喜欢
数据中心基础设施
关于间接蒸发冷机组在数据中心中应用的节能分析
公募基础设施REITs与股票的比较
基础设施投资项目
前7个月国内充电基础设施增加12.2万台
国家发改委首次明确“新基建”范围
2018年数据中心支出创新高
北京科创新型云数据中心
新政府会计准则规范公共基础设施处理
2017第十届中国数据中心大会榜单
财政部对公共基础设施会计准则征意见