基于新一代用电计量类业务系统运行诊断监测和维护技术研究

2023-03-21 12:50安徽南瑞中天电力电子有限公司孟元钱立鹏何义赟周云鹤
电力设备管理 2023年1期
关键词:日志运维用电

安徽南瑞中天电力电子有限公司 孟元 钱立鹏 何义赟 周云鹤

1 背景和意义

1.1 研究背景

面对新形势、新挑战和新要求,用电计量类业务公司按照“感知数据总入口、控制指令总出口”的系统定位,聚焦“全量数据按需采集、设备状态动态感知、台区能源柔性控制、数据灵活高效共享”四大核心业务主线,以“量测、感知、控制、共享”为切入点,主动应对“双高、双峰”问题,构建性能卓越、功能丰富、安全稳定的新一代用电计量类业务系统、能源互联网营销服务系统,使之成为公司“碳达峰、碳中和”行动方案的重要落脚点和以能源互联网为核心构建新型电力系统的着力点。

用电计量类业务系统是电力行业规模、技术复杂度和实用化程度较高的核心信息系统,为营销、生产、调度、安检等专业提供各项基础数据,有效支撑了计量资产闭环管理、电费核算、线损管理、配网抢修等各项业务的开展。随着新型电力系统的建设推进,对新一代用电计量类业务系统的业务支撑能力和可靠稳定运行提出了更高的要求。

1.2 研究意义

新一代用电计量类业务系统运行监控方面应用成熟的大数据、人工智能、云计算等技术,加强核心技术组件的运行监控服务,构建完善的备份恢复策略、安全控制、运行管理监控、故障智能处理等容错能力,保障终端设备不间断接入、业务不间断访问和数据不间断共享,全面支撑新一代用电计量业务系统的“数据多样化、采集实时化、信息互动化、业务增值化”发展趋势,全面服务市场能源交易生态,服务智能电网运营生态,服务末端精益运维生态,服务绿色能源低碳生态,服务营商环境优化生态,全力助推用电计量类业务系统平稳有序的向数字化转型和智能化升级。

1.3 国内外研究水平

1.3.1 国内外同类产品研究现状

在国网层面,用电计量类业务系统已于2015年开展了用电信息采集主站性能在线监测的研究,并将在线监测与用电信息采集系统集成并配套使用。该系统在线监测的对象在实际应用中仅限于系统主站软件和硬件,软件包括中间件、数据库管理软件、操作系统软件、采集前置程序;硬件包括采集系统应用主机服务器、数据库服务器、前置服务器和网络交换设备。但该功能缺乏可全面推广实施的应用性能管理解决方案,缺乏可工程化及可实用化的应用性能管理和分析手段,缺乏对用电信息采集系统各种异常日志的分析及提炼并预警的分析功能,缺乏对关键业务指标监控,缺乏针对采集系统各类大数据架构组件的监控兼容性,缺乏事件预警分析和故障处理指令自主执行和推送等缺点。

1.3.2 发展趋势

新一代用电计量类业务系统的建设启动在设计原则上遵循“架构普适前瞻、技术稳定先进、功能独立扩展、界面量身定制”设计理念,将广泛应用大数据、人工智能、云计算等技术,构建弹性扩展、平滑升级、稳定可靠的技术架构。新架构背景开发设计的系统运行诊断监测及维护技术的研究及应用在运行环境监控、软件平台监控、应用软件监控、关键指标监控、事件预警和自动化处理等方面提供了重要的运行诊断监控手段,为信息化运维提供有效的性能和业务支撑工具,支撑用电计量类系统开展数字化运维,使得业务运行高效管控,为系统推广和实用化提供重要保障。

2 总体思路

2.1 总体架构

新一代用电计量类业务系统运行监测应用先进人工智能技术,通过全方位立体化监控,集数字化运维服务,统一事件管理等组件,打通监测与业务应用,在满足快速响应前台的变化和创新需求的同时,保障业务系统稳定可靠运行,支撑系统开展数字化运维与业务运行高效管控。

新一代用电计量类业务系统的运行监测由采集层、存储层、分析层、业务层和展现层组成。采集层基于Prometheus 和Cloudera Manager 收集各类组件和中间件的运行日志,将异常信息写入消息总线。存储层通过“读写分离”将日志存储在ElasticSearch 和Hive 中,满足日志复杂查询和在线分析的需求。分析层运用流处理程序、人工智能算法,将不同节点、关键指标、运行环境异常信息与应用程序进行融合和实时分析,研判告警发生时间、持续时间和严重等级,研判对系统运行和业务的影响范围。业务层根据告警推送策略,主动推送至系统主页、App以及短信通知运维人员、业务主管等相关人员,同时支持日志、告警的查询、统计和分析。展现层支持将告警信息、监控指标等信息,以大屏、移动端桌面PC等方式进行展现。

2.2 技术选型

新一代用电计量类业务系统基于组件监控(Prometheus)、全链路监控(SkyWalking)等服务组件,构建运行状态监测、异常实时监测、主动告警与异常处置等能力,实现系统资源、技术组件、应用服务的统一监控。

2.3 功能架构

运行监控能力支撑系统可以对生产应用、交互服务的各类软硬件资源和服务实现一体化监测与管理。资源监测可以对基础资源的使用情况和健康程度进行实时监控,并提供历史状态查询。组件监控对系统内大数据组件、中间件、微服务、容器等组件实现统一形式的状态捕获,对系统各组件服务的运行状态、健康情况等实现一体化监测与管理。业务监控对微应用、计算应用进行实时监控,在对任务执行状况监测的基础上,实现业务指标的跟踪监测。日志监测可以提供统一的日志收集、处理、分析、检索能力。告警预警结合各维度监控信息,结合日志分析,提供告警规则的配置与实现,支持邮件、短信等多种告警形式,并提供可扩展接口,满足不同网省的差异化需求。支持通过大屏、PC 端、移动端(App掌机、企业微信)等媒介进行展现[1]。

2.4 业务架构

对平台、组件、系统软件和运行环境进行日志采集,为开展智能研判提供基础数据。通过消息中间件实现日志的读写分离、快速存储和高效查询。基于告警信息汇聚,运用流处理和人工智能技术对网络层、系统层、平台组件层、统计层、应用程序(微应用)做实时监测与分析,并对告警进行汇聚,开展告警综合分析,为后续系统灾备切换提供可判断的依据。

2.5 流程设计

结合系统业务应用层、中间件层、平台层的日志和告警信息,推送消息中间件进行实时分析,分析结果用于系统运维、故障消缺和异常处理,为新一代用电计量类业务系统的自动化运维、同城灾备提供辅助支持功能。基于多维监测信息,统一设计告警配置,利用AlertManager 实现多维告警信息聚合、过滤,结合消息中心和告警处理流程设计,实现告警信息的发布、推送及处理闭环,形成告警管理综合体系。

3 功能设计

3.1 综合监测

综合监测是新一代用电计量类业务系统运行监测的基础功能,也是核心功能。通过设定监测指标,对监测对象的运行状态及性能进行监测,包括监测首页、K8S 监测、微服务监测、调用链监测、任务关联监测、组件监测、基础资源监测和大数据组件监测等。通过集成大数据、微服务、基础资源、关键业务、K8S 等监控信息,展示各类集群、节点、服务和业务指标的输出信息。采用集成自研图形工具如KubeSphere、skywalking、springbootAdmin、Prometheus+grafana、cloudrea manager等第三方开元软件实现[2]。

3.2 资源关系管理

通过各资源拓扑结构展示集群、服务器、组件、应用之间的拓扑关系,可实现新增集群、新增服务器、新增组件、新增应用的方式完成一键诊断、因素分析、新增资源、更新拓扑以及发布的功能,便于运行监控资源关系的管理维护。

3.3 告警管理

告警管理分为告警记录和告警工单监控,可对系统、组件、应用等多维度汇聚的监测信息进行综合分析,发现影响系统运行的问题并进行告警。应用场景方面为基础资源扩容更新、组件升级、程序优化提供支撑,实现异常告警处理与消缺,为系统灾备切换提供辅助决策依据。技术特征方面建立监测告警基线模型,支持监控信息的综合分析、预警、告警、告警处理机制、异常等级划分、多渠道实时推送告警信息及统一的监测告警视图。

3.4 消息中心

消息中心提供统一的消息配置,将消息按照指定规则推送到指定终端,并对这一过程进行链路、业务监控和输出运维与运营报表的综合功能模块,利用消息分类、消息内容、发送时间、状态等条件,展示消息分类、消息标题、消息内容、状态等信息。可实现对消息分类、消息模板、消息发布及配置的新增、删除、修改,可实现针对不同使用人群的新增消息普通推送、模板推送和主题推送。

3.5 配置管理

提供监控告警和预警策略、处理策略的配置功能,提供事件等级配置和告警发布配置功能,允许根据事件和故障等级实现消息订阅,实现告警和故障实时推送和提醒,可实现对各类监控、告警规则的新增、删除、修改和启用停用功能。

3.6 日志管理

日志管理分为审计日志、业务日志、用户操作日志、第三方接口日志、页面停留日志、异常日志、运行日志、服务运行日志、API 网关日志、大数据日志等。基于Prometheus、Cloudera Manager或者其他大数据平台日志采集软件,针对应用程序开发的探针,实现对服务器、大数据平台、微服务器、容器、技术组件、运行程序和关键业务的日志信息采集,将日志信息送入Kafka,实现入库存储和实时分析。同时,管理页面可实现对各个节点日志采集情况进行监测,提供查询和删除操作。

4 结语

新一代用电计量类业务系统运行监测以数据为基础、以算法为支撑、以场景为导向,采用先进的实时海量大数据处理方法和机器学习等人工智能技术,通过研究轻量级、低侵入、松耦合的立体化监控[3],集成管理工具集、数字化运维服务、统一事件管理等模块化组件,实现了运行诊断监测与前台业务应用之间的信息和管理联系,提升了系统运行数据能力支撑和系统可靠性。运用各类数据采集软件,实现对用电计量类业务系统的平台、组件、程序和指标等资源进行日志信息的全覆盖、全采集,构建全域数据感知。运用流处理技术实时检测出系统的异常情况,运用故障诊断模型对异常进行综合分析与故障诊断,定位故障节点及影响范围,运用故障预测开展磁盘异常预测、服务器及程序故障预测等工作,实现系统故障智能分析。以异常分析与故障诊断为基础,通过构建故障运维智能处理模型,自动触发预定义规则脚本,依据监测的系统数据及对数据的综合分析,自动发出运维指令执行相关运维操作,故障消缺智能运维监控工作。

猜你喜欢
日志运维用电
一名老党员的工作日志
安全用电知识多
扶贫日志
对输配电及用电工程的自动化运行的几点思考
运维技术研发决策中ITSS运维成熟度模型应用初探
为生活用电加“保险”
用电安全要注意
雅皮的心情日志
风电运维困局
杂乱无章的光伏运维 百亿市场如何成长