基于Attention 机制的GRU 交换机故障研判方法

2023-08-22 01:24张建功
通信电源技术 2023年11期
关键词:步长交换机运维

李 宁,张建功,刘 学

(国网河北省电力有限公司 沧州供电分公司,河北 沧州 061000)

0 引 言

为提高交换机故障研判的精度,文章提出了一种基于Attention 机制的门控循环单元(Gated Recurrent Unit,GRU)故障判断模型,采用GRU 模型从交换机故障前10 min 的内存占用率、中央处理器(Central Processing Unit,CPU)使用率以及风扇转速等数据中提取故障类型特征向量,进行建模学习,并引入Attention 机制为不同隐藏状态设置不同的权重,增强网络模型,该模型旨在快速判断交换机故障类型。通过实验证明,该方法具备更高的交换机故障判断准确性,可以帮助网络运维人员快速发现和解决交换机故障,提高网络的稳定性和可靠性。

1 相关工作

在网络故障判断领域,很多研究者使用机器学习、深度学习等技术来实现网络故障的自动判断和诊断。其中,基于神经网络的方法具有很好的效果与应用前景。

常见的交换机故障分为硬件故障和软件故障,其中硬件故障包括电源故障、端口故障、模块故障、线缆故障以及背板故障等;软件故障包括密码丢失、系统错误、配置不当以及外部因素等[1]。在交换机故障判断方面,也有一些研究者使用神经网络等技术进行研究。例如,邓科等人使用BP 神经网络对交换机故障进行诊断,并进行了实验验证[2]。侯晓凯使用神经网络对网络设备的CPU 使用率进行预测,可以帮助运维人员更好地了解交换机的负载情况[3]。

然而,这些方法在实际应用中还存在一些局限性。例如,一些方法需要收集大量的数据进行训练,且在不同的网络环境中可能会出现一定的误判情况。交换机故障的诱发原因很多,排查范围很广,因此排查故障原因较为困难且对运维人员的技术和经验水平要求较高,采用深度学习算法辅助运维人员快速判断交换机故障类别,提高交换机运维效率。本文提出了一种新的基于神经网络的交换机故障判断方法,旨在提高判断的准确性和实用性。

2 基于Attention 机制的GRU 模型

2.1 研判模型概述

神经网络是一种模拟人类神经系统的计算模型,它由多个神经元组成,并通过权重和偏置等参数进行计算和学习。本文使用了一种基于Attention 机制的GRU 模型来实现交换机故障判断。

GRU 是长短期记忆网络(Long Short-Term Memory,LSTM)的变体,能够有效处理高维时间序列数据,其核心是通过引入一个反馈连接,将神经元的输出作为下一时刻的输入,因此在处理序列数据时可以保留先前的信息。GRU将LSTM的遗忘门、输入门、输出门简化为更新门和重置门,加快模型的计算速度,解决深度学习模型运算速度慢的问题,从而减少模型阶段性重训练时间成本。在交换机故障研判中,文章使用GRU 模型能够提高对交换机历史数据的利用率和输出的准确性,可以在保留先前信息的同时考虑后续数据的影响[4,5]。

2.2 研判模型结构

本文所提模型结构如图1 所示,基于Attention 机制的GRU 模型可分解为输入层、GRU 层、Attention层和输出层。

图1 模型结构

2.2.1 数据预处理和特征提取

本文使用了真实的交换机数据集进行实验验证。该数据集包含了交换机故障前10 min 的内存占用率、CPU 使用率以及风扇转速等数据,每个交换机的数据长度为600 个时间步长。在使用数据集之前,需要对数据进行预处理和特征提取,以便于神经网络的训练和学习。

具体来说,首先对数据进行归一化处理,将数据的取值范围限制在[0,1]。其次,将数据集按照时间步长进行切分,每个时间步长的数据作为一个样本。对于每个样本,提取了以下特征。

均值:每个时间步长的数据平均值。

标准差:每个时间步长的数据标准差。

3.1 苗床准备:筛选田园土,腐熟马粪,大粪按5∶4∶1比例配制,并按每15千克营养土加80%代森锰锌5克混合均匀,按所需苗床面积铺10厘米厚营养土,整平待用。

最小值:每个时间步长的数据最小值。

最大值:每个时间步长的数据最大值。

这些特征可以反映出交换机在故障前10 min 内的性能状况,有助于神经网络学习交换机故障的模式和规律。

2.2.2 GRU 层

GRU 是循环神经网络(Recurrent Neural Network,RNN)的一种,其输入输出结构与普通的RNN 一样的,其计算效率和训练效率高。GRU 的内部结构如图2 所示,其计算过程如下所述。

图2 GRU 内部结构

图2 中:rt为重置门;zt为更新门;ht-1为上一节点传输下来的状态;xt为当前节点的输入;σ为Sigmoid 激活函数;RELU 为Relu 激活函数。

重置门表达式为

候选隐藏层状态表达式为

更新表达式为

式中:⊙为矩阵对应元素乘积操作;Wxr、Whr、Wxz、Whz、Whx、Whh为对应的权重;br、bz、bh分别为rt、zt、t对应的偏置向量。GRU 使用一个门控单元zt同时进行遗忘和选择性记忆;(1-zt)⊙ht-1是对原本隐藏状态的选择性遗忘;zt⊙是对当前节点信息的选择性记忆,zt∈(0,1);zt趋近于1 则记忆的越多,越趋近于0 则遗忘的越多。

2.2.3 注意力机制

Attention 机制是一种模拟人脑将注意力着重放在重要信息的一种行为,可以对输入特征赋予不同的权重,从而加强重要信息的影响,其权重计算过程为

式中:St为Attention 层t时刻的输出;⊙为矩阵对应元素乘积操作;Wa为对应的权重,ba为偏置向量。

2.3 模型的训练与优化

文章使用TensorFlow 深度学习框架来实现GRU网络模型,并使用交叉熵损失函数进行模型的训练,使用Adam 优化器对模型参数进行更新,并设置合适的学习率和批次大小等参数。

为了防止过拟合,本文使用了一些常见的正则化技术,如L1 和L2 正则化、Dropout 等。此外,本文还使用早停法防止模型在训练过程中出现过拟合情况。

3 算例分析

为验证所提方法的可行性和有效性,文章在一台机房的交换机上进行实验,将其故意设置成2 种不同的故障状态:一种是端口故障;另一种是链路故障。本文使用交叉验证的方法,将数据集按照4 ∶1 的比例分为训练集和测试集,训练集用于训练模型,测试集用于评估模型的性能。

实验结果表明,本文提出的基于Attention 机制的GRU 交换机故障判断方法,在判断故障类型和故障时间等方面均取得了较好的效果。端口故障和链路故障的判断结果对比如图3 所示,模型的准确率分别为94.23%和91.67%。根据混淆矩阵计算F1 得分如图4 所示,分别为0.95 和0.92。在故障时间的判断上,模型的平均误差在5 min 以内。

图3 准确率变化折线

图4 F1 得分

通过分析实验结果发现,在故障判断中,CPU使用率、内存占用率等特征的影响最为显著。这表明在交换机故障判断中,这些性能指标是比较重要的参考依据。

4 结 论

本文提出了一种基于Attention 机制的GRU 交换机故障判断方法,该方法能够利用交换机故障前10 min 的CPU 使用率、内存占用率以及风扇转速等数据,对交换机故障进行快速判断。实验结果表明,该方法在判断故障类型和故障时间等方面具有较好的效果,可以为网络管理员提供快速的故障判断和处理方法。在未来的研究中,可以考虑结合其他监测数据和技术,如网络流量监测、异常检测等,来提高交换机故障判断的准确性和鲁棒性。同时,也可以探索一些新的神经网络模型和算法,如卷积神经网络等,来进一步提高模型的性能和可靠性。

猜你喜欢
步长交换机运维
基于Armijo搜索步长的BFGS与DFP拟牛顿法的比较研究
运维技术研发决策中ITSS运维成熟度模型应用初探
修复损坏的交换机NOS
风电运维困局
杂乱无章的光伏运维 百亿市场如何成长
使用链路聚合进行交换机互联
基于ITIL的运维管理创新实践浅析
基于逐维改进的自适应步长布谷鸟搜索算法
PoE交换机雷击浪涌防护设计
一种新型光伏系统MPPT变步长滞环比较P&O法