基于马尔可夫时变模型的流量数据挖掘

2018-03-02 17:29叶德忠巫忠正蒋勇
软件 2017年9期
关键词:网络流量时变神经元

叶德忠+巫忠正+蒋勇

摘要:随着网络技术的快速发展,目前网络的规模很大且有较大的复杂性,因此网络管理变得越来越困难和复杂,因此流量预测在网络管理中发挥越来越重要的作用。针对实际网络中收集到的大量实际流量数据,提出了一种基于时变网络的自适应网络流量预测算法,采用自适应学习率法,根据总误差增减变化趋势以及不同的改变来调整适应率;然后根据正向和反向的计算来校正各层的权重。仿真结果表明,与传统的时变网络相比,基于传播时变网络的自适应流量预测算法在预测结果中具有更好的性能,并具有较小的误差。

引言

传统的网络流量模型对数据中存在的大量冗余属性和噪声数据处理并不到位,使得模型系统存在占用资源多,运行效率不高等缺点。因此需要研究出能对数据特征进行约减,同时保证较高精度的流量模型。受人类大脑中的学习过程的启发,时变网络(TNN)在许多科学领域被采用,它利用互连的数学节点或时变神经元来形成网络来建模复杂的函数关系,可以帮助认知科学家了解时变神经系统的复杂性。时变网络模型中最受关注的是马氏反馈时变网络,它使用三层形式的时变网络结构,输入时变神经元层,隐藏时变神经元层和输出时变神经元层。

本文考虑到MARKOV可以以更好的泛化和容错能力操作,在网络流量异常后,提取特征向量,根据这些异常数据流的分析和处理,可以完全准确地表示数据流,然后将这些特征向量作为时变网络输入提交给时变网络引擎。时变网络引擎分析和处理这个特征向量以确定行为是否是入侵,如果是攻击,则它将向用户发送警告消息并将该信息记录在日志文件中。如果攻击者提高和更新样本库的报警信息具有很大的价值,例如,发现了一种新型的攻击行为,可以在攻击样本库中添加报警以准备进一步学习,从而可以增加时变网络的处理能力。本文方法可以解决传统流量模型和算法会受到属性冗余影响的缺陷,在保证运行效率的情况下,提供了较高的准确率。

1 MARKOV时变网络模型

MARKOV时变网络模型是一个全连接的时变网络,包括输入层,隐层和输出层。训练过程的目的是找到最小化一些总体误差测量的权重、平方误差(SSE)或均方误差(MSE)。网络训练实际上是一个无约束非线性最小化问题。

对于网络流量的预测,网络流量的序列号与多步相关联,即当前采样流和过去采样周期之间存在一定的关系。设xk(k=l,2...N)表示第k个采样间隔的p个流(p≥1)的预测模型,则步骤k+l(1≥1)定义为:

即,f是第k+1个采样间隔的第k+1个流和其之前的p个流之间的关系,f是非线性函数。

由于时变网络层中的连接权重的初始值是任意的,必须训练时变网络以确保期望输出值和实际值之间的偏差尽可能小,MARKOV时变网络反向发送实际输出的样本到层的时变神经元,不断地使用梯度下降法调整层的权重,以减少由权重引起的误差,确保训练样本的实际输出和时变网络的输出之间的误差在设定范围内的限制或训练的数量是最大的。其中n是样本数。调整权重。采用梯度下降法求解最小误差函数,

为了测试预测性能,本文使用一些指标等来测试预测性能,包括平均绝对误差(MAE),均方误差(MSE),误差平方和(SSE),标准均方误差(NMSE)。

2 分离预测

本文采用白适应学习率法和改进的训练算法对各层进行分离预测。自适应学习率法的基本原则是:当学习率(η)增加时,会降低学习时间;学习率越高,越难收敛,在这种条件下,应该降低学习率直到训练过程收敛。通过误差和梯度的变化以及根据误差函数的学习速率的梯度来调整学习速率,此外,通过启发式调整来进行总误差的改变,规则如下:

(1)如果总误差(E)降低且变化比τ△wij要大,则学习率就会增加;否则学习率不变。

(2)如果总误差(E)增加且变化比τ△wij要大,则学习率就需要降低。即:

其中d是E(k+1)和E(k)差的绝对值,叩是学习率;k是训練时间:E是公式(6)所示的误差函数。

(2)数据预处理

所有的训练数据重新调整到一个特定范围的时间序列来预测问题。当利用取值为极端值时,传递函数的梯度将接近零,因此会使得训练放慢.为了克服极端事件,一些研究表明将数据缩放转换成小间隔[0.1,0.85](或[0.1,0.9])。本文运用实验数据处理方法,能将所有的训练集缩放到[0.1,0.9]的范围内,如下:

其中x,是观察到的值,xmin和xmax分别表示数据系列的最小和最大值。

综上所述,改进的训练算法描述如下:

步骤一:初始化方向传播时变网络层的全重wm/ij

步骤二:使用训练集去训练马氏反馈时变网络。重复以下的步骤直到满足规定误差为止;

第一:计算每一层时变神经元的aik,bik和X。重复操作过程:在m层计算你每个时变神经元的δik。

第二:使用以下公式校正权重:

这里的η(k+l)是学习率,可由公式(12)计算得到,根据误差函数和变化的趋势,它可以动态的调整每一个k。

步骤三:(Xk,xk-1,Xk-p+1)是马氏反馈时变网络的输入,输出是第k+l个流量差分的预测。

步骤四:样本的描述向前移动一步,到第二步继续预测。

3 实验验证

为了比较预测的误差,在相同的情况下,分别运行了10次传统MARKOV时变网络和改进的MARKOV时变网络,并假设在实验中误差为0.0001,得到10次预测值的平均值,传统MARKOV算法的MES为0.0163,MAE为0.1973,SSE为0.3261,改进的MARKOV算法的MES为0.0038.MAE为0.0521,SSE为0.0762。其中,MSE是均方误差,SSE是误差平方和,MAE是绝对平均误差,NMSE是归一化均方误差。实验l使用传统MARKOV时变网络算法预测网络流量,图2是预测试验曲线。实验2使用改进的马氏反馈时变网络算法预测网络流,图3是预测试验曲线。其中实线代表网络流量的实际值,虚线代表的是预测值。

结果可看出,改进的MARKOV时变网络算法在网络流量预测中有更好的性能。其中,如果MSE和SSE更小,这表示它对网络流量有更高的适应性;如果MAE变低了,这就意味着网络模型的预测效果更好,最大相对误差能代表预测方式的风险程度。表l的实验结果表示该改进的MARKOV时变网络算法具有最大MSE,意味着它具有比传统的MARKOV时变网络算法更加稳定可靠。从图2和图3测试结果能有效反映的两种算法的趋势,改进的MARKOV时变网络算法的预测更准确。

4 结语

针对实际网络中收集到的大量实际流量数据,提出了一种基于时变网络的白适应网络流量预测算法,采用白适应学习率法,根据总误差增减变化趋势以及不同的改变来调整适应率;然后根据正向和反向的计算来校正各层的权重。仿真结果表明,与传统的时变网络相比,基于传播时变网络的自适应流量预测算法在预测结果中具有更好的性能,并具有较小的误差。endprint

猜你喜欢
网络流量时变神经元
基于多元高斯分布的网络流量异常识别方法
《从光子到神经元》书评
基于神经网络的P2P流量识别方法
跃动的神经元——波兰Brain Embassy联合办公
AVB网络流量整形帧模型端到端延迟计算
烟气轮机复合故障时变退化特征提取
基于二次型单神经元PID的MPPT控制
基于MEP法的在役桥梁时变可靠度研究
毫米波导引头预定回路改进单神经元控制
网络流量监控对网络安全治理的重要性