基于超融合架构的集群内网DDoS异常流量检测应用

2022-08-03 05:22北方工业大学尚泽昊徐榕鸿杨丽红
数字技术与应用 2022年7期
关键词:集群架构卷积

北方工业大学 尚泽昊 徐榕鸿 杨丽红

超融合架构作为一种快速发展的数据中心核心架构为未来云计算虚拟化的发展发挥重要作用。但是由于超融合集群文件系统是多主集群架构,能够通过任意节点管理整个集群,没有任何独立的管理节点,并且用户可以使用任何浏览器访问Web管理接口,所以如果集群中的节点在加入集群之后出现其他异常状态,或是被恶意攻击,那么对集群中的其他节点甚至整个集群都会造成安全隐患。DDoS攻击是一种常见且长期以来难以检测和预防的网络攻击方法, DDoS攻击视为超融合集群内网安全最大的隐患。本文主要针对超融合集群内网DDoS异常流量检测问题,提出了基于时间特征的异常流量特征提取方法,并使用多核卷积神经网络训练模型对DDoS流量进行识别和检测,实验表明,该DDOS异常流量检测方法具有更高的检测效率和精度。

超融合架构已成为现阶段云计算数据中心的主流架构[1]。云计算基础设施,无论是私有的还是公共的,都由物理计算、存储和网络资源组成,这些资源被集成到一个单一的架构中。抽象层将物理资源集中起来,并将其作为服务交付,应用程序和用户可以通过API或用户界面轻松地配置和部署这些资源。但是,设置基础设施可能是一项复杂而耗时的任务。超融合是基于现有云计算平台的一个提升。基于超融合架构的云数据中心是指大量采用软件定义的技术,将计算、存储、网络与专用硬件实现解耦,实现IT基础架构的真正融合,为云计算数据中心的实施与部署扫清最后一个障碍[2]。

相对于主从架构,超融合集群系统使用多主群架构,没有任何独立的管理节点,用户可以从集群中任何一个节点管理整个集群,所以如果集群中的节点在加入集群之后出现异常状态,或是被恶意攻击,那么对集群中的其他节点甚至整个集群都会造成安全隐患。DDoS攻击是一种常见且长期以来难以检测和预防的网络攻击方法[3],通过消耗被攻击者的带宽或计算资源造成目标计算机网络服务中断或停止,导致正常用户无法访问。DDoS攻击利用超融合集群内节点向超融合集群目标服务器或者目标节点发送大量消息、消耗带宽,阻塞目标服务器以及集群之间的正常通信。为应对DDoS攻击对超融合集群造成的破坏,本文提出了基于时间特征的特征提取方法,对一段单位时间周期内的流量进行收集和分析,提取基于时间特征的样本并根据特征处理数据,然后将数据分为两部分,一部分是数量较大的训练集,另一部分是数量占比较小的测试集,使用数量较大的训练集建立分类模型,然后使用多核卷积神经网络模型对DDoS异常流量进行识别和检测,已达到对DDoS流量具有更高的检测效率。

1 超融合架构

不同于传统架构,超融合架构[4]的主要区别在于超融合架构使用分布式存储,而传统架构是集中式存储, 超融合架构把服务器资源、网络和存储进行了统一融合,即为超融合基本单元,并且这些超融合基本单元搭载在统一管理平台上进行维护;而传统架构则是全部分离的。存储结构上超融合采用分布式存储,传统架构采用了集中式存储,由多个磁盘阵列组成。而在网络上超融合使用万兆以太网网络,而传统架构多使用光纤交换机。这也就导致了在性能方面,超融合架构优势非常明显,可以说超融合破解了传统架构很多的难题,有着传统架构无法比拟的优势,是未来云计算发展的核心架构[5]。

2 DDoS攻击

DDoS针对超融合集群发起攻击,攻击者在超融合集群节点上安装主DDoS控制程序,代理程序已安装在超融合集群外部互联网上的许多计算机上。由于DDoS的网络数据流量庞大复杂,很难及时对这些数据流量进行处理,在复杂庞大的超融合集群业务中,每秒的网络流量数据量级是非常庞大的,但是,当下现有的超融合集群防火墙很难保证超融合内部用户的正常使用,并且防火墙无法高效地对超融合集群网络中指数级的DDoS攻击数据流量进行及时且准确的检测。例如在实际网络中,攻击者对超融合集群内某个主机或者节点发起DDoS攻击时,超融合内部集群会在非常短的时间内产生了及其庞大的指数量级攻击流量数据,这对于超融合防火墙的检测能力和实时处理的性能有很高的要求[6]。因此在当今超融合集群网络环境下更需要一种高效且稳定的能力强大的DDoS检测方法,能够避免DDoS攻击对超融合集群节点造成的安全隐患。

3 基于的时间特征提取方法与多核卷积神经网络模型

针对DDoS对超融合集群的威胁,本文提出的基于多核卷积神经网络的DDoS检测方法,首先通过多核化处理使传统的卷积神经网络能够充分完善的提取复杂的DDoS攻击流量数据的特征信息,之后通过设计基于时间的特征提取方法实现多核卷积神经网络模型的特征提取,提高模型的可扩展性和高精度。

3.1 多核卷积神经网络结构

卷积神经网络是指一种具有深度结构和基于卷积计算,专用于处理网格化数据问题的前馈神经网络[7]。其内部组织结构上一般认为可以被认为是大体理论上至少又应该分为前后三个主要结构层次,分别可命名为输入层、隐藏层、输出层,其中隐藏层、输入层中至少也又应可以被包含为后三个最重要结构层次,分别被命名为卷积层、池化层和全连接层。本文作者将试图从DDoS攻击网络中流量特征数据样本提取及分析算法的一个理论角度上来分析出发,为卷积神经网络模型中的每个卷积操作层分别构建含有不同尺度大小矩阵的卷积多核,得到一个多核卷积神经网络模型作为实现本文DDoS流量特征检测方法的最后一种原始模型,使得每个输入的攻击网络流量数据样本都在经过卷积操作层分析运算后可得到多个包含不同的时间尺度序列及具有不同大小矩阵特征的流量特征矩阵,再进一步研究通过处理并分析结合多个基于时间序列矩阵的数据特征,拼接而得到的流量样本数据即为多个流量特征矩阵数据的组合,该研究的方法将有助于更为充分地和准确的提取计算出的DDoS流量样本特征,进而采取快速且有效的安全高效的处理方法并对这些DDoS流量数据特征进行分类。其中,如图1所示的部分数据为多核卷积神经网络模型的拓扑及结构示意图。

图1 多核卷积神经网络结构示意图Fig.1 Structure diagram of multi-core convolution neural network

在卷积过程中,由于使用了不同大小不同数据长度的卷积核对输入样本进行多核卷积操作,以及使用不同的神经元和学习规则的组合方式,使得每个输出卷积图的大小各不相同。利用池化操作将不同尺度卷积核生成的卷积图大小进行整齐处理,得到融合后的特征集,作为当前卷积层的输出继续在下一层中进行卷积或者全连接操作。

3.2 基于时间的特征提取方法

为提高多核卷积神经网络模型的识别率,提高DDoS流量检测模型识别DDoS异常网络流量的能力,本文设计了一种基于时间的特征提取方法。本文使用网络流量的通用定义,其中网络流量由具有相同值的数据包序列定义:

{源IP,目的 IP,源端口,目的端口,协议}。

DDoS攻击中既包含TCP,也包含UDP。在收集网络流量的同时,我们计算与每个DDoS攻击流量相关的特征。来生成基于时间的特征并计算所有必要的参数。流量产生双向流,其中第一个数据包确定正向(源地址到目的地址)和反向(目的地址到源地址)方向,因此,提取时间相关特征也在正向和反向分别计算。TCP流通常在连接断开时终止(通过FIN数据包),而UDP流则通过流超时终止。流量超时可以由单独的方案任意分配,例如,基于TCP的DDoS攻击流和基于UDP的DDoS攻击流超时时间均为600s。在本文中,我们将流的持续时间设置为10s、15s、30s、60s和120s。如前所述,我们关注与时间相关的特征。在选择与时间相关的特征时,我们考虑两种不同的方法。在第一种方法中,我们测量时间,例如数据流量之间的时间或流保持活动的时间。在第二种方法中,我们固定时间并测量其他变量,例如每秒字节数或每秒数据包数。以下是测量特征的列表和说明,共有21个值:

FIAT(Forward Inter Arrival Time):两个数据流之间正向发送数据包的时间(平均值、最大值、最小值、标准值)。

BIAT(Backward Inter Arrival Time):两个数据流之间反向发送数据包的时间(平均值、最大值、最小值、标准值)。

FLIAT(Flow Inter Arrival Time):两个数据流之间任意方向发送数据包的时间(平均值、最大值、最小值、标准值)。

ACTIVE:在空闲之前处于活跃状态的时间(平均值、最大值、最小值、标准值)。

IDLE:在活跃之前处于空闲状态的时间(平均值、最大值、最小值、标准值)。

Duration: 每秒流的持续时间。

可以看到,除了显示一个流的总时间的持续时间外,还有六组特征。前三组分别为:FIAT、BIAT和FLIAT,分别关注向前、向后和双向流动。第四组和第五组特征根据空闲到活动或活动到空闲状态进行计算,并命名为ACTIVE和IDLE。最后一组主要关注每秒数据包的大小和数量。

4 实验与结果分析

4.1 实验数据

本实验用到的数据集是CICDDoS2019。该数据集是由加拿大网络安全研究所创建的。通过全面回顾现有DDoS数据集,依靠新检测算法和技术生成了一个新的数据集,即 CICDDoS2019,它弥补了当前所有的缺点,是目前最新最权威的DDoS数据集。

4.2 实验结果与分析

我们将实验过程分为两个步骤,第一步对比使用全部特征和使用基于时间特征的DDoS流量数据训练随机森林模型效果的差别,第二步比较利用基于时间特征的数据集采用多核卷积神经网络模型和其他不同机器学习算法进行训练所得模型效果的优劣。并相应地划分数据集:80%用于测试,20%用于验证。在分析的第一步,我们对每个测试数据集(10s、15s、30s、60s和120s)应用不同的特征选择算法,并从加权平均精度和召回率方面衡量其性能。使用Sklearn库中的随机森林模型,结果如表1和表2所示。

表2 实验二结果Tab.2 Results of experiment 2

从表1可以看出,使用基于时间特征的数据集得到的模型效果没有下降,在流持续时间增大的时候精度也在提高,并且召回率也没有下降,训练时间较全部特征数据集下降了近1/2,证明基于时间的特征方法是有效的。

表1 实验一结果Tab.1 Results of experiment 1

从表2可以看出,基于时间特征的数据集使用多卷积神经网络模型训练,得到的准确率高于其他神经网络模型。验证了本文方法对DDoS攻击流量的检测和识别取得了较好的结果。

猜你喜欢
集群架构卷积
基于FPGA的RNN硬件加速架构
基于3D-Winograd的快速卷积算法设计及FPGA实现
功能架构在电子电气架构开发中的应用和实践
海上小型无人机集群的反制装备需求与应对之策研究
从滤波器理解卷积
一种无人机集群发射回收装置的控制系统设计
基于傅里叶域卷积表示的目标跟踪算法
LSN DCI EVPN VxLAN组网架构研究及实现
Python与Spark集群在收费数据分析中的应用
一种基于FPGA+ARM架构的μPMU实现