基于数据流势能特征的分布式拒绝服务隐蔽流量检测

2015-02-20 08:15穆朝阳张良春
计算机工程 2015年3期
关键词:网络流量势能数据流

吴 娜,穆朝阳,张良春

(中国船舶重工集团公司第七一三研究所,郑州450000)

基于数据流势能特征的分布式拒绝服务隐蔽流量检测

吴 娜,穆朝阳,张良春

(中国船舶重工集团公司第七一三研究所,郑州450000)

在分析分布式拒绝服务(DDoS)攻击现状与发展趋势的基础上,提出一种基于时间序列的网络数据流量势能分析模型,并构造相应的网络流量势能序列。利用自回归模型拟合得到网络数据流量的多维参数向量,以此为依据描述单位时间内网络数据流量势能的稳定性。采用基于支持向量机的方法对网络数据流量的特征参数向量进行分类和训练,获得与训练模型相匹配的最优网络数据流量势能集,实现对不同DDoS攻击方式的流量特性的准确描述。基于DARPA数据集、IXIA 400T网络测试仪等软硬件设施,构造真实且具有分析价值的网络环境,对网络流量势能分析模型进行验证,并与DDoS攻击流量的识别精度、识别率等关键指标进行分析对比实验,结果表明,该模型对DDoS攻击具有较高的检测精度和较优的检测质量。

网络流量势能;分布式拒绝服务攻击;时间序列;流量检测;支持向量机;DARPA数据集

1 概述

高速广泛互联的计算机网络给人类的生产、生活带来了极大便利,推动着人类社会的进步与文明的发展,但也为各种网络攻击活动创造了有利的条件。分布式拒绝服务[1](Distributed Denial of Service,DDoS)攻击因实施手段多样、检测困难、攻击效果明显、危害影响巨大等特性[2],成为当前网络世界主流的攻击手段。DDoS指借助于客户/服务器技术,将多个计算机联合起来作为攻击平台,利用应用层协议的技术缺陷或机制漏洞[3-4],对一个或多个目标发动DoS攻击,从而成倍地提高拒绝服务攻击的

威力。DDoS攻击手段已经对网络的安全造成了重大威胁。2013年底,据DDoS防御商Prolexic公司统计:如今攻击者更针对于应用层来设计DDoS,这类型事件在2013年的第三季度同比增加了2倍[5],而反射攻击更是同比增长了260%,攻击Spamhaus的DNS放大DDos的流量达到了300 Gb/s。2014年2月13日,另一家提供防御DDoS攻击服务的云计算公司Cloudflare遭遇了史上攻击流量最大的DDoS攻击,攻击的峰值流量超过400 Gb/s,一个100 Mb/s的伪造NTP流量就导致被攻击目标接收到5.8 Gb/s的恶意流量。这些攻击案例普遍具备流量隐蔽特征,极大降低了被检测系统发现的概率,因而能突破安全防御设施的屏蔽,造成重大损失。

为了防范和抵御DDoS攻击,人们也提出多种检测模型来区分服务请求的数据流是否恶意。文献[6]构建数据流的Management Information Base,对其中重点项进行因果关系检测,从而探测攻击流。这种方法实现较为简单,但样本流量的训练时间较长,实时检测能力欠缺;文献[7]通过对数据包进行数据包选项的时间序列分析来判断是否有攻击流产生,检测精度较高,但频繁的流量取样计算资源消耗过大,难以适应大吞吐量的高速网络数据;文献[8]则根据服务请求的分布函数来判断数据流是否为DDoS攻击流,能够快速给出数据流属性分析,但误报率过高;文献[9]则从网络数据包载荷的熵变化来探测数据流属性,以此区分正常应用层服务请求和DDoS攻击,具有较高的探测精度,但逐载荷的熵变化计算占用服务节点大量计算资源。文献[10]提出一种改进的基于网络流量自相似性检测算法,采用小波分析的方法计算网络流量的Hurst指数并引入信息论中的信息熵对源IP地址的分散程度进行度量,能够根据初始阶段Hurst指数及熵值的变化自适应地设定阈值以检测攻击的发生,但其网络流量的Hurst指数度量因子限于IP地址参数,检测能力的完备性欠缺。

本文对网络数据流进行等时间间隔采样,计算数据包元组(源IP地址,目的IP地址,源端口号,目的端口号,协议号)的熵值,根据元组中不同元素对网络流量特征的影响权重,为各元组分别设定对应的权值,并将该权值与计算的数据包元组熵值进行乘积求和,得到网络流量势能序列,并提出一种基于时间序列的流量势能分析模型,利用AR自回归模型拟合得到多维参数向量来描述单位时间内网络流量的稳定性,对不同DDoS攻击方式的流量特性进行准确描述。

2 网络流量势能及特征分析

2.1 网络流量势能定义

通过分析网络层及应用层的DDoS攻击数据流可发现,数据包中的协议号、源IP地址、目的IP地址等选项的统计值呈现出较强的相似性,在不同数据流中端口号等选项的统计值呈现出规律性分布。在小时间尺度下,采样数据流量的结构稳定性会受到影响。引入物理学中势能的概念,合法网络数据流的流量势能在小时间尺度采样下呈现相对稳定的特性,而DDoS攻击数据流的数据包结构统计所呈现的某种分布会对网络流量结构造成不稳定影响,例如某个源端口号的分布出现“抖动”。通过对这些影响的特征分析,能够检测隐蔽的攻击数据流。本文给出表征网络数据流稳定性的流量势能NFPE (Network Flow Potential Energy)的定义及特征分析方法。

定义1E=(s1,s2,s3,s4,s5),其中,s1,s2,s3,s4,s5是对某个网络数据流会话进行单次采样的五元组元素向量。设单次采样的数据包数量为n,则s1为向量(p1,p2,…,pn),其中包含n个数据包源端口号,s2为向量(d1,d2,…,dn),其中包含n个数据包目的端口号,s3,s4,s5分别为包含了n个数据包的源IP地址、目的IP地址、协议号的向量。

定义2 计算向量E内元素熵值:

当采样数据包的数量为n时,熵值取值范围为(0,lbn)。如果采样所得的五元组信息完全相同,那么熵值取最小值;如果采样所得的五元组信息互不相同,那么熵值取最大值。熵值大小反映了单位数据流中网络流量势能的稳定性。

2.2 基于时间序列的网络流量势能分析

基于IXIA 400T网络测试仪重放DARPA数据集来模拟真实网络环境,在其中分别嵌入具有重复特征的端口号、IP地址、协议号选项的数据包所构成的数据流。测试获得各组时间序列与正常网络流量时采样时间序列之间的随机变量特征,如表1所示。通过对表中数据分析可以发现,当嵌入重复源端口号和协议号的数据流后,基于时间序列的网络流量势能期望值相对变化幅度不大,序列离散程度相差不多;当嵌入重复目的端口、源IP地址和目的IP地址的数据流量后,网络流量势能期序列期望值较正常网络流量时下降幅度较大,序列离散程度基本不

变,相关系数明显降低。

为了放大这些随机过程特征以便于区分不同的攻击类型,取目的端口号、源IP地址和目的IP地址对应权值β,γ,ε分别为0.35,0.27和0.28,源端口和协议的权值α,μ分别为0.04和0.06。

表1 流量特征参数

对流量进行等时间间隔Δt的采样,计算每次采样数据的NFPE值,构造时间序列F(N,Δt)={xi,i=1,2,…,N}。计算时间序列的自相关系数:

其中,是流量样本采样时间内的数学期望;ai为流量样本序列中第i个样本值。根据实验数据,通过式(2)计算出采样流量的NFPE值,并构建对应的时间序列,然后通过式(3)计算出序列自相关系数,结果如图1所示。

图1 时间序列自相关函数

由图1可知,网络流量采样序列的自相关系数随阶数k的增加而快速下降,并最终将为0。这说明该网络数据的流量势能是平稳的。基于自回归模型(AR模型)或滑动平均模型(MA模型)可进一步对网络数据流量势能进行时间序列参数拟合。AR模型的可逆性无需依赖任何附加条件与参数,诸如网络环境干扰因素等,因此本文选择AR模型进行网络数据流量势能的序列参数拟合。

3 流量生成模型

F(N,Δt)={xi,i=1,2,…,N}是网络流量势能的平稳序列。为便于实时计算,降低对网络节点计算资源的消耗,本文约束AR(2)模型阶数p的取值范围:

当p=2时,网络流量势能的时间序列二阶自回归模型为:

模型记为A(z)x(t)=ε(t),记γ(t)=Ex(t1+t)x(t1),将式(4)两端乘以x(t-k),k>0,并取均值,由于Eε(t+j)x(t)=0,j>0可得出:

特别地,取k=1,2,…,p。可得关于(a(1)a(2)…a(p))的方程组如下:

或记为:

拟合的参数序列,可作为对当前状态的一个多维空间描述。通过AR模型的NFPE时间序列拟合,可以将NFPE时间序列变换为多维空间的向量,识别流量状态可转换为支持向量机的分类问题。

4 基于SVM的最优流量参数特征分类

支持向量机是建立在统计学习理论和结构风险最小化原理基础上的机器学习方法。它在解决小样本、非线性和高维模式识别问题中表现出许多特有的优势,并在很大程度上克服了“维数灾难”和“过学习”等问题。SVM的机理是寻找一个满足分类要求的最优分类超平面,使得该超平面在保证分类精度的同时,能够使超平面两侧的空白区域最大

化[11]。如图2所示,圆点和方点分别代表两类样本,样本x映射得到的高维特征空间为y=f(x)。f1(x)和f2(x)分别为各类中离分类线最近的样本且平行分类线的直线,它们和分类线之间的距离叫做边缘间距(margin)。理论上,SVM能够实现对线性可分数据的最优分类。

图2 最优分类超平面

SVM的主要思想可以概括为2个方面:(1)它是用于在线性可分的情况下进行分析,对于线性不可分的情况,通过核函数将低维空间线性不可分的样本转换为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能;(2)基于结构风险最小化理论,在特征空间中建构最优分类超平面,使得学习器得到全局最优化,并且使整个样本空间的风险期望以某个概率满足一定上界。SVM的优化准则[12]为最大化类间边际(即围绕决策面的区域,由训练集样本与决策面间的最小距离确定),通过最大化边际可使支持向量个数最小化,由支持向量决定分类决策函数。经过训练得到的支持向量被用来构成SVM决策分类面。在进行分类决策,判定待识别样本类别时,需要逐点计算待识别样本与支持向量的核函数值并求和。在大多数的实际问题中,支持向量的个数总是远小于训练样本的数目,故进行分类决策时的计算代价没有被过多考虑。

对于线性不可分的情况,可以把样本x映射到一个高维特征空间y=f(x),并在此空间中运用原空间的函数来实现内积运算,这样将非线性问题转换成另一空间的线性问题来获得一个样本的归属。根据泛函的有关理论,只要一种核函数满足Mercer条件,它就对应某一空间中的内积,因此,只要在最优分类面上采用适当的内积函数就可以实现这种线性不可分的分类问题。通过对支持向量机进行样本训练,得到最优训练集T和最优训练模型S,并建立分类超平面,然后根据训练集对实时检测流量进行分类。

5 检测算法

算法对流量识别的核心思想是二值分类,能够与标准测试的正常数据流模型相匹配的流量判断为true,反之为false,算法描述如下:

6 实验结果与分析

实验采用DARPA数据集。DARPA评测数据覆盖了Probe、DoS、R2L等5大类58种典型攻击方式,是目前学术界和工业界广泛采用的网络安全测试数据集。网络流量模型的测试环境由网络流量生成系统管理主机、测试网以及IXIA 400T网络测试

仪构成,网络测试仪负责重放DARPA数据集。设定NFPE时间序列权值:α=0.04,β=0.35,γ=

0.27,ε=0.28,μ=0.06;采样间隔时间Δt=100 ms;参数向量估计时间间隔t=500 ms;采用阶数为2的二阶自回归模型AR(2);采用SVM进行网络流量二值分类,“1”代表正常网络流量,“-1”为含DDoS攻击的网络流量。使用IXIA 400T网络测试仪实时的采集正常网络流量进行保存。根据上述测试方法,图3、图4分别表示正常合法网络流量和DDoS攻击的网络流量NFPE时间序列。

图3 正常网络流量NFPE序列

图4 含DDoS攻击流的NFPE序列

在DDoS攻击时,根据实验显示,100 s为NFPE序列的期望值间隔,该期望值比正常流量时的期望值平均下降了0.26,显示了DDoS攻击对网络数据流量势能稳定性的影响。

进一步,为了验证基于NFPE的流量分析模型对于网络流量中攻击行为的识别率,本文采用DARPA数据集进行重放,构造真实且具备分析价值的网络环境。实验采集数据集第1周和第2周的流量对支持向量机进行训练,获得了最优训练集,然后分别对第3周和第4周的网络流量进行分类,详细分析数据如表2所示。

表2 实验环境参数

根据表中反映的NFPE序列期望值可以反映出拒绝服务攻击的发生对网络流量带来的影响,通过对DARPA数据集入侵检测评估文档的分析,在2个小时的测试过程中,系统识别的攻击数与网络流量中实际包含的拒绝服务攻击次数相差极小,分析数据如表3所示。

表3 实验结果数据分析

调整单位时间内系统报警阈值,系统可识别最高达到87.7%的拒绝服务攻击流量,根据DARPA的入侵检测评估文档分析,这些攻击行为中不仅包含有网络层攻击,还包含了利用应用层协议的新型拒绝服务攻击手段,而影响检测效果的主要原因是网络噪声和识别延迟。

在18个研究对象的IDS同样使用DARPA数据集进行了评测,优胜者为SRI International提交的EMERALD系统,在其检测范围内的169个攻击实例中检测出85个,检测率约为50%。此外,58种攻击类型中有21种类型共计77个攻击实例被划分为“Poor Detected”,参与测评的系统最多也仅能检测其中的15个攻击实例。对DARPA的入侵检测评估文档进一步深入分析,将本文设计的模型与上述模型进行规一化对比,表明在针对DDoS攻击的识别方面本模型精度要高于其他IDS,而对Probe、R2L、U2R和Data攻击的识别率接近或低于其他模型,如表4所示。本文的方法对拒绝服务攻击的识别能力高于当前IDS。

表4 网络攻击识别率与漏检率对比%

7 结束语

本文介绍了DDoS攻击的现状、趋势,分析了攻击发生时的网络数据流量特征,提出一种基于NFPE时间序列分析的流量生成模型。模型对网络流量等时间间隔采样构造平稳时间序列,可在一定的时间尺度下度量网络流量的势能稳定性。基于AR(2)自回归模型对网络流量势能进行参数向量计算,使用SVM对参数向量估计结果进行分类和定性。实验结果表明,本文方法针对网络势能特征进行分析和检测,能对应用层DDoS攻击流量进行精确检测。

[1]刘 松,周清雷.基于OCSVM的DDOS攻击实时检测模型[J].计算机工程与设计.2010,32(2):497-500.

[2]张永铮,肖 军,云晓春,等.DDoS攻击检测和控制方法[J].软件学报,2012,23(8):2058-2072.

[3]李锦玲,汪斌强,张 震.基于流量分析的App-DDoS攻击检测[J].计算机应用研究,2013,30(2):487-490.

[4]燕发文,黄 敏,王中飞.基于BF算法的网络异常流量行为检测[J].计算机工程,2013,39(7):166-168.

[5]CSDN.DDoS跨入400Gbps时代[EB/OL].(2014-02-24).http://www.csdn.net/article/2014-02-24/281 8512-400-gbps-ddos-attacks-years-comming.

[6]Mohd I Z,Idris Y.Protocol Share Based Traffic Rate Analysis(PSBTRA)for UDP Bandwidth Attack[J].Communications in Computer and Information Science, 2011(251):275-289.

[7]王 硕,赵荣彩,单 征.基于FSS时间序列分析的DDoS检测算法[J].计算机工程,2012,38(12):13-14.

[8]Jung J,Krishnamurthy B,Rabinovich M.Flash Crowds and Denial of Service Attacks:Characterization and Implications for CDNs and Web Sites[C]//Proceedings of the 11thIEEEInternationalWorldWideWeb Conference.Hawaii,USA:ACM Press,2002:252-262.

[9]朱应武,杨家海,张金祥.基于流量信息结构的异常检测[J].软件学报,2010,21(10):2573-2583.

[10]王新生,张锦平.基于小波分析与信息熵的DDoS攻击检测算法[J].计算机应用与软件,2013,30(6): 307-311.

[11]Cristinaini N,Shawe-Yaylor J.支持向量机导论[M].北京:电子工业出版社,2004.

[12]顾嘉运,刘晋飞,陈 明.基于SVM的大样本数据回归预测改进算法[J].计算机工程,2014,40(1):161-166.

编辑 索书志

Distributed Denial of Service Covert Flow Detection Based on Data Stream Potential Energy Feature

WU Na,MU Zhaoyang,ZHANG Liangchun
(The 713th Research Institute,China Ship Industry Corporation,Zhengzhou 450000,China)

This paper introduces the current situation and development of Distributed Denial of Service(DDoS)attack, and proposes a flow potential energy analysis model based on time sequence,constructs sequence of network flow potential energy.It uses Auto Regression(AR)model to fit multi-dimensional parameter vector and describes the stability of network flow in unit time,and employs Support Vector Machine(SVM)based method to classify and train the target network flow character parameter vector,gains the best-matched network data flow potential energy set and final achieves accurate description of different DDoS attacks.It uses DARPA dataset,IXIA 400 network test machine and other softwarehardware fundamentals to construct a real and analysis of the value network,validates the network flow potential energy analysis model based on the constructed network.Analysis and contrasts of the key indicators include DDoS detection accuracy,recognition rate,etc.Experimental results show that the method has higher detection precision and comprehensive better detection quality to DDoS.

network flow potential energy;Distributed Denial of Service(DDoS)attack;time sequence;flow detection;Support Vector Machine(SVM);DARPA dataset

吴 娜,穆朝阳,张良春.基于数据流势能特征的分布式拒绝服务隐蔽流量检测[J].计算机工程, 2015,41(3):142-146,161.

英文引用格式:Wu Na,Mu Zhaoyang,Zhang Liangchun.Distributed Denial of Service Covert Flow Detection Based on Data Stream Potential Energy Feature[J].Computer Engineering,2015,41(3):142-146,161.

1000-3428(2015)03-0142-05

:A

:TP309

10.3969/j.issn.1000-3428.2015.03.027

吴 娜(1983-),女,工程师、硕士研究生,主研方向:信息安全;穆朝阳,高级政工师、硕士;张良春,研究员。

2014-04-01

:2014-05-07E-mail:690363136@qq.com

猜你喜欢
网络流量势能数据流
基于多元高斯分布的网络流量异常识别方法
作 品:景观设计
——《势能》
“动能和势能”知识巩固
“动能和势能”随堂练
基于神经网络的P2P流量识别方法
汽车维修数据流基础(下)
动能势能巧辨析
一种提高TCP与UDP数据流公平性的拥塞控制机制
AVB网络流量整形帧模型端到端延迟计算
基于数据流聚类的多目标跟踪算法