基于原子分类关联规则的网络入侵检测研究

2014-10-18 08:58郭红艳谷保平
河南广播电视大学学报 2014年2期
关键词:置信度原子关联

郭红艳,谷保平

(河南广播电视大学,郑州 450000)

一、引言

入侵检测方法一般分为两大类:误用检测和异常检测[1],误用检测技术主要是检测与已知的不可接受行为之间的匹配程度。收集非正常操作的行为特征,建立特征库,检测时依据具体特征库进行判断是否有入侵行为,这种检测模型误报率低、漏报率高;异常检测技术是先定义一组系统 “正常”情况的数值,如CPU利用率、内存利用率等,然后将系统运行时的数据与所定义的“正常”情况比较,得出是否有被攻击的迹象,若两者偏差足够大,则说明发生了入侵。这种方法的优点是能检测未知的攻击类型,适应性强。

入侵检测的关键技术在于分类。目前,应用于入侵检测分类方法有很多,如统计分类方法、支持向量机、神经网络和遗传算法等。随着新技术的大规模应用,研究者发现一些新颖的分类方法,例如关联规则分类法就是其中一种,目前普遍接受的观点是关联规则分类准确度高。

本文中,我们把原子分类关联规则应用于入侵检测中,利用原子型分类关联规则构建分类器的思想,它是模仿认识事物一般规律,运用“先易后难策略”分类。它具有执行速度快、准确度较高、挖掘的分类模型易于理解的特点,比较适合于大规模数据挖掘。

二、原子分类关联规则

基于关联规则的入侵检测分类学习包括以下三个主要步骤:

(1)入侵信息的收集。入侵检测首先要进行信息源的收集,包括审计迹、系统日志、网络数据包、数据等。

(2)入侵信息的分析。入侵行为一般都是隐藏在大量正常的信息之中,为了获取入侵信息,就必须对信息源进行分析。常用的分析方法有关联规则、聚类分析和模式匹配等。可见,信息分析是入侵检测过程中的关键环节。

(3)入侵检测的响应。系统对攻击行为发出报警通知或实施控制,从而降低攻击行为对系统所造成的破坏。

1.关联规则。

自Agrawal提出关联规则挖掘后,关联规则算法及应用得到迅速发展。在1998年的KDD (KDD:Knowledge Discovery in Databases)会议上,B.Liu等人提出了分类关联规则算法(CBA0)。该算法使用类Apriori算法产生关联规则,被认为关联分类的基准算法。使用支持度阈值是1%与置信度阈值是50%。该算法有两个问题:一是候选规则的运算非常耗时同时占有大量内存资源;二是由于是基于置信度的关联分类从而降低分类准确度。

2.原子分类关联规则。

原子分类关联规则算法是利用“基于突出特征和先易后难策略”的分类原理,采取人们认识事物一般常识:“先易后难”。具体做法如下:先找出最易识别进行一次分类,删除第一次易分类,在余下的数据分类中,进行同样的分类处理,直到将所有数据分类完毕。原子分类关联规则分类技术的关键技术是分类原子性,它的主要原理是找事物的“突出特征”和人们处理事情“先易后难”分类方法。为了便于记忆,我们把原子分类关联规则 (Atomic Association Rule)简称为AAR。

(1)数据结构。

AAR算法中比较关键的步骤是发现强原子规则。

在AAR算法的数据挖掘算法中,为了方便数据集中的项和项集计数,我们使用一个的双层Hash树来实现。为了提高算法的计算效率,可以将双层的Hash树简化为一个三维数组。

(2)AAR 分类步骤。

AAR产生分类器经过以下三个步骤:

①选择高置信度规则进行分类。首先进行数据集的扫描,比较各种分类方法置信度,然后选择置信度比较高的规则进行分类。

②强原子规则进行排序、删除分类好的记录。对强原子分类关联规则按置信度高低进行降序排序,首先找第一关键字;然后,进行强原子分类关联规则分类,分类完成后,把覆盖的记录从数据集中删除。

③数据集中剩余的数据继续步骤②进行分类处理,到数据集没有任何记录为止。

最后,正确组合分类数据,生成正确的数据模型。

(3)分类器的算法。

①项集计数:扫描数据集,利用一个两层的Hash树,用来标记每个类标签的数目和候选原子分类关联规则的数目。

②为Hash树的各个叶子节点生成一个候选原子规则r。

③通过Hash树直接计算候选原子规则r的支持度。

④删除支持度小于最小支持度的候选原子规则,得到频繁的原子规则集。并计算原子分类关联规则的置信度。利用置信度阈值提取强的原子分类关联规则。

⑤利用频繁的原子规则集在后件相同的条件下进行组合,导出候选的复合规则。

⑥最后输出知识要点。

图1 是建立原子分类关联规则分类器的算法:

AAR算法具有如下显著的优点:

①原子分类关联规则挖掘的是占有系统资源比较少,分类时间短;

②使用最高置信度的强原子分类关联规则可以保证分类预测精度;

③该规则产生的分类模型包含的规则数少,规则简单,易于理解,分类过程具有置信度阈值自适应的特点,无需用户设定。

下面把原子分类关联规则算法应用于入侵检测的情况进行了研究,详细研究了AAR与CBA两种典型的关联分类算法在数据集分类中的应用,结果表明AAR算法在分类准确度、分类模型的简洁性、分类学习速度和鲁棒性等方面显著地优于CBA。

三、基于AAR入侵检测实验

1.实验环境。

实验用的处理器为2.2 GHz CUP:E2200,主存为2048MB。操作系统为Windows 7,入侵检测数据集是来自KDD cup“kddcup.data10.percent”。在该数据集中,入侵记录的类型有Dos、U2R、R2L和 Probe。实验选用的样本集如表1所示,分别是Dos、U2R、R2L和ALL(所有四类入侵数据)。为了评价分析原子分类关联规则算法的分类准确性,我们使用误报率FAR(false alarm rate)和检测率 DR(detection rate)来测试算法性能[2,3]。

2.性能评估。

为了评估AAR的算法性能,我们从执行时间和产生的规则数两个方面与CBA算法进行比较。经过反复实验,对于该数据集,AAR的自适应置信度阈值调节系数为COEF=0.92。这样既保证了较高的分类准确度又具有能接受的建模时间。而CBA的置信度阈值取缺省值minconf=50%。

表1 两种算法系统性能

执行时间:

两种算法执行时间如图2所示,在同样的条件下实验结果表明:CBA比AAR算法要占有更多的时间。在较小的minsup下,CBA算法会产生大量满足约束的强规则。因此在最小支持度比较小的情况下,挖掘频繁k-项集的k值较小,执行时间较短。随着minsup的增加,k值相对变大,挖掘频繁候选k-项集也相应地增加,产生强规则要花费更多的时间。当minsup值较大时,由于产生频繁k-项集的减少,执行速度也较快,执行时间更短。

图2 不同minsup的执行时间

从图2也可以看出,在minsup从小变大时,AAR算法的执行时间相对于CBA算法比较平稳,执行时间大概在14秒上下,minsup的改变对AAR挖掘的影响比较小。

分类规则数:

两种算法分类规则数如图3所示,从图中可以看出在CBA算法和AAR算法在不同最小支持度下产生的分类关联规则数目。CBA比AAR算法要产生更多的分类规则数。对于CBA算法,最小支持度从小到大增加时,规则数目迅速降低,同时有部分分类规则不能形成正确的分类效果。而AAR算法采用加入自适应的置信度阈值的思想。所以,产生的分类关联规则数目变化不大,相对于CBA算法来说,AAR算法比较平稳,效果更好些。

图3 不同minsup的规则数

通过AAR和CBA的综合指标比较,两种关联分类算法在入侵检测数据集的分类结果可以看出AAR表现优异,同时AAR算法生成了更少的规则数,执行效率高。而CBA算法执行速度较慢,产生分类规则数较多。

3.实验对比。

综合考虑算法性能下,把最小支持度的默认值设置为1%。对AAR算法与CBA在入侵检测方面进行对比实验,实验结果如表1所示。从实验数据结果可以看出,原子分类关联规则(AAR)算法不论在误报率还是在检测率方面都优于CBA算法,特别是对于DOS类型的入侵检测效果更好,说明改进的算法(AAR算法)是可行的。

四、结论

在本文中,介绍了原子关联规则算法 (AAR算法),并将其应用于网络入侵检测中,AAR算法可以快速准确对入侵检测数据进行分类,该分类算法支持动态阀值,能提高分类的准确性。对比AAR算法和CBA算法,实验表明,AAR能快速和准确分类入侵检测数据,取得了不错的综合性能表现。今后的工作是进一步研究增强该算法适应能力,研究改进特征提取的方法,建立准确、简单、易于理解的分类模型。

[1]蒋建春,马恒太,任党恩,等.网络安全入侵检测研究综述[J].软件学报,2000,11(11):1460-1466.

[2]谷保平,许孝元,郭红艳.基于粒子群优化的k均值算法在网络入侵检测中的应用[J].计算机应用,2007,27(6):1368-1370.

[3]Wang Hai-rui,Li Wei.Decision Tree Algorithm Based on Association Rules[J].Computer Engineering,2011,37(9):104-106.

猜你喜欢
置信度原子关联
一种基于定位置信度预测的二阶段目标检测方法
硼铝复合材料硼含量置信度临界安全分析研究
原子究竟有多小?
原子可以结合吗?
带你认识原子
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
“一带一路”递进,关联民生更紧
正负关联规则两级置信度阈值设置方法
奇趣搭配
智趣