基于Weka平台的R2L攻击关联分析

2019-09-12 10:41郑继刚张静梅
智能计算机与应用 2019年4期
关键词:关联分析数据挖掘

郑继刚 张静梅

摘 要:远程主机的用户未授权访问攻击是网络攻击类型之一,该攻击类型出现在KDDCup数据集中,运用Weka对特征属性进行分析,挖掘结果显示不同属性特征间的联系。

关键词:Weka; 数据挖掘; 特征属性; 关联分析

文章编号:2095-2163(2019)04-0290-03 中图分类号:TP311 文献标志码:A

0 引 言

数据挖掘也称数据库中知识发现(knowledge discovery in database,KDD)[1],从提出到现在一直得到了研究和应用领域的广泛关注。是目前重要研究课题之一。其从大量原始数据中挖掘出隐含的、有用的、尚未发现的信息和知识,帮助决策者寻找数据间潜在的有用知识。

远程主机用户未授权访问攻击(Remote to Local,R2L),攻击是基于数据包负载的,数据包头部没有明显的频繁模式,单个数据包和正常连接区别不大,若采用传统检测方法很难提高检测率[2]。

本文采用数据挖掘Weka平台的关联规则算法[3],依据KDDCUP99数据集的“KDDCUP.data_10_percent”子集[4],挖掘出数据集中R2L攻击隐含的用户行为特征或规律,以指导入侵检测系统依据规则库对用户行为进行检测,根据检测结果采取不同的应对措施。

1 R2L数据预处理

“KDDCUP.data_10_percent”子集中共有1 126条R2L攻击类型记录,每条记录有41个固定的特征属性和最后一个攻击类型标识。下载的数据集是xls格式的excel工作表,另存为CSV文件类型,在Weka“Exploer”模块中,打开该CSV文件另存为ARFF文件类型,可视化结果如图1所示。

2 关联分析

在Explorer 模块的关联规则(Associate)标签下,可以实现对数据集的关联分析操作,这里提供了Apriori、FilteredAssociator、GeneralizedSequentialPatterns、HotSpot、PredictiveApriori、Tertius等多种关联分析算法,本文选择Apriori算法对实验数据集进行了关联分析[5]。

每条攻击记录共有42个特征属性。除第2、3、4、42个属性是离散型外,其余38个属性均为数值型,如图2所示。

借助Weka的“Filter树”,在“weka.filters.unsupervised.attribute.Discretize”中,设置attributeIndices属性为“1,5-41”,“bins”改成“3”,即设置为3段离散化值。勾选记录值完全相同的protocol_type、land、wrong_fragment、num_outbound_cmds、is_host_login等5个属性,2 s时间内与当前连接的流量特征、具有相同目标主机前100个连接。即第23~41个属性,并“Remove”以删除剩余18个属性。设置参数为“Apriori–N 20–T 0 –C 0.9–D 0.1 –U 1.0 –M 0.5 –S -1.0 –C -1”,前20条挖掘结果见表1。

根据挖掘结果,从中可以获取隐含在R2L攻击类型中不同属性特征间的联系:被迫妥协出现的次数num_compromised<13,超级用户root访问的数量num_root<18,shell提示符的数量num_shells<1,不执行“su”命令su_attempted,登录失败的次数,num_failed_logins<2,执行文件创建的数量num_file_creations<7。这些挖掘规则的置信度均为100%,如果降低置信度进行挖掘,会有更多的联系出现。

3 结束语

Weka是一个开源的数据挖掘软件,使用户能够很容易地将其应用于所要挖掘的数据集,挖掘出知识点。本文借助著名的开源数据挖掘软件Weka3.6.2版本,对KDDCUP99数据集的“KDDCUP.data_10_percent”子集中R2L攻击类型进行了关联分析,实现了Weka在網络入侵检测数据集中的应用。对数据格式的转换、数据类型的转换有了完整的认识,挖掘出特征属性及行为之间的关联关系,提高了检测的效率和准确率。

参考文献

[1]HAN Jiawei, KAMBER M. 数据挖掘概念与技术[M]. 2版. 范明, 孟小峰,译. 北京:机械工业出版社,2007.

[2] 全亮亮. 基于数据挖掘算法的入侵检测研究[D]. 武汉:武汉科技大学,2013.

[3] WITTEN I H, FRANK E. 数据挖掘实用机器学习技术[M]. 董 琳,译. 北京:机械工业出版社,2006.

[4] NEWMAN D. Welcome to the UCI knowledge discovery in databases archive[EB/OL]. [2005-09-09].

[5] 孙元军,郑新奇,常伟倩. 基于Weka的城市建设用地结构特征挖掘研究[J]. 计算机工程与应用,2008,44(27):231-235.

猜你喜欢
关联分析数据挖掘
数据挖掘技术在内河航道维护管理中的应用研究
数据挖掘综述
软件工程领域中的异常数据挖掘算法
玉米骨干亲本及其衍生系中基因的序列变异及与株高等性状的关联分析
玉米骨干亲本及其衍生系中基因的序列变异及与株高等性状的关联分析
基于随机函数Petri网的系统动力学关联分析模型
关联分析技术在学生成绩分析中的应用
基于R的医学大数据挖掘系统研究
基于关联分析的学生活动参与度与高校社团管理实证研究
不同的数据挖掘方法分类对比研究