基于聚类分析的IPv6异常流量识别研究

2016-02-05 07:44蔡洪民陈沁群吴道明郭伟匡
网络安全技术与应用 2016年7期
关键词:工具箱特征值数据包

◆蔡洪民 陈沁群 吴道明 郭伟匡

(广州中医药大学 医学信息工程学院 广东 510006)

基于聚类分析的IPv6异常流量识别研究

◆蔡洪民 陈沁群 吴道明 郭伟匡

(广州中医药大学 医学信息工程学院 广东 510006)

随着Internet的发展,下一代互联网IPv6必然会最终代替目前的IPv4网络。相对IPv4而言,IPv6网络只是在网络层进行了比较大的改进,因此大多数网络安全问题对于IPV4和IPv6是相同的,例如DOS攻击、中间人攻击等。因此,IPv6网络安全形势同样不容乐观。作为教育网会员单位,作者所在单位于2011年接入CERNET2网络。本文基于Wireshark进行IPv6数据包的捕获解析并存储,然后使用Matlab聚类工具箱中的K均值算法和神经网络工具箱中的SOM算法,分别对包含多类攻击数据的IPv6流量进行处理从而实现了对于CERNET2网络的异常流量聚类识别。实验表明,本系统能够识别发生IPv6网络中的DOS攻击等几类针对ICMPv6的攻击,加强了校园网络的安全。

Wireshark;K均值算法;自组织特征映射网络

0 引言

目前,IPv6 已经在全球范围内迅速发展:Internet2 主干网带宽达到N*10G,正在逐步升级到100G,Internet2主干网连接了60000多个科研机构,并且和超过50个国家的学术网互联;欧盟下一代学术主干网 GEANT 也进展迅速;我国启动了下一代互联网示范工程 CNGI,由CERNET 网络中心联合清华大学、北京大学等 25 所高校共同建设的 CNGI-CERNET2 是示范网络核心网的重要组成部分。2004 年12月,CERNET2 主干网正式开通,至今已稳定运行多年。

IPv6作为可控、可信、可扩展的下一代互联网的核心技术,它将以各种优势代替IPv4并最终得到普及应用。首先,它拥有128位地址空间,相对于IPv4的32 位地址空间,它为互联网的未来发展提供了无限充足的地址空间;其次,可汇聚的、分级的地址结构大大减少了各级路由表的大小;另外,自动地址配置等功能方便了人们的使用,并使得大量智能终端上网成为可能,从而为物联网的发展给予很大的支撑;最后,lPv6内置IPSec,有更好的安全特性。

同时,鉴于IPv4网络安全的经验教训,IPv6大规模的应用使我们更加审慎的考虑其安全问题。IPv6相对于IPv4的主要变化在网络层,IPSec协议仅负责网络层以下安全,而不负责其上层应用的安全,所以IPv4网络中的安全问题并没有完全解决。有些安全问题的原理和特征基本没有发生变化,例如应用层攻击、中间人攻击、病毒、蠕虫等。IPv6协议中引入的新协议如ICMPv6等,也能够被利用来完成对系统和网络的攻击,如邻居地址欺骗攻击等。

显然,要解决IPv6下的安全问题,传统的安全技术如防火墙、入侵检测等安全产品需要重新升级和部署后才能应用在IPV6环境中。因此,研究IPV6环境下的入侵检测具有重要的理论和实际意义。本文基于Matlab聚类工具箱中的K均值算法和神经网络工具箱中的SOM算法,分别对包含针对ICMPv6攻击的IPV6流量进行聚类分析,从而实现了对IPV6网络下的异常流量的识别,加强了网络安全。

1 相关技术与工具

1.1 Wireshark 与tShark

Wireshark是一个网络封包分析软件,Wireshark使用WinPcap作为接口,直接与网卡进行数据报文交换,是撷取网络封包并进行协议解析显示出详细的网络封包信息的工具。

Wireshark同时提供了命令行的抓包程序tshark和数据包编辑工具editpcap等一系列命令行工具,能够无缝地融入unix/windows脚本语言,使嗅探、分析的工作更加强大。

本文数据包捕获部分使用Wireshark实现,数据包存储后进一步使用tShark对IPv6数据包进行数据提取和过滤处理。

1.2 THC-IPv6攻击工具箱

THC-IPV6是一套完整的工具包,可用来攻击IPv6和ICMPv6协议的固有弱点,THC-IPv6包含了易用的库文件,可二次开发。THC-IPv6由先进的主机存活扫描工具,中间人攻击工具,拒绝服务攻击工具构成,具体包括 dos-new-ip6、flood_router6、flood_router26、dump_router6、dump_dhcp6、exploit6、fuzz_ip6、fake_mld6、smurf6等数十种IPv6攻击工具。

本文进行网络数据捕获时,使用THC-IPv6工具箱在IPV6内网进行DoS攻击等攻击测试,从而获取真实的IPv6网络数据。

1.3 Matlab

MATLAB是美国MathWorks公司出品的商业数学软件,用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境,主要包括MATLAB和Simulink两大部分。MATLAB包括拥有数百个内部函数的主包和三十几种工具包。

本文实现过程中分别使用Matlab聚类工具箱中的K均值算法和神经网络工具箱中的SOM算法对IPv6数据包进行聚类分析,从而实现对IPv6异常流量的分类识别。

2 IPv6异常流量识别的实现

2.1 设计目标

随着互联网的发展,下一代互联网即IPv6网络必然取代目前的IPv4网络,当然这需要一个长期的过程。相应地,IPv6网络的安全问题必将成为研究的关键问题。正如引言中所提及的,IPv6网络安全问题与IPv4网络安全问题既存在相同的问题,又存在新出现的问题。本文基于上述IPv6网络存在的网络安全问题,采用K均值算法和SOM算法对IPv6网络数据包进行聚类分析,从而通过分类识别IPv6网络中的异常流量,进而发现未知的网络攻击。

本文使用Wireshark软件捕获IPv6数据包,使用tShark软件对IPv6数据进行提取和预处理,然后载入Matlab软件,通过使用聚类工具箱中的K均值算法和神经网络工具箱中的SOM算法对IPv6流量进行聚类分析,从而从大量IPv6数据包中分类识别异常流量。

2.2 数据包分类预处理

经过使用Wireshark进行捕包并进行协议解析,发现THC-IPv6攻击工具箱中flood_router6等多种攻击工具都是基于ICMPv6协议;同时发现使用NMAP进行端口扫描和操作系统类型探测是基于TCP或UDP协议。因此本文算法处理的数据源为从IPv6网络数据中提取的TCP、UDP和ICMPv6三类数据包的特征值。具体提取过程是启动Wireshark捕获并存储IPv6网络数据包,根据上述分析结果,调用Wireshark附带的命令行工具tShark对捕获的数据包进行预处理,从大量数据包中提取TCP、UDP和ICMPv6三类数据包的特征值,并导出保存为CSV文件。提取的特征值字段分别如表1、2、3所示:

表1 TCP特征值表

表2 UDP特征值表

表3 ICMP6特征值表

2.3 IPV6异常流量聚类识别的工作流程

Matlab聚类工具箱中的K均值算法和神经网络工具箱中的SOM算法都是无监督的学习算法,能够在指定类别的前提下数据进行分类。对于包含网络攻击流量的IPv6数据包来说,使用上述两种无监督算法都能够将正常流量和异常流量分开。因此,本文对于IPv6网络数据的处理分别采用K均值和SOM算法两种不同的聚类方法进行分析并进行两种方法的对比,从而将异常流量与正常流量分开,从而对IPv6网络中的异常流量进行识别。

为了实现上述研究的目的,首先在IPv6网络环境中节点运行Wireshark对网络数据流进行监控,然后一方面使用NMAP对目的主机进行端口扫描和操作系统类型探测,另一方面调用THC-IPV6工具箱中的各类DoS工具对局域网主机进行模拟攻击。持续一段时间后停止Wireshark后将捕获的包含有攻击数据的IPv6数据包保存。然后运行tShark工具,根据相关过滤语法,从中分别提取TCP、UDP、ICMPv6三类数据包的特征值字段,并生成相应的CSV格式的特征值文件。

此后运行Matlab工具,导入相应的CSV文件,分别调用聚类工具箱的K均值算法和神经网络工具箱的SOM算法对IPv6数据进行基于聚类分析。聚类分析的过程中,生成Silhouette轮廓图来衡量分类效果的优劣,从而调整聚类指定类别的个数。根据实验仿真结果,实现对IPv6流量的分类,从而识别出IPV6异常流量。

图1 本IPV6异常流量识别系统流程图

3 实验结果

本系统在某大学Cernet2校园网环境中进行测试,效果良好。本系统测试的拓扑结构为两台IPv6主机,一台IPv6服务器,这三台设备通过支持IPv6的接入交换机接入IPv6校园网。实验环境中的两台IPv6主机通过NMAP扫描探测工具和THC-IPv6攻击工具箱中的多种攻击工具对一台IPv6服务器分别进行多次持续的攻击测试。

本文基于上文3.4节中的相关实验流程对IPv6网络数据包进行捕获、协议分析、存储、数据预处理、聚类分析等一系列过程,通过Matlab聚类工具箱的K均值算法和神经网络工具箱中的SOM算法分别进行聚类分析,从而根据分类结果识别出IPv6网络异常流量[7]。本文实验中对一万多条数据包特征值进行聚类分析,实验结果表明两种聚类分析的方法都能有效地进行无监督分类,并且分类结果上基本一致,具体分类数据对比如表4所示。很明显,K均值方法的第1类对应SOM方法的第7类,K均值方法的第5类对应SOM方法的第3类。实验仿真结果如图2所示。

表4 两种聚类算法结果对比

图2 本文对IPv6数据包进行聚类分析的实验结果

4 结束语

本文通过使用Wireshark、tShark、Matlab三种工具,分别实现了IPv6网络数据包捕获、协议解析、数据包特征值提取、聚类分析、生成图例等一系列步骤,通过K均值算法和SOM算法对IPv6数据包的特征值进行聚类分析处理,从而实现了在对IPv6数据流正确分类的前提下识别出IPV6网络中的异常流量[8]。实验结果表明,本文研究过程中采用的方法和手段是恰当的,研究方案是可行的。

与IPv4网络一样,IPv6网络攻击与防御之间的对抗将长期存在[9]。因此,我们要重视IPv6网络中的异常流量。但有些网络攻击流量与正常网络流量在网络流特征值的提取后差异很小,从而无法区分将正常流量和异常流量分开,这就给IPV6异常流量识别增加了难度。因此,如何提高基于机器学习的IPv6异常流量分析的识别率和准确率是一件困难的事情,这些是以后要继续开展的研究工作。

[1]袁正.基于SOM及K均值聚类方法的分布式入侵检测模型的研究[D].天津理工大学,2008.

[2]付小青,张爱明.基于SOM的入侵检测算法的特征选择[J].华中科技大学学报(自然科学版),2007.

[3]许素霞,宋晓宇,傅秀芬,陈长瑶.基于SOM网络的智能入侵检测系统[J].计算机仿真,2008.

[4]赵泽然.一种支持IPv6的入侵检测系统的设计与实现[D].东北大学,2010.

[5]孙有晔.IPv6网络中DDoS攻击源回溯研究[D].天津大学,2011.

[6]王朔.改进的聚类分析算法在入侵检测中的研究[D].武汉科技大学,2014.

[7]薛晓敏.基于IPv6的协议解析和DoS_DDoS攻击检测[D].暨南大学,2007.

[8]谭玉琴,李祥和,陈迎春.基于改进的SOM入侵检测研究[J].信息工程大学学报,2011.

[9]沈清姿.IPv6网络入侵检测关键技术研究[J].杭州电子科技大学,2012.

2015赛尔网络下一代互联网技术创新项目(NGII20150402)。

猜你喜欢
工具箱特征值数据包
二维隐蔽时间信道构建的研究*
一类内部具有不连续性的不定Strum-Liouville算子的非实特征值问题
一类带强制位势的p-Laplace特征值问题
基于一类特殊特征值集的扩散算子逆谱问题
单圈图关联矩阵的特征值
民用飞机飞行模拟机数据包试飞任务优化结合方法研究
会“叫”的工具箱和工具
SmartSniff
基于MATLAB优化工具箱优化西洋参总皂苷提取工艺
机械加工机床工具箱的优化设计