基于堆叠条形图和平行坐标的网络数据安全可视化分析方法研究

2016-01-15 01:07赵立军,张健
装备学院学报 2015年5期
关键词:网络安全

基于堆叠条形图和平行坐标的网络数据安全可视化分析方法研究

赵立军1,张健2

(1. 装备学院 信息装备系,北京 101416;2. 装备学院 研究生管理大队,北京 101416)

摘要针对网络安全数据海量、高维、异构的特点,对安全可视化分析方法进行了研究。为了提高用户分析的效率和理解数据的能力,提出了基于熵的堆叠条形图设计方法和基于平行坐标的安全可视化方法。该方法把总图浏览和细节分析相结合,降低了分析人员的认知困难。实验表明该方法对分析网络安全数据有效。

关键词网络安全;可视分析;熵;堆叠条形图;平行坐标

收稿日期2015-01-27

基金项目部委级资助项目

作者简介赵立军(1967-),男,副教授,博士,主要研究方向为信息安全。zlj0908@sina.com

中图分类号TP391

文章编号2095-3828(2015)05-0086-05

DOI文献标志码A 10.3783/j.issn.2095-3828.2015.05.019

Study on Network Data Security Visualization Based on

Stacked Bar Chart and Parallel Coordinates

ZHAO Lijun1,ZHANG Jian2

(1. Department of Information Equipment, Equipment Academy, Beijing 101416, China;

2. Department of Graduate Management, Equipment Academy, Beijing 101416, China)

AbstractIn the field of network security, data has characteristics as isomerism, magnanimity and high-dimension. Therefore the paper researches the method of security visualization analysis. To improve analytical efficiency and capacity of data understanding, the paper brings out a new method called stacked bar chart based on entropy and a method of security visualization based on parallel coordinates. The method combines overview with detail which can reduce cognitive difficulty. Experiments show the effectiveness of these methods in analyzing network security data.

Keywordsnetwork security; visual analysis; entropy; stacked bar chart; parallel coordinates

网络安全问题日益受到人们的关注。在网络运行和维护过程中,产生了海量的网络流量和日志数据。然而在海量数据中检测异常是一件十分复杂的工作。可视分析可以通过人机交互及可视化技术协助安全分析人员快速发现异常,减少分析过程中的工作量。

网络安全可视化越来越引起人们的重视。自2004年开始的网络安全可视化国际会议推动了该领域的快速发展。IEEE Visualization 举办的可视分析挑战赛VAST Challenge,2011—2014年的竞赛数据都包含网络安全分析。国内清华、北大、浙大和中南大学都展开了针对网络安全的可视分析。赵颖[1]848-857结合雷达图和堆叠流图提出了协同分析网络流量的方法;陈思明[2]提出了在线协作分析网络安全的设计方法,引入了可视化隐喻“连接河流(Connection River)”以及“环图(Ring Graph)”。McPherson[3]提出的方法PortVis和赵颖[4]提出的方法PortMatrix用散点或者矩阵网格的方式分别对端口号及对应的流量进行了可视化,直观地展现端口和流量的关系,方便分析人员快速发现流量异常的端口。

虽然入侵检测系统可以帮助人们分析安全数据,但大量的研究人员将精力放在了如何使检测更加准确和全面上,而对如何让用户能更加准确地“读懂”入侵检测系统传递的信息,做的显然还不够,这样不可避免地使用户感到看不懂入侵检测系统的报警信息。常规的网络管理和流量监控手段通常仅能够看到流量异常突发的现象,却不能够让管理人员深入分析异常流量产生的原因,无法了解异常流量是哪些IP地址造成的,是否是恶意攻击行为,异常流量的行为特点、传输内容、对网络和业务有多大影响等,导致难以采用正确的处理措施。本文在现有研究的基础上,设计了面向网络安全数据的可视分析平台。在数据分析过程中,融入图形图像,借助人脑对可视化结果的直观感知和主动认知能力,采用“总图+细节(overview+detail)”模式,使分析人员既能快速读懂数据,又能进行深入分析,从而降低认知困难,达到快速识别异常、发现攻击模式的目的。

1基于熵的堆叠条形图设计

在可视化网络安全数据时,急需了解当前网络的状况,如每秒钟发送的数据、TCP、UDP、ICMP和其他协议的发包速率、流量速率以及流速率(一个流表示使用相同源地址、目的地址、源端口、目的端口的一系列数据包)。而仅依靠分析人员从原始数据中筛选或者通过简单图表反映数据则费时费力,很多信息不能直观表达。

信息熵能有效反应通信中消息的信息量,还能反映系统不确定程度,可用于检测大规模网络流量DDoS攻击[5],易于刻画网络的整体态势信息。某一维度的信息熵大小能反映该维度的集中和离散情况。对于DDoS攻击,统计时间段内的目的端口熵较小,源端口熵较大,对应着目的端口较为集中,源端口数量巨大,符合DDoS攻击的特征。对于扫描攻击,统计时间段内的目的端口熵和目的IP熵较大,而源端口熵和源IP熵较小,对应着少量主机的少量端口对网络的主机及端口进行扫描,以获取被扫描对象的状态,为后续攻击收集信息。

堆叠条形图充分利用了条形图直观和对比性强的特点。Abdullah[6]借助堆叠条形图可视化主机活动,取得了很好的效果。赵颖[1]853-854借助河流这一可视化隐喻,利用堆叠流图对局域网活动状况进行了可视化,其思想来源于堆叠条形图。

本文将熵和条形图相结合,首先对数据进行采样融合,提取出八元组(timeSeconds、ipLayerProtocol、firstSeenSrcIp、firstSeenDestIp、firstSeenSrcPort、firstSeenDestPort、packetCount、bytesCount),八元组中元素分别是Unix时间、IP层协议、源IP地址、目的IP地址、源端口号、目的端口号、包数量、字节数。熵按下式定义为

(1)

式中:H(x)代表熵;n代表统计时间段内的总记录数;xi代表不同IP地址或者端口号的数量;N代表IP地址或者端口号的种类数。

设定一定的间隔时间,本文中设定30 s的统计时间间隔。在该时间段内,分别统计IP地址或者端口的种类及每个种类的数量,并按照式(1)计算H(x),再对H(x)根据其大小转换到合适的区间内,以对应条形图的高度,最后以x轴为基准向y轴堆叠,形成如图1所示的堆叠条形图。

图1 基于熵的堆叠条形图

如图1,统计时间间隔为2013-04-06-T06:00:00/2013-04-06-T07:00:00。年月日显示在界面最上方,具体的小时和分钟显示在中间的时间线位置处。时间线上方是堆叠条形图,从下往上分别代表源IP熵、目的IP熵、源端口熵、目的端口熵。堆叠条形图既可以观察单一统计变量随时间变化的趋势,也可以展示堆叠变量的总趋势和各变量之间的差异性;时间线下方默认显示的是发包速率,当超过设定阈值时,条形图被置为红色,代表发包速率超过警戒,若速率未超过阈值则如图显示为黄色。界面左方设计FlowRate和ConCount选项,可分别显示流速率和连接数量。左上方设计协议类型选项,默认显示的是TCP协议。在时间线上,可用鼠标框选出更小的时间段,以便于在平行坐标中进行更细致的观察。

基于熵的堆叠条形图给安全分析人员提供了一种以“总图”的方式分析数据的方法,通过该方法,管理员可以拖动时间窗格,以浏览图片的方式观察数据,并可框选时间线上受关注的时间段,为进一步分析受关注数据提供了有力的支持。

2基于平行坐标的安全可视化方法

上节介绍的堆叠条形图对掌握局域网总体状况有作用,本节借助平行坐标进一步深入分析所关注的数据。平行坐标作为传统的最为广泛使用和研究的可视化方法之一,有着很好的可视化效果[7]。平行坐标的原理是将高维数据进行预处理,提取感兴趣的维度,每个维度对应平行坐标的一个轴,数据在平行坐标中绘制成一条折线。袁晓如[8]把平行坐标和聚类相结合,在显示数据时先进行聚类,解决了可视化大数据时数据混乱的问题;翟旭君[9]在平行坐标中应用了分层平行坐标的概念,先利用分层聚类算法构造分层聚类树,对数据进行多种层次的显示,同样解决了平行坐标数据混乱的缺点。他们都在可视化数据细节方面取得了良好的效果。

在网络安全数据可视化中,掌握网络的细节信息以追踪威胁的来源极其重要,如什么协议侵占了带宽,哪个端口的流量较大,是否存在病毒等,如震荡波病毒会同时向随机生成的多个IP发起445端口的TCP连接请求;红色代码病毒具有目的端口80,协议类型80,包数量3,字节数144的特点。

为解决上述问题,利用平行坐标易于显示细节信息的特点,根据上节中给出的八元组定义,再把IP地址拆分成四元数组,IP地址的每个字段单独作为平行坐标的一个轴来显示,其处理方式跟普通数据一样。最终显示如图2所示。

图2 利用平行坐标对网络安全数据的可视化

时间放在源端口号和目的端口号之间,有利于观察和选择重点关注的时间段。对IP地址的可视化采用了把IP地址拆分成一个四元数组然后分别在平行坐标上显示的方式。每个维度的数据按照大小映射到每个平行轴相应的坐标,连接点便形成了一个数据记录的折线。在交互设计中,加入了刷技术,在平行坐标轴上拖动选中一个数据段,可以把落在选中区域的折线进行高亮显示,把未选中的折线当作背景,高亮显示的数据记录会在控制台中进行详细显示;每个坐标轴的顶部设计一个三角形,可以对该平行坐标轴进行从大到小或者从小到大排序;在平行坐标轴的底部设计一个移动图标,向左或向右拖动该平行坐标轴,可以改变平行坐标的间隔和排序,以观察相关度较高的平行坐标数据之间的关系。

3实验验证

3.1实验设置

实验环境基于Microsoft Windows 7平台,在Processing开发环境中编写实现。Processing开源编程语言和集成开发环境是由美国麻省理工学院媒体实验室成员Casey Reas与Ben Fry创作。设计的目的是在电子艺术的环境下介绍程序语言,并以可视化的方式介绍给程序编程人员[10]。Processing作为前端显示界面,后台使用MySQL 5.6数据库存储数据。数据集是可视分析挑战赛VAST Challenge 2013 中关于网络安全数据的竞赛数据。该数据集是模拟国际跨国公司内部局域网2周的运维日志数据,分别是流量数据Netflow、防火墙数据以及主机状态监控数据bigbrother。数据txt文件存储,总共10 G大小,9 000万条记录。

3.2数据处理

网络数据种类很多,主要有流量监控数据、状态监控数据和事件监控数据[11]。本文主要用流量数据Netflow来验证可视化的有效性。由于数据记录了局域网中所有的行为,1 s的数据量很大,所以本实验通过10∶1采样,既减少了数据量,又不影响对网络状况的可视化。为简单起见,选择剔除缺失维度所对应记录的方法,因数据量大,并不影响原始数据的真实性。在平行坐标中把IP地址拆分成一个四元数组,并在数据组记录分隔点的位置,方便在显示IP地址时进行恢复。

3.3实例分析

实例1通过时间窗以浏览的方式选择显示的时间段,如图3所示。选择2013-04-06-T 11:00:00/2013-04-06-T12:00:00 共60 min的时间段,发现堆叠条形图目的端口熵较大,意味着目的端口较多。

通过框选30~40 min之间的一段时间,在平行坐标中可以发现少量的源IP和源端口对应着较多的目的IP和目的端口,怀疑存在扫描攻击。在平行坐标轴上拖动鼠标选择DIP4底端的区域在控制台显示出来,发现源IP地址10.0.0.14通过80端口对局域网的主机进行了扫描。再通过查询原始数据发现,在6日11时至12时之间有大概21万条数据记录,确定此时发生了较为严重的扫描攻击。

图3 扫描攻击的可视化

实例2如图4所示,从堆叠条形图可以看出源端口熵较大,目的端口熵较小,说明源端口种类较多,目的端口较为集中,并且二者相比有明显的差距;在时间线下方包速率条形图上可以看出,大部分时间间隔内的数据都超过了阈值,说明发包速率较大。选中一定时间段,在平行坐标中进行显示,发现源IP地址和源端口较为分散,而目的端口和目的IP较为集中,怀疑发生了DDoS攻击。通过选中平行坐标的一段时间在控制台中显示,发现大量IP地址通过不同端口对局域网主机的80端口进行了攻击。通过查询原始数据发现,在4月2日5时至6时的时间里,有大约53万条数据记录,大量主机通过不同端口实施了DDoS攻击。

图4 DDoS攻击的可视化

4结 束 语

本文提出的基于熵的堆叠条形图设计方法和基于平行坐标的可视分析方法,对协助网络安全分析人员在分析海量数据时提供了一种有效的方法。在快速发现和分析异常、对局域网进行“总图+细节”2个层级的分析上具有较大优势,能够达到快速定位并能深入分析异常的目的。但是由于Processing在进行显示时需要不停地刷新,导致程序不停地从数据库中读取数据,使系统计算速度和交互上有一定欠缺,因此难以满足实时处理的要求,需要在后续工作中进行完善。

参考文献(References)

[1]赵颖,樊晓平,周芳芳,等.大规模网络安全数据协同可视分析方法研究[J].计算机科学与探索,2014,8(7):848-857.

[2]CHEN S M,GUO C,YUAN X R,et al.OCEANS:online collaborative explorative analysis on network security[C]//Proceedings of the Eleventh Workshop on Visualization for Cyber Security.New York:ACM,2014:1-8.

[3]MCPHERSON J,MA K L,KRYSTOSK P,et al.PortVis:a tool for port-based detection of security events [C]//Proceedings of the 2004 ACM Workshop on Visualization and Data Mining for Computer Security.New York:ACM,2004:73-81.

[4]ZHAO Y,LIANG X,WANG Y,et al.MVSec:a novel multi-view visualization system for network security[C]//Proceedings of Visual Analytics Science and Technology.Los.Alamitos:IEEE Computer Society Press,2013:7-8

[5]赵慧明,刘卫国.基于信息熵聚类的DDoS 检测算法[J].计算机系统应用,2010,19 (12):164-167.

[6]ABDULLAH K,LEE C,CONTI G,et al.Visualizing network data for intrusion detection[C] //Proceedings from the 6th Annual IEEE SMC Information Assurance Workshop,(IAW'05).Piscataway,NJ,USA:IEEE,2005:100-108.

[7]袁晓如,张昕,肖何,等.可视化研究前沿及展望[J].科研信息化技术与应用,2011,2(4):3-13.

[8]YUAN X Y,GUO P,XIAO H,et al.Scattering points in parallel coordinates[J].IEEE Transactions on Visualization and Computer Graphics,2009,15(6):1001-1008.

[9]翟旭君,李春平.平行坐标及其在聚类分析中的应用[J].计算机应用研究,2005,22(8):1-3.

[10]REAS C,FRY B.Processing:a programming handbook for visual designers and artists[M].Boston,USA:MIT Press,2007:1-2.

[11]赵颖,樊晓平,周芳芳,等.网络安全数据可视化综述[J].计算机辅助设计与图形学学报,2014,26(5):687-697.

(编辑:李江涛)

猜你喜欢
网络安全
新形势下的特种设备网络安全防护探讨
网络安全守则(二)
新量子通信线路保障网络安全
网络安全
维护网络安全 筑牢网络强省屏障
上网时如何注意网络安全?
计算机网络安全
计算机网络安全服务器入侵与防御
网络安全监测数据分析——2015年12月
网络安全监测数据分析——2015年11月