基于大数据的网络异常流量检测综述

2017-11-20 08:26唐录洁李怀颖
电脑知识与技术 2017年27期
关键词:聚类大数据分类

唐录洁+李怀颖

摘要:以大数据处理方式来做流量异常检测这一问题出发,通过近五年来的科研文献调查研究大数据给流量异常检测带来的变化。包含基于大数据的网络异常流量检测架构,针对海量流量数据异常检测的有效算法,基于大数据网络异常流量检测仿真实验平台和数据集。

关键词:大数据;异常流量检测;分类;聚类

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)27-0019-03

Abstract:The author examines the variation in traffic anomaly detection caused by big data through referring to scientific literature over the five years, which is founded upon the issue of traffic anomaly detection via big data. The study includes the framework of network traffic anomaly detection with the foundation of big data, the efficient algorithm targeted at the anomaly detection of plenty of traffic data, the simulated experimental platform on the fundamental elements of traffic anomaly detection via big data and the data set.

Key words: big data; anomaly traffic detection; classification; clustering

1 概述

2017年5月的“比特币病毒”攻击事件,6月顺丰及阿里的物流数据之争成为了当月的热点事件,这两起事件引起了人们对“安全”和“数据”关注。2012年Gartner称信息安全问题将演变成大数据分析的问题,海量安全数据应该被有效地关联、分析和挖掘。如果我们把大数据这个词作为一种新的计算理论、方法、技术和应用的综合体来看,那么我们探讨大数据与信息安全之间的关系,就有两种方向:其一,就是如何用大数据来解决安全问题(这正是本文需要研究的主题);其二,就是如何保障大数据的安全[1]。

网络异常检测一直是网络安全领域内最为活跃的研究分支之一,包括对流量突变、设备失效、越权资源访问、可疑主机等的检测,其本质原理是探寻表征目标对象属性、状态与变化的特征,然后构建检测模型,对违背策略或偏离正常行为模式的行为进行判定。近几年,大数据技术越来越多的应用到网络异常检测中,尤其是基于大数据的网络用户行为分析技术的应用,极大提高了当前网络异常检测的准确率。

2 基于大数据的网络异常流量检测架构

大数据具备“4V”的特点:Volume(大量)、Variety(多样)、Velocity(高速)和Value(低价值密度),能够实现大容量、低成本、高效率的分析能力,也可以满足数据处理分析要求,将大数据分析应用于信息安全范畴能有效地识别各种攻击行为或安全事件。大数据处理的普遍流程至少包含采集、导入/预处理、统计/分析和挖掘四个方面的步骤。而将大数据分析技术引入到信息安全分析中,就是散乱的安全数据融合起来,经过高效的采集、存储、检索和分析,运用多阶段、多层面的关联分析以及异常行为分类预测模型,提升安全防御的主动性,更加有效的发现APT攻击、数据泄露、DDoS攻击、骚扰诈骗、垃圾信息等。并且,大数据分析触及的数据范围更广,主要涉及应用场景本身产生的数据、经过某种活动或内容“创立”出来的数据、相干背景数据以及上下文关联数据等[2]。传统信息安全分析主要基于流量和日志两大类数据,并与资产、业务行为、外部情报等进行关联分析。基于流量的安全分析应用主要包括恶意代码检测、僵木蠕检测、异常流量、Web安全分析等;基于日志的安全分析应用主要包括安全审计、主机入侵检测等[3]。

网络系统安全的要素主要包含完整性、可鉴别性、防抵赖性和可审计性,目前通常采用加密、认证及入侵检测等方法来保证网络安全。其中,入侵检测系统(Intrusion Detection System,IDS)是保证主机和网络安全的重要手段,通过监控主机设备和网络的使用情况,对非法操作进行识别并告警。入侵检测作为一种有效的方式被用来增强网络的安全性。

网络异常流量检测是指以网络流数据为输入,通过统计分析、数据挖掘和机器学习等方法,发现异常的网络数据分组和异常网络交互等信息。

綜合大数据分析处理技术及网络异常流量检测思想,一个完整的大数据异常检测平台可分为4层:数据采集层、存储管理层、入侵行为分析挖掘层和展示及配置管理层,其框架如图1所示[4]。数据采集层主要具备完整数据采集能力,囊括与网络行为相关的各类日志、网络流量以及情境数据和外部支持数据的采集。存储管理层可以支持异构数据存储,可以通过缓存应付突发的数据,具备弹性扩展能力。入侵行为分析挖掘层可以支持灵活的特征提取、基于特征的统计分析和模型训练以及对检测结果的事后取证溯源和验证能力。展示及配置管理层支持大数据平台集群配置管理和数据的交互式可视化分析。

3 异常流量检测算法

近年随着大数据的发展基于机器学习和数据挖掘方法得到了深入的研究。文献[5]将基于机器学习和数据挖掘的异常检测算法分为分类、统计、信息理论和聚类四类来进行研究。其分类如图2所示

基于分类的网络异常检测包含:支持向量机(Support Vector Machine, SVM)、贝叶斯网络(Bayesian Network)、神经网络(Neural Network)、基于规则(Rule-Based)的。基于统计的异常检测包含:混合模型、信号处理技术和主成分分析(Principal Component Analysis, PCA)。基于信息理论主要用到信息熵和流量数据的相关性分析算法。基于聚类算法分为常规聚类和协同聚类,基于聚类的异常流检测主要代表是基于 K-Means 算法的异常流检测。endprint

由于大数据具有属性稀疏、超高维、高噪声、数据漂移、关系复杂等特点,针对传统分类或统计算法建模时间长,耗时久,算法难以理解等问题,针对海量的流量数据通常都会先采用一些新的基于分类或特征提取的方法对海量数据作降维预处理,然后用一些复合的分类方法进行异常检测。文献[6]描述了一个在PCA方法上的新的以距离为基础的降维方法,文献[7]提出了一种新的基于PCA扩展异常检测方法,主要针对使用K-L散度的几点改进。文献[8]提出一种基于正交投影的降维分类方法,通过投影方式将多维分类问题转化为多个二维投影面组合问题, 建立投影面的密度模型进行分类。相比于常用的支持向量机(Support Vector Machine,SVM)、逻辑回归(Logistic Regression, LR)、k最近邻(K-Nearest Neighbor,KNN)等分类算法, 基于正交投影降维的分类方法能够在不丢失分类准确度的同时, 拥有较高的模型训练效率与分类效率. 其算法易于实现,可用于海量流量数据异常检测。文献[9] 提出一种基于深度信念网络的多类支持向量机入侵检测方法(DBN-MSVM)。该方法先利用深度信念网络对大量高维、非线性的无标签原始数据进行特征降维,从而获得原始数据的最优低维表示;然后,利用二叉树构造多类支持向量机分类器,并对获得的最优低维表示进行网络攻击行为识别。该方法可缩短支持向量机分类器的训练时间和测试时间,提高了海量入侵数据的分类准确率。文献[10] 提出一种基于偏最小二乘(PLS) 法和核向量机(CVM) 的组合式异常入侵检测方法. 它先采用PLS算法提取网络数据的主成分,构建特征集;然后, 利用CVM构建特征集的异常入侵检测模型, 进而完成异常入侵检测与判定。文献[11] 提出了一种基于熵和改进的 SVM 多分类器的异常流量检测方法。该方法用熵值对网络流量的各个属性进行量化,将异常流量检测问题抽象为对不同类型流量的分类问题,并对传统的一对其余 SVM 多分类器进行改进。使用改进 SVM 多分类器对熵值量化后的流量进行分类判决,根据分类结果捕获异常。文献[12]以历史流量曲线存储为基础,针对历史流量曲线的数据挖掘,为进一步挖掘流量规律、利用流量曲线更加深入地识别网络事件、具体及量化地评估网络情况提供了可能性。该文献以历史流量曲线为对象,利用径向基函数神经网络(Radial Basis Function Network,RBF网络),根据具体观测的流量曲线,有针对性地建立历史流量曲线模型,并建立在历史样本曲线、观测曲线、曲线模型三者间距离的基础上,同时给出观测曲线与曲线模型间的量化偏离度评估方法。文献[13] 介绍了基于k-nearest neighbor(k-NN)的累积距离的异常检测方法,以及使用此检测方法的异常流量实时检测系统的实现。

聚类的方法也是基于大数据的机器学习和数据挖掘异常检测用得比较多的方法,文献[14]针对传统基于聚类分析的网络流量异常检测方法准确性较低的问题,提出了一种基于改进k-means聚类的流量异常检测方法.通过对各类流量特征数据的预处理,使k-means算法能适用于枚举型数据检测,进而给出一种基于数值分布分析法的高维数据特征筛选方法,有效解决了维数过高导致的距离失效问题,并运用二分法优化K个聚簇的划分,减少了初始聚类中心选择对k-means算法结果的影响,进一步提高了算法的检测率。

另外,基于异常的检测在思想上和离群检测问题非常相似。因此,最近几年很多研究者提出,异常检测的问题可以在很大程度上采用离群检测方法解决。文献[15] 利用自适应检测方法检测大网络流量数据中的异常A—SPOT自适应流投影孤立点检测器。文献[16]作了Hadoop云平台下基于离群点挖掘的入侵检测技术研究。文献[17]提出了一种称为异常数据的邻域离群因子测定(NOF)异常检测。

由于目前网络环境中数据维数高,数据量大等特点使得离群点挖掘非常有优势。离群挖掘应用到异常检测中可以有效提高检测效率,并改善检测的漏报率和误报率。此方法也受到越来越多研究异常检测的学者青睐,我们下一步会在此方法上进行异常检测研究实践。

4 基于大数据的网络异常流量检测研究仿真平台及数据集

由于是研究将大数据的技术方法用于流量异常检测,所以部分研究使用分布式系统来做海量数据的处理,目前针对大数据的处理,主流的框架有Hadoop分布式处理架构、Spark并行计算框架和Storm实时数据处理框架。还有一些研究者主要是采用带有强大科学计算算法开源库的Python和Matlab开发工具作为仿真实验环境。

入侵检测领域中能夠作为基准的公开数据集少之又少。一方面,最现实的网络流量是那些在自然环境下收集的流量,例如从一个网络服务提供商或一个公司网络中收集的流量[18]。文献[3] 在启明星辰信息安全技术有限公司内网搭建了测试环境,通过真实数据进行检验。文献[11]也是采用了存储的历史流量曲线。然而这些流量包含了能够反映人身份隐私在内的敏感信息,因此它们几乎不可能显示的还有部分研究者是采用实际的NetFlow数据集。然而这些流量包含了能够反映人身份隐私在内的敏感信息,因此它们几乎不可能被公开。另一方面,人工流量(即在人工干预下产生的流量)虽然能够避免隐私问题,但是通常需要领域专家耗费大量的精力和时间才能使它们具有现实性。这导致高质量的人工流量也很难获取。基于以上原因,入侵检测领域中著名的流,尽管其已经生成了较长的时间,却仍然被众多国内外学者选用以测试其所提出的性能。所以,来源于流的数据集,到目前为止仍然是网络入侵检测领域中应用最为广泛的一个基准数据集,KDD 1999。大部分研究者在进行仿真实验时都采用了此数据集,另外也有一部分研究者采用美国的Abilene网络数据和kyoto2006+数据集。

虽然云平台在处理海量数据有天生的优势,但由于我们所在工作环境不能获取到较高维度及高质量的网络流量进行测试,所以下一步工作还是会选择采用带有丰富科学计算算法开源库的Python作为仿真环境,使用KDD1999数据集进行实践研究。endprint

5 总结

近年来很多学者对基于大数据的异常流量检测作了很多研究,得到比较成熟的检测架构和有效的检测算法,而且以大数据为基础的机器学习和数据挖掘方法可以让系统自适应学习、持续自动更新、更加综合全面考虑问题。但是大规模流量数据可以建模,一旦入侵者利用模型,将恶意流量控制在模型预报的曲线周围,也可以隐藏入侵流量的目的。 而且信息安全领域中的很多问题,由于数据较难定义、提取,目前仍难以以大数据的方式解决。但笔者认为,随着安全威胁走向多样化,攻击手法不断提升,攻击痕迹逐步隐蔽,大数据技术解决方式会成为信息安全产业的重要途径。

参考文献:

[1] 潘柱廷. 安全大数据的“7个V”——大数据基础问题与信息安全的交叉探究[J]. 中国信息安全, 2013(9):74-77.

[2] 张滨. 大数据分析技术在安全领域的应用[J]. 电信工程技术与标准化, 2015, 28(12):1-5.

[3] 王雪琴. 软件技术在工程领域的应用优势分析[J]. 电子技术与软件工程, 2014(9):97-98.

[4] 周亮. 面向大数据的网络安全分析方法[D]. 南京邮电大学, 2016.

[5] Ahmed M, Mahmood A N, Hu J. A survey of network anomaly detection techniques[J]. Journal of Network & Computer Applications, 2016(60):19-31.

[6] Huang T, Sethu H, Kandasamy N. A New Approach to Dimensionality Reduction for Anomaly Detection in Data Traffic[J]. IEEE Transactions on Network & Service Management,2016,13(3):651-665.

[7] Callegari C, Gazzarrini L, Giordano S, et al. A Novel PCA-Based Network Anomaly Detection[C]// IEEE International Conference on Communications. IEEE, 2016:1-5.

[8] 滕少華,卢东略,霍颖翔,等.基于正交投影的降维分类方法研究[J/OL].广东工业大学学报, 2017 (03). http://www.cnki.net/kcms/detail/44.1428.T.20170502.1011.002.html

[9] 高妮, 贺毅岳,高岭. 海量数据环境下用于入侵检测的深度学习方法[J/OL]. [2017-03-21]. http://www.arocmag.com/article/02-2018-03-004.html.

[10] 吴丽云, 李生林, 甘旭升,等. 基于PLS特征提取的网络异常入侵检测CVM模型[J]. 控制与决策, 2017, 32(4):755-758.

[11] 朱佳佳, 陈佳. 基于熵和SVM多分类器的异常流量检测方法[J]. 计算机技术与发展, 2016, 26(3):31-35.

[12] 启明星辰.大数据下的流量异常检测策略[EB/OL] .[ 2014-01-07].http://www.venustech.com.cn/NewsInfo/531/25570.Html

[13] 宋若宁. 海量数据环境下的网络流量异常检测的研究[D]. 北京邮电大学, 2015.

[14] 李洪成, 吴晓平, 姜洪海. 基于改进聚类分析的网络流量异常检测方法[J]. 网络与信息安全学报, 2015, 1(1):66-71.

[15] Zhang J, Li H, Gao Q, et al. Detecting anomalies from big network traffic data using an adaptive detection approach[J]. Information Sciences, 2015, 318(C):91-110.

[16] 欧阳根平. Hadoop云平台下基于离群点挖掘的入侵检测技术研究[D]. 电子科技大学, 2015.

[17] Jabez J, Muthukumar B. Intrusion Detection System (IDS):Anomaly Detection Using Outlier Detection Approach ☆[J]. Procedia Computer Science, 2015, 48(3):338-346.

[18] 郭春. 基于数据挖掘的网络入侵检测关键技术研究[D]. 北京邮电大学, 2014.

[19] Lee Y J, Yeh Y R, Wang Y C F. Anomaly Detection via Online Oversampling Principal Component Analysis[J]. IEEE Transactions on Knowledge & Data Engineering, 2013, 25(7):1460-1470.

[20] 倪谢俊. 基于数据挖掘的异常流量检测技术[D]. 华东师范大学, 2016.endprint

猜你喜欢
聚类大数据分类
分类算一算
分类讨论求坐标
数据分析中的分类讨论
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
一种层次初始的聚类个数自适应的聚类方法研究
自适应确定K-means算法的聚类数:以遥感图像聚类为例