网络安全态势感知中数据融合算法应用综述

2020-07-13 02:58苏小玉徐奎奎

河北省科学院学报 2020年2期

苏小玉,徐奎奎

(河北经贸大学信息技术学院，河北石家庄 050000)

0 引言

随着我国网络发展规模和现代网络安全技术的快速发展,国家网络大数据信息资源安全面临着各种安全威胁。个人信息和重要数据泄露风险严峻；多个高危漏洞曝出给我国网络安全造成严重安全隐患；针对我国重要网站的DDoS攻击事件高发；利用钓鱼邮件发起有针对性的攻击频发。因此，网络安全状态下的大数据具有潜在的要素获取、评估和预测的方法，这是大数据资源安全的保障。许多研究学者开始注意到，只是依赖单个的网络安全设备不能做到有效地保护整个网络的安全以及管理人员不能及时作出决策。因此，我们亟需构建统一的网络安全管理平台，针对分布式部署的异构安全设备存在的信息处理问题，能够做到及时响应和处理。

网络安全领域中大多数的安全设备都处于被动的静态防护，各种设备之间缺乏有效的管理调度机制，使得网络安全防护在面对日益严峻的安全威胁时显得力不从心。态势感知技术综合了网络监控设备、网络物理设备的数据，实现多源异构数据之间的连接。在实际中,告警提示事件不是孤立性地存在的,其中可能存在一定的空间时序或者一定因果间的关系。利用数据融合处理技术、可视化分析技术等手段融合处理异构化的数据。数据融合的主要基本原理[1]与利用人脑综合智能处理环境信息的操作过程相同,充分利用各种环境信息源的资源,根据信息优化计算准则,将各种环境信息源在知识空间和思维时间上充分结合利用起来,对我们观测到的环境信息产生一致的科学解释和准确描述。同时,利用多样化的安全信息提供多样化的数据分析,进而通过多样化的安全视角,帮助安全系统管理员更好地正确制定安全策略并有效提高网络安全性。

1 网络安全态势感知系统框架

国内外研究网络安全态势感知模型主要有JDL模型[2]、Endsley模型和Tim Bass模型。态势感知是由M.R.Endsly[3]在1958年提出的，定义为“在一定时间和空间内对环境中元素的感知，对其意义的理解，以及在不久的将来对其意义的理解，以及在不久的将来对其状态的预测”。T.Bass[4]提出一种基于多传感器数据融合的入侵检测框架，并将框架应用于网络安全态势感知系统。

本文基于Endsly模型进行进一步研究。多源异构数据环境下的态势感知系统，采用了层次化的设计思想，建立了一个层次化的网络安全态势感知模型。该模型分为三个功能层，分别为多源信息层、网络安全态势评估层和网络安全态势预测层，如图1所示。

多源信息层，多源异构网络安全数据通过网络的关键设备Snort入侵检测系统中获得。一级指标包括网络拓扑信息、主机信息、报警信息。其中主机信息二级指标包括主机权重、主机漏洞和漏洞静态严重性、服务和服务权重。

网络安全态势评估作为网络安全态势感知的中间层，有着承上启下的作用。评估层通过收集信息层的安全要素，将安全要素量化为具体的值，为网络安全态势预测提供历史数据。

网络安全态势预测层级是根据网络上一层安全态势评估的分析结果,预测未来一段时间内的安全发展状态。管理人员根据预测分析结果可以提前做出预警并且及时主动作出合理决策,采取一些相应措施可以避免造成损失。

安全态势感知体系运行主要有四个环节：态势感知要素信息提取、态势评估(信息融合态势分析)、态势变化预测、可视化态势分析。本文重点阐述多源异构数据的融合，即态势评估。

图1 网络安全态势感知模型

2 多源异构数据及态势指标的建立

安全态势感知系统建设的难点之一是多源异构数据的收集、集成、验证和协同处理。多源数据异构性是指生成数据的设备和系统之间以及数据类型本身之间的差异。

威胁性数据，即报警信息。在网络内部条件不变时，各类的网络攻击对网络产生的危害程度。通常采用Snort入侵检测管理系统、漏洞分析扫描器、防火墙等手段获取告警信息、流量监测信息、漏洞分析信息等。不同安全设备提供的数据存在内容和格式不同的问题。这类数据的类型包括DOS攻击、蠕虫攻击、木马病毒等。

基础性数据，即主机设备数据，这类数据的类型包括CPU利用率、占用内存的大小、网络流量等。其中网络流量数据的数据格式多变，一般可以划分为三种：基于网络协议的流量数据；基于主机的流量数据；基于时间的流量数据。

脆弱性数据，即网络拓扑数据。在网络上没有受到攻击时网络中的配置信息，这类数据的类型包括漏洞、系统配置、防护软件等。

不同安全设备采集网络安全日志，例如主机漏洞扫描软件Nessus,网络漏洞扫描软件Nessus扫描网段的主机，开放的端口和网络服务，以及网络服务是否存在漏洞，将扫描的结果记录到日志中，这些日志包括体现威胁性的Snort报警日志、基础性数据的流量日志、脆弱性数据的漏洞日志等。这些日志信息体现了真实网络的运行状态，包含大量结构化、半结构化数据。针对此问题,学术界关注提高网络安全管理的效率。通对对安全监测设备进行数据采集，数据的预处理，这其中涉及很多相关的技术，主要包括数据融合、数据挖掘、特征提取等技术[5]。利用这些技术手段，从海量的日志和告警数据中提取真正的危害事件，并通过数据融合技术感知整个网络安全的态势。

3 多源异构数据融合算法

多源数据融合是针对单一数据源无法有效感知态势信息的问题，通过数据融合技术提取有效特征，挖掘数据信息，评估网络安全态势，进而预测网络安全态势，构建整体的网络安全态势感知系统。数据融合分析技术主要模型包含贝叶斯网络、D-S证据融合理论、粗糙集理论、神经网络、隐马尔科夫模型等几种融合方法。

3.1 基于贝叶斯网络的态势感知

贝叶斯网络模型是基于概率分析的一种数学网络模型。为了解决理论不确定性和不完整性知识表示而提出的推理模型,表现为一个赋值且具有复杂因果关系的图形化网络，有关贝叶斯网络内容参见文献[6]。

Bode等人[7]为了确定网络环境中风险的结果，检测不可预测的网络攻击和威胁，使用贝叶斯网络分类方法对正常网络流量数据集上的攻击或威胁进行良好的筛选，以减少不确定性，利用改进的风险矩阵准则进一步分析了风险水平。采用开源KDDCUP99数据集进行实验，数据集中所有重要属性采用风险矩阵对攻击的风险区域进行分析，从分类结果看，贝叶斯网路分类器适合于网络安全的分类模型。

刘飞飞等人[8]通过动态贝叶斯网络方法对网络攻击中各种因素进行综合分析，建立了评估指标体系，对网络中攻击的效果进行动态的评估，克服以往依靠拓扑单一指标的缺点。仿真结果表明，该方法综合了攻击中的多节点和观测信息，提高了攻击的精度，使得攻击效能更高。

Wu Y[9]提出基于贝叶斯网络的安全态势感知模型。首先采用层次化和时间序列相结合，既符合实际需要，又可以进行时间的动态调整。其次采用贝叶斯方法，结合历史数据和实验数据进行有效预测。实验结果表明，该方法具有较高的准确性。

3.2 基于D-S证据理论的态势感知

Dempster-Shafer理论(D-S证据理论)通过各个网络安全设备提供的日志数据来进行挖掘。有关 D-S理论内容参见文献[10]。

许多研究人员已经将D-S证据理论应用于网络异常检测，态势评估中。

Zhang W[11]提出了一种基于改进D-S证据理论的数据融合方法。通过计算证据之间的Bhattacharyya距离，得到各证据的置信度，减少了复杂环境中负面因素的影响，进一步解决证据冲突问题，提高了融合结果的准确性和有效性。实验分析结果表明,该分析方法不仅可以有效解决真实证据之间冲突大的问题,而且可以得到充分反映真实情况的证据融合分析结果。

王法玉[12]提出一种多源事件融合的网络安全态势评估方法。将数据属性相似度分析算法与D-S证据融合理论算法相结合,对相关事件数据进行属性关联和数据融合;利用模型和层次分析法确定权重系数，融合攻击信息和漏洞信息得到网络安全态势图。

Li L[13]提出一种将递归神经网络(RNN)与改进D-S证据理论相结合的新模型。为了克服传统证据理论的不足，提出了两种改进策略。一方面，在证据理论中对水质时间序列的相关关系进行了分析，并利用相关系数来确定证据数量，有效地减少了证据选择中的不确定性。另一方面，为了减少证据冲突的可能性，避免历史预测残差为零时模型失效的发生，提出了一种改进的基本概率分配函数，新函数能有效地解决传统函数中权重分配失败的问题。将改进的D-S证据理论应用于水质监测，对提出的模型进行验证，与SVR、BPNN等相比，新模型具有较高的精度和较好的稳定性。

3.3 基于粗糙集理论的态势感知

粗糙集理论(Rough Set Theory)由1982年由波兰著名学者Z.Pawlak提出，该理论借助信息系统处理知识的方法，对提取的有关网络安全性的要素参数进行高度冗余并将要素参数约简,将安全性的要素参数进行高度量化。网络安全态势感知可以通过关联安全事件和不同安全设备生成的日志来发现真正的威胁，并准确地感测网络安全状态。

Liu J[14]提出了一种基于粗糙集的网络安全态势关联方案，将粗糙集理论引入网络安全态势感知中，分析了多种网络安全设备产生的海量审计信息。利用粗糙集理论中的约简方法对冗余数据特征进行约简，然后利用序列模式挖掘算法生成考虑网络安全事件时间序列特征的相关规则，它可以在不需要任何先验知识的情况下生成相关规则，解决了大规模安全事件的简化和关联问题。但是该方法还存在一些不足之处，由于属性约简处理的原因，该方法具有稍高的误报率。基于粗糙集理论的方法可以大大减少计算量，但可能带来更高的误报率。因此，未来方向可以围绕基于粗糙集理论的属性约简精度与异常行为识别率之间的关系做研究。

赵冬梅[15]提出一种基于特征属性重要度和熵矩阵的并行属性约简算法。该算法引入了一种并行属性约简的计算思想,首先将单个的特征属性信息通过表达式扩展区分为多个,其次通过利用条件熵计算特征的重要度,最后依据并行约简计算规则进行删除冗余项。实验分析结果表明,该分析算法经过约简之后的数据特征不仅具有更高的数据分类分析性能,同时它还可以有效实现网络安全发展态势相关要素的高效分析获取。

3.4 基于神经网络的态势感知

人工神经网络(ANN)通过抽象人脑神经元处理信息的方式构建神经网络模型。目前，神经网络模型在态势评估和预测中取得了大量的新研究成果。

Xiao P[16]提出了一种基于MEA-BP网络模型的网络安全态势预测模型。根据网络安全发展态势的数值非线性化和时间变量序列的计算特点，研究者在采用BP算法时，发现该方法具有局部最优解、迭代次数多、效率低的问题。为了克服这些缺点，研究者利用智能进化算法优化BP网络的权值和阈值，并利用MEA开发了一个MEA-BP模型来预测网络安全状况。以蜜网的实际数据作为样本，对结果进行检验，验证模型的准确性。结果表明，该方法能提高检测精度和效率。

Wei F[17]针对传统的神经网络预测方法在预测精度、鲁棒性、效率等方面存在的不足，提出了一种基于门控递归单元(GRU)的递归神经网络(RNN)预测的新方法。深度RNN模型充分利用了时间域、光谱域和空间域的多源异构信息。该方法首次从原始时间序列网络数据中提取内部和外部信息特征。NSS经过时间、空间和光谱特征将由内部和外部信息特征表示，时间特征将由GRU-RNN提取。然后，将提取的特征应用到深度RNN模型中进行训练和验证。经过迭代和优化，训练的模型可以获得网络安全态势预测的准确性，对于不稳定的网络数据发现，该模型具有较强的鲁棒性。虽然深度RNN模型需要更多的训练时间，但它们保证了预测的准确性和鲁棒性。

Jiang Y[18]对RBF神经网络进行训练，找出前N数据与后M数据之间的非线性映射关系，并通过改变N值来研究不同的态势预测结果。实验结果表明，预测效果良好。

Lison P[19]提出一种基于递归神经网络的模型，用于检测恶意软件生成的域名，更精确的感知网络的攻击和安全状态，该模型在由各种恶意软件生成的大型训练集上进行测试，检测精度很高。

Haibo Zhang[20]为了提高网络安全态势的预测精度，提出利用改进的小生境遗传算法(INGA)，建立了基于小波神经网络(WNN)的网络安全态势预测模型。该模型采用非线性能力强、容错率和性能好的小波神经网络。考虑到传统自适应遗传算法动态收敛速度慢，容易陷入早熟收敛的问题，为了有效解决遗传算法的早熟收敛问题，引入了一种新的小生境技术和动态模糊聚类消除机制，最后的仿真结果表明所提出的INGA-WNN预测模型具有更快的收敛速度和更高的预测精度。

3.5 基于HMM的态势感知

隐马尔科夫模型(HMM)是马尔科夫模型的推广。有关马尔科夫模型及隐马尔科夫模型内容参见文献[21]。

目前，基于隐马尔可夫模型的预测是通过已知状态来预测未知状态，但是现有的方法不能很好地利用历史数据来预测未来的形势变化。Liang W[22]提出了一种基于加权隐马尔可夫模型(HMM)的网络安全态势预测模型。该方法利用多尺度熵信息来解决训练数据的问题。利用多尺度熵方法选取合适的数据尺度因子，将其作为隐马尔科夫模型的训练数据，得到状态转移概率矩阵。对隐马尔可夫转移矩阵的参数训练进行了优化。将相关系数作为预测网络安全形势变化的权重，相关系数可以合理地利用历史数据特征之间的关联来预测未来的安全形势。结果表明，该方法准确有效。

Li X等人[23]提出在基于HMM的网络安全态势评估方法中，建立时间段大小提取模型的观测值和参数是影响评估实时性和准确性的重要因素。由于在网络安全性和实时性的有效表征上无法达到均衡。而且状态转移矩阵和观测符号矩阵往往是经验确定的，具有很强的主观性。为了解决上述问题，作者利用滑动时间窗机制提取观测值，并采用混合多种群遗传算法(MPGA)对HMM模型参数进行训练，以提高参数的可靠性。实验表明，该方法能有效、准确地反映当前的网络安全状况。

Liu SC[24]针对在我国网络安全攻击风险因果评估中,多个网络攻击活动步骤之间的风险因果相互关系是否可以用网络攻击曲线图评估模型很好地准确描述这一关键问题,提出了网络攻击图模型和隐马尔可夫攻击模型(HMM)的一种融合评估方法。首先,利用网络攻击图的模型提取计算网络攻击环境和攻击者的攻击活动行为;其次,利用隐马尔可夫模型算法建立计算网络环境观察与状态攻击行为状态之间的攻击概率关系映射;最后,利用维特比微分算法建立计算最大攻击概率值与状态攻击转移率的序列。实验研究结果表明,该分析模型能有效地计算出网络状态转移因子序列的最大攻击概率,进而准确地帮助指出网络攻击者的意图。

4 数据融合算法评述及发展趋势

数据融合技术应用于网络安全态势感知的基础层，算法各有优缺点。贝叶斯网络模型具有强大的数据表达不确定性相关知识、进行不确定性相关知识综合推理的两大优点,使得我们构建的数据模型对网络安全中的态势感知处理系统可以进行更加准确的态势预测和数据分析。D-S证据理论因为在不确定性问题的表述的优点被应用于信息融合、态势感知领域。但是该方法多个证据时存在证据高度冲突的问题。粗糙集理论的优点是从多量异构的数据中找到有效的规则，并将其转化为逻辑规则。网络安全态势评估中态势值具有非线性时间序列的特点，神经网络模型对于处理非线性数据具有很好的优势。但该方法的不可解释性的问题依然是各个研究学者进一步的研究方向。当网络受到威胁时发现攻击者对于网络的攻击具有准确的意图，融合多源异构的网络安全数据，利用HMM模型进行攻击意图的识别，进而获得网络安全的状态。各融合算法的优缺点如表1所示。

表1 各融合算法的优缺点

在多源异构融合信息的分析处理中,已有很多学术研究者将多种新型融合分析算法相互结合在一起来进行研究，例如贝叶斯网络与攻击图[25]的结合、贝叶斯网络与粗糙集理论、贝叶斯网络和卡尔曼滤波[26]的结合，这种算法结合起来研究也将是一种未来的学术研究发展趋势；对于数据融合算法在时间和空间的复杂度的优化也是一种研究趋势。目前的网络安全态势评估中的态势值是通过对指标要素的多角度融合得出的，但是缺乏计算模块化的态势值。研究模块化的态势值对于网络管理人员进行及时的决策具有重要意义。

5 结束语

数据的融合分析技术可以作为网络安全态势评估预测系统的一个关键技术,从多维度对网络安全态势感知进行综合评估与分析预测。本文针对当前的研究现状，构建了网络安全态势感知框架，分析了多源异构数据的来源并且建立了态势指标体系。从数据融合算法的角度，综述了现有的几种主流融合算法，并重点指出各融合算法的不同优缺点,为后续学术研究工作奠定起了理论上的基础。当前的国际网络安全环境越来越复杂,各种新型网络攻击控制手段层出不穷。利用数据融合技术，有效的提高网络安全态势的分析效率，为安全管理人员提供更准确的决策具有重要意义。