网络安全态势感知关键技术研究

2017-03-17 11:01李奎
电脑知识与技术 2016年32期
关键词:技术研究数据挖掘网络安全

李奎

摘要:信息安全问题突出,而且随着接入互联网的设备类别增多,物联网和云计算技术的广泛应用,计算机网络面临的安全威胁也越来越多。就此给出了网络安全态势感知技术概念,引出了计算机网络安全态势感知系统所包含的关键技术,包含了数据挖掘,融合,评估和网络安全预警等可以提高复杂网络的管理成效的技术。

关键词:网络安全;数据挖掘;技术研究

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)32-0026-03

计算机网络和经济社会的关系越来越密切,但是由于我们在前期网络系统设计时安全因素的考虑不够周到,针对网络安全的设施设备投资滞后,已经出现了大量的网络安全事件,对经济的发展构成了极大的威胁,大量的公民财产也受到损失,影响了社会的稳定,因此计算机网络环境的安全防护也成了一个紧迫的任务,其中计算机网络安全态势的评估和预测一定要是准确有效,把对网络安全的威胁减少到可以承受的代价。

互联网内的接入设备种类繁多,使用的网络协议复杂, 信息格式繁杂,产生的网络事件信息格式更是标准不一,而且划分的风险等级标准不一样,对收集来的大量信息无法汇总分析,就无法预测捕捉危害网络安全的行为,无法判断当前的网络安全态势,难以作出有依据的决策,无法有效保护网络安全。为了让网络和信息安全得到防护,急需要有对网络安全的态势进行及时有效的监测新技术和新方法。于是就提出了网络安全态势感知技术应对这一威胁,是信息安全研究领域的一个重要方向。

1网络安全态势感知系统及其技术概述

1.1网络安全态势感知系统基本结构

网络安全态势感知系统用以对网络安全进行监测与预警,实现网络安全的系统,因此系统要收集防火墙、杀毒软件、IDS和安全审计系统等各种安全防护系统的各种状态值,然后进行数据融合,利用融合后的数据对当前的网络安全态势进行感知评估,并且对网络安全的变化形式进行趋势预测,进行主动响应和有效的控制动作。

按照影响网络安全态势的相关数据处理的流程包括数据挖掘、数据融合、安全态势评估和安全态势预警四个步骤,在开发的软件中一般有态势可视化模块方便用户管理。我们可以把网络安全态势模型包含从低到高三个级别,网络安全态势要素获取是第一级也是最低级别,网络态势理解包含了融合获取的数据和关联这些数据,是第二个级别,态势预测包含了评估和预警,并给出态势的发展趋势,是态势感知的最高层次。

1.2关键技术

1.2.1数据挖掘技术

为了解决互联网爆炸式增长的信息和数据需要高速处理之间的矛盾,出现了一种数据获取新技术即数据挖掘技术。在1989年8月在国际人工智能会议上首次提出了这一概念,现在已广泛应用到网络入侵检测以及现在的网络安全态势感知的数据获取领域。所谓的数据挖掘技术是指对海量、冗余数据进行分析,发现其内在隐含规律和潜在关联关系,并将其服务于特定应用场合的过程。数据挖掘所提取的知识可表示为概念(Concept)、规则(Rules)、規律(Regularities)、模式(Pattern)等形式,是数据库中的知识发现(Knowledge Discovery in Database,KDD)的核心环节。

在网络安全态势感知使用的数据挖掘技术有关联分析和聚类分析等两种技术。关联分析是综合考虑挖掘的数据之间的联系,即在给定的数据集中,挖掘出支持度和可信度分别大于用户给定的最小支持度和最小可信度的关联规则,常用算法有Apriori 和 FP-growth算法。聚类分析是指依据数据的不同特性将数据聚集为不同的簇,每个簇在数据特征上具有一定的相似性。聚类分析方法不要求对数据进行事先分类,其应用场景较为广泛。

1.2.2数据融合技术

军事领域最早提出数据融合概念,实现对现代战场中来自于多个渠道的信息的快速有效处理。数据融合技术是一种对多源数据进行分析和综合处理,以服务于特定任务决策的技术[3]。

数据融合领域使用的典型算法是D-S证据推理和贝叶斯网络。数据融合技术又快又好发展的关键是设计出高效、快速的融合算法,多学科技术综合应用可以设计出更好的算法,更能推动网络安全态势融合技术的发展。

1.2.3数据可视化技术

数据可视化技术是指通过图像处理技术将数据信息通过图形图像的形式表现出来的技术[4]。该技术是一项综合处理技术,涉及图像处理、视觉处理等多个领域。其主要思想是通过对复杂、抽象数据的图形化处理,将人们不易理解和接受的数字化数据转换为易于理解的图形,从而提高人们对海量信息的理解[5].将数据融合后进行评估分析取得的有意义以及可辅助进行决策的信息转换成图形或图表以供可视化显示,让用户进行快速理解和处理。

1.2.4其他技术

数据简约是指对数据进行压缩简化,把不影响结果的多余的数据去掉。数据约简技术简单来说就是可以减少数据分析、数据传递等处理过程的数据量,有效增强后后面数据处理的成效。数据约简主要包括:属性简约、值约简、属性值约简。

2网络安全态势感知模型

2.1 网络安全的主要威胁

由于网络的开放性,不同的设备和系统接入,让网络着许多的安全威胁,攻击行为大概有以下几种:假冒,拒绝服务,窃听 后门等。

2.2网络安全态势分析

从网络态势安全感知系统的角度来看,针对安全需求主要包含了资产识别、脆弱性识别、威胁检测、安全态势评估以及安全态势的预测。

2.3网络安全态势感知指标体系

根据国家制定《信息安全风险评估规范》,资产的价值、威胁发生的可能性、威胁的严重程度、资产的脆弱程度等是网络安全态势感知主要因素,可以作为网络安全态势感知一级指标。

2.4层次型网络安全态势感知模型

在充分考虑了态势感知数据挖掘、融合和评估后,参考了数据的处理过程后,研究了PSO和 SVM 的网络安全态势评估技术和基于改进 Elman 神经网络模型的态势预测技术,建立了层次型网络安全态势感知模型。

3基于PSO参数优化的SVM算法的网络态势评估

3.1 SVM理论

支持向量机(support vector machine)是一种分类算法,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。该理论可以解决模式识别和回归等问题,也可以进行预测和综合评价。以下是根据最优化理论得到优化问题的对偶问题。

MaxQ(a)=[i=1lai-12i,jl]xixjyiyjaiaj

s.t.[i=1l]ajyj=0(C≥ai≥0;i=1,2, …l)

其中本 文 对 于 分 类 问 题 给 出 一 个 描 述 : 给 定 训 练 集 其 中T={(x1,y1),(x2,y2),…(xn,yn) ,其中xi是输入的指标向量,且满足xi∈X=kn,yn是输出结果,且满足yn∈Y={-1,+1},其中,i=1,2,…,n。在包含n 个样本点的训练集中,对于任意给定的一个新模式x,都能够推断它所对应的输出结果y是 1 还是-1,也就是寻找一个规则,可以将 Rn的点映射为两部分的规则。C为常数且C≥0。当 C值太大时 ,分类出错时就会遭到严重处罚。

在处理实际问题时,二分类问题是比较理想的状态,更多的是多分类的复杂问题。模型的误差惩罚系数C和核函数会影响分类结果,因此有必要对SVM参数进行优化。我们采用了1999年Eberhart提出的粒子群优化算法(PSO)。

3.2 SVM参数的优化

它把粒子作为问题空间的一个可行解,通过粒子本身与同伴信息引导粒子在解的多维空间飞行,最后找到粒子最优位置[6]。具体公式如下:

Vik(t+1)=wVik(t)+c1r1(Pik(t)-Xik(t))+c2r2(Pgk(t)-xik(t))

Vik(t+1)=Xik(t0+vik(t+1)

其中:Xi(t)为粒子的位置;Vi(t)为粒子的速度;w 是惯性权重;c1、c2是加速度常数,一般情况下满足 c1= c2=2;r1和 r2为 0~1 之间的随机数。

为避免一个粒子找到最优解吸引其他粒子导致粒子群早熟等,我们采用混沌理论对粒子群的gbest的粒子进行混沌变异操作,防止粒子位置趋同,避免出现上述的缺陷。对混沌原理添加混沌搅动得到:

Zk=(1-a)Z*+aZk

其中:α∈[0,1],表示扰动的强度;Zk表示迭代 k 次时的混沌 向量;Z'k为添加扰动后混沌向量;Z*为混沌系统的不动点。采用扰动的强度 α 进行自适应取值,在搜索初期,其值较大,然后慢慢减小,具体为:a(k)=1-(k-1)n/kn

3.3试验验证

3.3.1定性的评估指标的量化,建立评估矩阵。

采用了二元对比排序法,使用了李克特评价分级表,制定了5级等级标准。

每个指标 ui分别按评判集中对应的vj进行评分;按公式计算各指标ui对评判集V的第 j 个元素vj的值 rij。

Rij=nij= ntotal

得到了评价向量ri=(ri1,ri2,…rik),共有n个指标形成映射关系最后得到评估矩阵。

我们设置了实验环境并确定了试验评价标准:

E=∑F(H+1)T/A,F 为攻击频率; T 表示时间重要程度; H 表示主机重要程度; A 表示攻击威胁等级。

经过试验,根据攻击能量和评估结果对比,两条曲线基本吻合,证明了评估方法对网络安全威胁态势评估的正确性和合理性。

4 改进的ELMAN神经网络的态势预测方法

4.1神經网络理论

人工神经网络是一种由大量节点所构成的非线性、自适应智能信息处理系统。人工神经网络是在模仿人体神经网络工作原理的基础上,模拟大脑对信息存储、处理的方式来处理复杂问题处理。其中的每个节点被称为神经元,代表一种特定的输出函数,又被称为激励函数[7]。两个神经网络之间有加权连接,表示神经网络的记忆。激励函数和连接权重是神经网络的关键,不同的激励函数和连接权重形成了不同的神经网络。

对有导学习,假定输入x 对应的期望输出为 d,权值为 w(t)=(w1,w2,…,wn,θ)T,则,神经元学习算法的内容是确定神经元的权值调整量?w(t),并得到权值调节公式:

w(t+1)= w(t)+ηΔw(t)

其中,η 称为学习率,?w(t)的值一般与 x、d、w 有关。

4.2双反馈 Elman 神经网络的优化

原始 Elman 神经网络模型采用梯度下降算法,其网络输出与历史状态的关联性较强,从而导致其学习速度较慢,初始误差较大,容易陷入局部极小值状态,优化效果并不理想[51]。 为克服原始 Elman 网络的不足,本文引入了双反馈 Elman 神经网络模型。与原始 Elman 神经网络相比,双反馈 Elman 神经网络在输出层节点的增加了反馈,将输出层反馈与输入层和承接层单元一起作为隐含层输入,对误差进行及时修正,提高了学习速度,进而提升了 Elman 神经网络的信息处理能力。双反馈 Elman神经网络的表示公式如下:

x(k)=f(WI1xc(k)+wI2u(k-1)+wI4yc(k-1), xc(k)=a(xc(k-1)+x(k-1))

Yc(k)=?(yc(k-1)+y(k-1)), y(k)=g(wI3x(k))

4.3优化参数

在神经网络态势预测模型中引入趋势修正因子,用于引导和修正态势预测方向,预测值和实际值的变化方向相同,使用h函数,变化不同使用g函数。

4.4试验验证与分析

试验使用原始Elman模型和优化后的网络优化模型对网络安全态势进行预测。试验结果显示优化后的预测精确度要更高。

5 总结

文章对网络安全态势感知技术产生背景进行了概述,通过对数据流程的分析,提出了网络安全态势感知技术的层次模型,并且对SVM算法进行优化,得到了准确客观的安全态势感知评估,改进了基于Elman的神经网络算法。在以后的研究中仍需要做大量的工作去完善需求和测试工作。

参考文献:

[1] Xiao Haidong,Li Jianhua.Knowledge base based Analysis of Security Situational Awareness. Proceedings of the International Conference on Networking,International Conference on Systems and International Conference on Mobile Communications and Learning Technologies, ICN/ICONS/MCL,2006(6): 284-290.

[2] 胡威,李建华,陈秀真,等.可扩展的网络安全态势评价模型优化设计[J].电子科技大学学报,2008,38(1):113-116.

[3] F.Baiardi,F.Coro,F.Tonelli, et al.Automating the assessment of ICT risk[J].Jounal of Information Security and Applications,2014(19):182-193.

[4] P. Kremen, Z. Kouba.Ontology-Driven Information System Design[J]. IEEE Transactions on Systems, Man and Cybernetics, 2012,42(3): 334-344.

[5] 梁穎,王慧强,赖积保.一种基于粗糙集理论的网络安全态势感知方法[J].计算机科学,2007, 34(8):95-97.

[6] Shui Yu,Guofei Gu,A.Barnawi,et al.Malware Propagation in Large-Scale Networks[J]. IEEE Transactions on Knowledge and Data Engineering, 2015, 27(1): 170-179.

[7] 刘宗峰.网络安全态势感知关键技术研究[0].信息工程大学, 2015.

猜你喜欢
技术研究数据挖掘网络安全
网络安全
网络安全人才培养应“实战化”
上网时如何注意网络安全?
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究