贝叶斯正则化在信息安全风险评估中的应用

2021-07-03 09:46
关键词:正则贝叶斯神经网络

赵 倩

(安徽警官职业学院 信息管理系, 合肥 230031)

互联网技术的飞速发展和广泛应用使得信息资源高度集中,同时增加了信息泄漏的风险,因此需要不断加强信息安全管理。进行信息安全风险评估,可为保障信息安全提供科学依据,是风险管理的重要环节。信息安全风险评估模型需要不断优化,从而尽可能排除偶然因素和人为因素对评估结果的影响,提高风险评估效率。为此,我们提出了一种基于贝叶斯正则化神经网络的风险量化评估模型:利用模糊理论对评价指标进行量化处理,以降低偶然因素和人为因素的影响;利用贝叶斯正则化算法对BP神经网络进行训练,以改善拟合效果。

1 风险评估模型的构建

1.1 贝叶斯正则化神经网络

贝叶斯定理是由概率论引申的定理,主要用于处理不确定性知识。公式(1)展现了贝叶斯正则化神经网络处理参数的核心思想,经过正则化处理后的参数能够有效提高神经网络的泛化能力[1-2]。

(1)

式中:A、B代表事件;P表示事件发生的概率。(A|B)表示在事件B已经发生的情况下事件A再发生;(B|A)表示在事件A已经发生的情况下事件B再发生。

BP神经网络的训练性能函数为误差函数(MSE),其表达式如式(2)。

(2)

式中:ED代表误差平方总和均值;n是样本集的数量;ai指网络输入;ti指与网络输入相对应的目标输出。

使用贝叶斯正则化对式(2)进行修正后,得到公式(4)。

F(w)=αEw+βED

(3)

(4)

式中:F(w)指神经网络的权重误差函数;Ew是网络中所有权值的平方和均值;m是网络权值的总数;wi是网络的连接权值;α和β为目标参数。如果α≪β,则训练算法的误差较小,可能会出现过度拟合的情况;如果α≫β,权重将会减小,并且可能会存在网络误差较大的情况[3-4]。

将网络权重视为随机变量,网络权重和训练集的先验分布视为高斯分布时,先验密度P(w|α,M)和似然函数P(D|w,β,M)的计算公式如下:

(5)

(6)

其中,

(7)

(8)

式中:M代表神经网络构架;w是网络权重的向量;N是网络权重的总数;ZD(β)和ZD(α)是归一化因子。

根据公式(1),可以得到归一化因子P(D|w,α,β,M),它不会对网络权重产生影响[3]。

(9)

结合式(2)(3)(4),可以得到:

(10)

(11)

确定目标参数α、β的值,借助式(10)和式(11),可得到目标函数F(w)的最小值。

在进行贝叶斯正则化训练时,需要判断参数α和β是否收敛:如果收敛,则完成训练;如果不收敛,则需要重新计算有效参数,再次估计α和β的值。

1.2 风险评估指标及数据处理

使用信息安全风险分析方法(ISRAM)对网络信息的安全性进行定量评估,可从后果与可行性角度对评价客体进行全面分析[5-6]。该方法将风险程度界定为1 — 5级,数值越大则风险越高。根据《信息安全技术 信息安全风险评估规范》(GB/T 20984 — 2007)提供的风险评估要素关系图,风险评估是围绕资产、威胁、脆弱性、安全措施这些基本要素而展开。由此构建包含资产、威胁、脆弱性和安全措施等4个一级指标的信息安全风险评估指标体系,确定资产(A1)的二级指标为保密性(A11)、完整性(A12)、可用性(A13);威胁(A2)的二级指标为人员因素(A21)、外界因素(A22);脆弱性(A3)的二级指标为技术(A31)、环境(A32);安全措施(A4)的二级指标为安全保护措施(A41)和安全预防措施(A42),一共包括9个二级指标。比如对资产的保密性进行风险评估,首先就是对保密性的程度进行赋值,将程度很高、高、中等、低、很低分别赋值5、4、3、2、1。但评估指标和赋值数据之间存在一定模糊性,这就需要根据模糊数学理论对指标分值进行处理[7-8]。

根据上述构建的评价指标,可以得到基于信息系统的评判因素集U={u1,u2,…,un}。通过专家评审,将所有指标分为m个等级,由此构建指标的评判集V={v1,v2,…,vm}。根据相关专家对因素集内的因素进行的描述,可得到指标评判集和评判因素集的模糊映射关系:

f:U→F(V)

(12)

其中,F(V)表示V上的模糊集全体。

定义风险因素ui对评价集的隶属向量为D={d1,d2,…,dn},可以得到对应的隶属度评价矩阵:

(13)

权重分配集为L=[l1,l2,…,ln],利用模糊变化计算,可得到风险权重W的具体数值,即W=LDT。

1.3 评估模型及评估流程

用贝叶斯正则化算法对神经网络进行训练,可以避免神经网络出现过拟合的情况。在进行风险识别之后可以得到风险因素的量化值,然后根据此量化数值评估其风险等级[9-10]。

贝叶斯神经网络风险评估流程如图1所示。

图1 风险评估流程

首先对评估指标进行模糊评判处理,得到其隶属度矩阵。由式(12)(13)(14)计算得到风险指标的量化值,再经过神经网络处理,便可以得到该组织的风险评估等级。其中,最为核心的是风险等级的计算。

通过对隐藏神经元个数和激活函数进行实验性对比,确定能够快速准确计算风险等级的最优神经网络模型。设置贝叶斯风险评估模型的输入神经元个数为9,输出神经元个数为1,隐藏神经元的个数取值为6~13。在每个隐藏神经元,评估模型均完成300次训练。训练完成之后,某一神经元数值下的模型运行10次,计算每次输出值和测试值之间的误差,进而获得拟合度R的值。实验结果如图2所示。

图2 不同隐藏神经元个数下的测试结果

随着隐藏神经元个数的增加,拟合度呈现先增大而后减小的趋势;当隐藏神经元个数为10时,拟合性最好。

选用Tansig和Logsig两种S型函数作为激活函数,以拟合度为参考标准,判断两种函数的性能。得到的结果如图3所示。采用Tansig函数,拟合度平均值为0.875;采用Logsig函数,拟合度平均值为0.866。以Tansig函数作为激活函数时,拟合稳定性也更好。因此,本次研究选用Tansig函数作为激活函数。

图3 选用不同激活函数的测试结果

2 风险评估模型的验证

2.1 仿真实验结果比较

网络信息风险数据涉及公司机密信息,因此没有公开的风险评估数据集。本次研究,使用GB/T 20984 — 2007中提供的矩阵法对企业风险数据进行仿真,以得到的仿真数据作为训练数据集和测试数据集。训练集和测试集内的数据量分别为753和594,采用贝叶斯正则化算法和LM(levenberg marquarelt)算法对神经网络进行训练,对比两种算法的训练效果。

使用LM算法在对BP神经网络进行训练时,validation checks的数值可达90,而使用BR算法,该数值为0。这说明,LM算法训练网络的性能随着训练次数的增加而不断优化;但在测试数据阶段LM算法的表现较差,使用LM算法训练的神经网络性能较为不稳定。使用BR算法训练网络,可以在一定程度上解决过拟合的问题。两种算法训练BP神经网络的相关数据显示,随着训练次数的增加,均方误差均会逐渐趋于稳定。在训练到100次时,BR算法和LM算法的均方误差值分别在0.07和0.08左右。就整体趋势而言,与LM算法相比,BR算法训练神经网络在训练状态上具有一定优势。

通过300次训练,BP神经网络的网络结构基本稳定,可用于实现网络安全评估的测试。使用训练完成的神经网络运行20次,两种算法下的神经网络对测试集数据和全部数据的拟合效果如图4所示。从图中可以看出,使用LM算法训练得到的神经网络模型的测试拟合度为0.873,而经过BR算法训练得到的神经网络模型的测试拟合度为0.907。这说明LM算法训练得到的神经网络在训练集和测试集数据的测试上出现较为明显的偏差,训练效果不稳定,而BR算法训练得到的神经网络模型具有较好的泛化能力。

图4 两种算法训练结果的拟合效果

2.2 指标试验结果比较

本次构建的网络信息安全风险评估体系,包括9个二级指标。传统的网络信息安全风险评估体系不包括“安全措施”,只有7个二级指标。理论上,新建评估体系提高了识别风险的完整性,得到的风险等级判断更具有代表性。我们基于BR算法,对新建评估体系和传统评估体系进行了仿真实验。

仿真结果显示,针对7个指标的传统评估体系和9个指标的新建评估体系,BR算法训练BP神经网络得到的训练性能、训练状态趋势是相同的。这说明,指标体系的不同并不影响BR算法训练神经网络性能的效果。在传统评估体系下,BR算法对BP神经网络进行训练,拟合度为0.841,比在新建评估体系下的拟合度(0.907)小0.066,也比LM算法训练神经网络的拟合度(0.873)小0.032。这说明,使用7个指标的传统评估体系,神经网络识别网络信息风险的能力会大幅度下降。

使用BR算法训练的BP神经网络,对不同的评估体系进行拟合效果分析,得到的结果如表1所示。在9个指标的新建评估体系下,拟合度的平均值为0.904 6;在7个指标的传统评估体系下,拟合度的平均值为0.863 5。含有9个指标的评估体系拟合效果更优,可为风险管理提供更加精确的数据支撑。

表1 两种评估体系下算法的拟合度对比

3 结 语

信息安全风险评价,主要是对企业或组织的资产面临的威胁以及由此可能产生的安全事故进行估计,需遵循可控、完整、最小影响和保密的原则。本次研究,我们对信息安全风险评估模型进行了改进,利用模糊理论对评价指标进行量化处理,使用贝叶斯正则化(BR)方法对BP神经网络进行训练,以期获得全面、科学的网络信息安全风险评估模型。对传统的“七指标”体系和新建的“九指标”体系进行仿真实验,结果“七指标”体系下的拟合度均值为0.863 5,“九指标”体系下的拟合度均值为0.904 6。对比LM算法和BR算法训练神经网络的效果,BR算法也优于LM算法。本次研究构建的信息风险评估指标体系和贝叶斯正则化神经网络模型,能够实现网络信息安全程度的有效判别。不过囿于数据缺乏,研究所用数据是通过仿真模拟合成,因此模型验证的结果存在一定局限性。

猜你喜欢
正则贝叶斯神经网络
基于神经网络的船舶电力系统故障诊断方法
MIV-PSO-BP神经网络用户热负荷预测
基于改进Hopfield神经网络的对地攻击型无人机自主能力评价
具有逆断面的正则半群上与格林关系有关的同余
基于贝叶斯网络的海盗袭击事件影响因素
基于神经网络的中小学生情感分析
任意半环上正则元的广义逆
sl(n+1)的次正则幂零表示的同态空间
租赁房地产的多主体贝叶斯博弈研究
租赁房地产的多主体贝叶斯博弈研究