基于强化学习的网络欺骗防御动态部署研究

2021-12-14 11:07邵晓刘曼琳
网络安全技术与应用 2021年12期
关键词:攻击者部署服务器

◆邵晓 刘曼琳

基于强化学习的网络欺骗防御动态部署研究

◆邵晓 刘曼琳

(海军士官学校 安徽 233012)

网络欺骗通过在系统内部署虚假的安全弱点,将入侵者引入错误资源达到让其产生错误感知,减少网络安全风险的目的。但传统的网络欺骗防御资源为静态部署,存在着数据收集面较窄、难以适应攻击者的变化等缺陷。本文通过研究基于强化学习的网络欺骗防御动态部署,使用DQN算法找寻网络欺骗防御动态部署的最优策略,实现针对网络渗透攻击者的最佳防御效果。

强化学习;欺骗防御;动态部署

随着信息化和大数据时代的到来,网络空间的博弈也日趋激烈,网络空间安全形势整体比较严峻,网络安全事件频发,网络攻击者的攻击态势也呈现出手段更加先进、方式更加隐蔽、目标更加具体、组织更加严密等诸多变化,配合高技术手段和自动化的攻击装备,导致传统的安全防御手段难以满足现在复杂的网络安全形势。网络欺骗防御通过在网络中部署各种欺骗资源,可以达到干扰网络攻击者的攻击,掩盖网络中的重要目标,识别网络攻击者的攻击手段,延缓攻击者的攻击效果,为最终诱捕提供环境创设条件。人工智能中的强化学习和网络安全防御的结合,为更加有效地防御网络进攻提供了新的方法和途径[1-2]。文献[3]利用强化学习帮助网络防御有效部署IDS设备。文献[4]基于强化模型辨别攻击者的攻击路径并以此进行网络漏洞分析。文献[5]将在引入强化学习算法的同时,将攻击图融入攻防博弈模型,设计了一种网络主动防御策略生成方法。本文通过将强化学习模型算法融入网络欺骗防御中,形成网络欺骗防御的智能动态部署中,提高网络防御效果。

1 网络欺骗防御

网络欺骗防御(Deception)是网络防御者通过观察攻击者的网络攻击行为,诱骗攻击者或恶意应用暴露自身攻击意图和攻击手段,以便防御者能据此采取更加有效的防护措施。网络欺骗防御并不等同于传统的蜜罐(Honey Pot)或蜜网技术,除了需要具备与攻击者交互布放诱饵的能力,网络欺骗防御更重要的在于通过伪装和混淆,使用误导、错误响应或其他手段将攻击者诱导至蜜罐中,使其远离重要保护目标,增加攻击者的攻击难度和攻击成本。因此网络防御需要有一个集中管理控制的策略,来创建、分发和管理欺骗资源,如服务器、网络设备、网络应用、网络服务、协议、数据、用户等元素,通过这些元素来诱导吸引攻击者。新的AI技术,特别是基于深度学习的强化学习技术,可以让网络欺骗防御产生与生产环境相匹配的诱饵和欺骗凭证,并能实时自动生成、部署和维持欺骗的进行以及真实性维持,是未来主动防御技术的一个重要的发展方向。

2 强化学习及其模型表示

强化学习是机器学习的一个领域,强调如何基于环境进行行动从而得到最大化的预期利益。通过给定一个马尔科夫决策过程,强化学习寻找一个最优策略,策略就是状态到动作的映射,使得最终的累计回报最大。以单智能体-环境模型为例,单个智能个体和环境之间进行交互,通过操作个体进行决策,来选择相应的操作,操作后环境状态会改变,得到采取动作后的奖励值,如此循环往复,在某个时刻个体采取动作的策略的概率表示为:(|)=(A=|S=),其中表示环境状态,是一个有限的状态集合,S表示在时刻环境的状态,表示个体动作,是一个有限的动作集合,A表示时刻个体采取的行动。当出现某个行动后,下一个出现行动的概率为:

在策略和状态时,采取价值函数V()表示为:

()=E+1+γR+2+2+3+...|t=)

其中为衰减因子或折中因子,一般取[0,1]之间,当取0时,表示为贪婪法,当取0至1之间的数值则表示当前延时奖励的权重比后续奖励的权重大。

其中为奖励函数表示的是一个期望,环境状态下行动的奖励函数表示为:

根据这个模型表示,整个强化学习的马尔科夫决策过程为:

(1)在t=0时刻,随机初始化状态0~P(0)

(2)智能体根据当前环境状态t选择行动方案t

(3)智能体采取行动后环境给出奖励rt~R(|St,At)

(4)环境给出下一时刻的状态St+1=P(|t,t)

(5)智能体接收新的奖励Rt以及环境状态t+1

3 基于强化学习的网络欺骗防御部署策略

3.1 网络欺骗防御部署场景分析

由于网络攻击的状态随时变化,因此网络欺骗防御的部署需要根据当前网络安全状态变化进行智能化调整,在保证网络欺骗防御部署稳定的同时,防止由于攻击者识破欺骗防御资源节点导致部署效能的降低。根据强化学习及其模型表示,将网络防御者看做智能体,当前网络及攻击者看做环境t,实施网络欺骗防御部署动作为,防御动作作用于环境后引起网络攻防态势转换将环境转变为t+1,同时防御者会得到反馈奖励t,如此反复学习后,最终将得到一个最优策略π,依据该策略,防御者可以最大可能提高网络欺骗防御效能并对攻击者进行诱捕。在这个过程中,从防御者的角度分析,攻击者的攻击方式主要存在以下两种不确定性,一是网络防御系统的误警或漏警导致对攻击者攻击路径推断的不确定性;二是攻击者对攻击目标的兴趣分布和入侵成功率的不确定性,这两种不确定性也是导致环境状态变化的因素,并且能够在网络欺骗防御网络中进行传导。

3.2 网络欺骗防御部署模型表示

按照强化学习的模型表示以及其决策过程,针对网络环境中的诸多不确定因素,需要通过强化学习来动态部署网络欺骗防御资源,智能选择部署模型,通过强化学习让网络欺骗防御部署策略随着网络环境状态的变化而变化,据此可以将策略表示为:

可见累计值越大,策略越优即:

3.3 模型求解

虽然在网络欺骗防御部署场景分析中知道,网络防御系统对入侵检测具有一定的漏警或误警,但考虑到在实际网络攻防环境中遭受的攻击均能为模型的强化学习提供相应的数据,因此通过将多次行动的累计奖励平均值近似为累计奖励的期望值。在网络规模不大,且状态和动作空间离散、维度不高的情况下,可以使用传统的Q-Learning算法进行求解。但真实的网络环境复杂多变,为了让策略求解的泛化性能更好,DeepMind将深度学习技术和强化学习结合,使用DQN深度卷积网络CNN来逼近值函数,并且利用经验回放训练强化学习的学习过程,通过独立设置了目标网络来单独处理时序差分中的偏差,使得DQN在高位连续的状态和动作空间有较好的应用。该算法主要包括以下步骤:

(1)输入状态空间和动作空间,分别用和,衰减因子γ,并设置学习率α;

(2)初始化经验池D,容量为N;

(3)随机初始化Q网络参数Ψ及Ψ´;

(4)repeat:初始化网络起始状态s0;

(5)repeat:在状态s0选择动作a=πε;

(6)执行动作a,观察网络环境后得到当前动作的奖励r以及新的环境该状态s´;

(7)将s,a,r,s´放入经验池D中进行采样st,at,rt,st+1;

(9)until:s为终止状态,返回步骤(5);

如果只从已知信息中获得最大化奖励而不是从全局的角度出发挖掘环境信息,难以求得最终结果,因此使用ε−greedy策略融合探索和利用,以1-ε为概率从所有行动中随机抽取at=maxa Q(St,a)。

4 实验

4.1 实验拓扑

为验证策略的有效性,搭建实验拓扑如图1所示。攻击者可以通过外部网络进入本网络区域,整个内部网络分为3个部分,分别为DMZ区域、核心服务区域以及客户终端区域,其中DMZ区域主要有一台Web服务器S1提供Web服务,核心服务器有3台服务器,分别是文件服务器S2、数据库服务器S3、邮件服务器S4,客户终端区域主要有客户终端H1至H5,其中客户终端H1是被网络隔离的。

图1 实验环境拓扑图

4.2 实验方法

根据实验拓扑结构分析,除终端H1外,网络中可以有8个有效的欺骗资源部署位置,网络初始状态s0=[0 0 0 0 0 0 0 0],网络攻击者的攻击目标为文件服务器S2,攻击者在内部网络横向移动,网络内部防御中的漏警、误警使用伪随机数生成,模型的训练过程依靠告警数据,与真实网络攻防特点相符,实现对未知网络攻防环境的有效模拟。

在实验中,使用策略πd部署网络欺骗资源,整体防御成功率ps(πd)=(num/sum)*100%,其中num表示能成功防御网络攻击的次数,sum为模拟攻防的总次数。

4.3 实验结果及分析

(1)网络欺骗防御静态部署

网络欺骗防御静态部署的实验结果差异性较大,如图2所示,不同部署位置、不同的漏警率和误警率下最终的防御成功率ps差异较大,最高能达到71.8%。但在实际网络攻防过程中,静态部署策略结果受到攻击者攻击方式影响较大,难以获得最优的防御策略,导致防御效果很难保持稳定,如果静态部署策略被攻击者识别或侦破,则很难起到网络防御的真正效果。

(2)基于强化学习的网络欺骗防御动态部署

通过强化学习的网络欺骗防御部署,随着强化学习的轮数提升,防御成功率ps逐渐提升,最终稳定到80%以上,且在不同的漏警率和误报率下,其ps保持相对的稳定,能够较好地满足不用场合下对网络欺骗防御的部署要求。

图2 网络欺骗防御静态部署实验结果

图3 基于强化学习的网络欺骗防御动态部署实验结果

5 结束语

本文基于强化学习的网络欺骗防御动态部署,根据强化学习模型对网络欺骗防御中的深度学习的场景进行了分析,提出了在强化学习下网络欺骗防御模型算法的实用性,并给出了相应的求解步骤,最后通过仿真实验对策略的有效性进行的验证,理论分析和实验结果均表明,该方法能有效提高网络欺骗防御的成功率,最大可能实现对入侵者的干扰。

[1]王硕.面向多阶段渗透攻击的网络欺骗防御方法研究[D].战略支援部队信息工程大学,2020.

[2]王率.网络欺骗和嗅探技术研究[J].网络安全技术与应用,2013.

[3]Venkatesan S,Albanese M,el.al.Detecting stealthy bontnets in a resource-constrained environment using reinforcement learning[C].Proceddings of 4thACM Workshop on Moving Target Defense.AVM,2017.

[4]Yan J,He H,et al.Q_learning-based vulnerability analysis of smart grid against sequential topology attacks[J].IEEE Transactions on Information Forensics & Security,2017.

[5]金志刚,王新建,李根.融合攻击图和博弈模型的网络防御策略生成方法[J].信息网络安全,2021.

猜你喜欢
攻击者部署服务器
机动能力受限的目标-攻击-防御定性微分对策
一种基于Kubernetes的Web应用部署与配置系统
晋城:安排部署 统防统治
部署
通信控制服务器(CCS)维护终端的设计与实现
PowerTCP Server Tool
正面迎接批判
得形忘意的服务器标准
部署“萨德”意欲何为?
计算机网络安全服务器入侵与防御