基于GAN-RL模型的通信设备运维终端安全防御策略研究

2023-11-05 11:33林宇峰李红伟

电气技术与经济 2023年7期

刘鹏林宇峰李红伟舒放曹凯马捷

（广东电网有限责任公司珠海供电局）

0 引言

近几年来，全球网络安全事件数量迅速增长，网络安全态势日益严峻，网络攻击越演越烈。电网网络是一个庞大复杂的人造物理系统，其中包含了众多平台和设备，所以一旦发生网络安全事故，其影响范围往往非常广泛且严重。随着新一代电力系统建设和数字电网转型，通信专业网络安全水平成为电网安全运行亟需解决的关键问题。

在现场安全检查工作中发现，通信专业使用的LCT本地维护终端、录音等工控机、网管工作站等运维终端都不同程度存在如下运行风险：（1）运维终端在使用过程中无审计功能，没有对班组现场作业人员使用运维终端作业的过程记录，导致事后无法有效追溯；（2）使用非生产专用U盘等移动存储介质容易将恶意代码病毒传染到现场运维终端，存在导致光通信设备、数据网设备感染病毒停运、泄露电网设备核心生产数据和配置信息等风险，严重影响通信设备及承载的保护、自动化、安稳等生产实时控制业务通道运行；（3）班组现场作业人员在运维终端开展作业时，可能因误操作导致设备配置非法变更、关键进程停运或安装执行未授权文件，可能导致通信运维终端无法工作，影响通信设备运维工作。

人工智能技术的发展，在为电网带来威胁的同时，也为电网安全主动防御技术的提升带来了机遇。基于人工智能的电网安全，国内外学者进行了系列研究，文献［1］将深度学习技术引入电力信息网络入侵检测系统，研究者将深度学习策略与入侵检测系统相互结合，针对入侵检测数据集中数据不平衡和未知攻击行为进行了改进，测试结果表明系统在分类精确度、召回度方面取得了良好成效。为确定电网的最优防御措施，文献［2］和文献［3］采取分布式保护策略，将全部电网分为为若干子系统网络，同时利用混合线性规划模型来确定电网防御的最低防护级别。为了降低经济成本，文献［4］则提出了将博弈理论引入到电力系统防护策略中，构建了max-min后悔策略，从而实现了成本的最优化。然而，在真实电网运行中，运行环境复杂多变，攻击者所采用的攻击手段也千变万化，采用固定的防御策略很难起到充分防守效果。分析研究上述文献发现，研究内容对复杂电网运行环境及攻击者攻击手段的演化更新问题鲜有考虑。

为了解决上述问题，本文提出了基于生成对抗网络-强化学习（Generative Adversarial Networks-Reinforcement Learn，GAN-RL）模型的通信设备运维终端安全防御策略，将攻击者和防御者视为两个对抗竞争者，引入生成对抗网络模型。同时采用强化学习策略，使得防御者能够随着电网运行环境和攻击者攻击状况的改变而采取实时主动防御。

1 基于GAN-RL的智能电网运维终端安全防御策略

1.1 GAN-RL的网络模型

1.1.1 基于电网攻防的GAN网络模型

生成对抗网络（GAN）的思想来自于与电网攻防场景中的攻击-防御者相似的两人零和博弈情景，因此基于电网攻防的GAN网络模型中的攻击-防御双方相应的分别被视为攻击武器生成模型（Attack Weapon Generation Model，AWGM）和防御判别武器模型（Defensive Discriminant Weapon Model，DDWM）。攻击武器生成模型AWGM探测电网安全防御系统运行样本进程的特征，结合服从某一特征的噪声n生成与防御系统中真实运行进程p_process相似的进程，目的是学习真实运行进程的特征分布。防御判别武器模型DDWM是一个将目标样本从训练进程以及生成进程中分开的二分类器，如果样本来自于真实的训练进程，那么防御判别武器模型DDWM输出较大的概率数值，否则输出较小概率数值。为获得电网攻击或防御的胜利，攻击武器生成模型AWGM和防御判别武器模型DDWM均需要不断对自身进行优化，提升自身攻击能力和防御能力，两者最后达到一种纳什均衡。基于电网攻防的GAN网络模型框架如图1所示［5］。

图1 基于电网攻防的GAN网络模型总体框架

基于电网攻防的GAN网络的模型求解实质是Min-Max最优化问题，该问题的目标函数可以表示为：

其中，A（z）表示由攻击武器生成模型AWGM生成的尽量服从真实进程特征p_process的样本，该目标函数旨在最大化DDWM的区分度，同时最小化AWGM的真实进程分布，最终两者达到均衡。通过策略的运行，电网攻击者的攻击能力和防御者的防御能力均实现提升，有利于面对电网真实攻击者的实时攻击。

1.1.2 基于电网攻防的GAN-LR网络模型

由于在进行攻防对抗过程中，攻击者的攻击手段变化多样，同时电网安全状况也非常负责，固定的防御策略很难保证电网的网络安全，因此本文在对抗生成策略的基础上考虑电网网络环境状态的实时变化，并对以往采取的防御措施进行效果评估，从而提高电网防御者的防御能力。

在基于电网攻防的GAN-LR网络模型中，电网防御者作为防御智能体通过在电网运行环境中持续进行采样，目的是学习到一个最佳电网防御策略π。当电网的防御智能体学习到某个防御策略π时，则不论在任何时间步对应状态s下均可以获得接下来将要执行的防御动作a。当一段防御时间过后，电网防御智能体在该防御策略下获得的累计奖励r的期望称为电网防御价值v。电网防御智能体框图如图2所示。

图2 电网防御智能体Reinforcement-Learn框图

将强化学习与生成对抗算法相结合的GAN-LR网络结构如图3所示，模型包括3个主要部分：（1）对抗生成模型，用于生成经验样本；（2）真实进程池PP1与虚拟样本池PP2，其中PP1的作用是存储电网防御智能体与运维终端运行电网环境交互期间得到的真实经验样本，而PP2则是被用来存储对抗生成模型生成的进程样本，两个进程池一起为电网防御智能体提供训练样本；（3）关系修正单元，作用是训练PP11中状态-防御动作对［s，a］与其后状态奖赏对［s′，r］之间的关系，目的是对攻击武器生成器模型AWGM进行性能增强。

图3 电网防御智能体GAN-LR网络结构图

然而传统强化学习算法只能处理动作离散的强化学习任务，而本文研究的电网防御措施属于连续强化学习任务，因此采用深度确定性策略梯度算法（Deep Deterministic Policy Gradient Algorithms，DDPG）。相对于传统强化学习策略，深度确定性策略梯度DDPG进行了改进，主要体现为：采用深度神经网络作为函数的近似使得深度强化学习可以处理确定性策略问题、引入经验回放机制解决了数据间的相关性和非静态问题、使用双网络结构（在线网络和目标网络）使得算法的学习过程更加稳定且收敛更快。流程框架如图4所示。

图4 电网防御者深度确定性策略梯度流程框架图

在DDPG中分别利用参数为θμ的策略网络来表征确定性策略a＝μ（s｜θμ），输入参数为电网运行状态，输出变量则为电网防御智能体的防御动作a；同时利用参数θQ来表征动作值函数。

1.2 安全防御策略应用效果

利用上述基于GAN-LR模型的安全防御策略，进一步研发了相应的通信设备运维终端安全管控软件系统（如图5、图6所示），该系统实现了终端系统固化、存储介质认证和恶意代码防范等系列电网安全防御功能。

图5 通信设备运维终端安全管控软件系统

系统测试运行后，能够隔离病毒（如图6所示），从而防御各种类型的攻击，图7为系统测试24h内防御的外部攻击类型统计。

图7 测试期间攻击类型统计图

2 结束语

本文通过将生成对抗网络的博弈理论与强化学习决策理论相结合，提出了基于GAN-RL模型的智能电网运维终端安全防御策略。与传统强化学习策略相比，采用了深度神经网络的函数逼近，从而使得算法的学习过程更加稳定且收敛更快。由于电网安全防御的时间紧急性，为了提高网络模型的训练速度，采用多模拟器并行策略。测试结果表明，本文提出的防御策略，对电网通信等各专业设备运维终端能够起到良好的安全防御作用。