智能化网络安全攻击检测中数据抽取和分析

2021-09-22 07:44魏建立

电子技术与软件工程 2021年13期

魏建立

（北京华科软科技有限公司北京市 100044）

网络安全攻击在日常生活层面和国家政治层面都比较常见，新闻媒体经常爆料哪个国家的哪些部门在哪些时间段遭受到不明目标的入侵。例如FireEye在2020年12月透露目前多个国家部门、企业、机构正在遭受网络安全攻击，黑客通过木马渗透目标网络，通过网络监控管理软件控制目标签名证书，这样黑客就可以直接对目标用户的账户进行控制，一旦入侵目标的公司签名证书被黑客获取则表示目标用户的账号已经被完全控制。如果没有网络安全攻击检测系统可能人们使用的电脑在不知情的情况下沦为黑客的肉鸡，可见网络安全攻击系统的研发和更新非常重要，而目前网络安全攻击检测研发的方向是智能化、可视化。

1 智能化网络安全攻击检测技术发展背景

信息化、智能化、数字化已经潜移默化地成为当前时代的标志，一方面互联网带给了我们生活和工作上的便利，另一方面互联网又将我们的隐私信息置于随时可能暴露的网络之中。在此背景下，网络安全防护技术人员开始研发更加智能化的网络安全攻击检测系统，但是目前网络安全攻击检测技术发展仍然没有明确的方向，研发人员必须在此背景下积极从不同思路研发智能网络安全攻击检测系统，哪家企业能先研发出智能化水平更高的网络安全攻击系统，该企业就在这个信息化、智能化、数字化时代抢占先机，从而提高互联网信息数据交互过程中的安全性。

2 智能化网络安全攻击检测平台框架设计

智能化网络安全攻击检测平台应该具备分析网络风险因素、感知网络风险因素以及预测防范网络风险因素的能力，因此可以基于数据展示层、数据分析层、数据抽取层、数据库四个层面搭建智能化网络安全攻击检测平台框架，具体框架图如图1所示。

根据图1可知：智能化网络安全攻击检测平台框架先通过业务系统和物联网输入数据，然后再分别经过数据库、数据抽取层、数据分析层、数据展示层处理网络数据，最后才能辨识其中存在的网络安全风险。其中数据库包括告警数据、日志数据、流量数据等内容；数据抽取层主要将使用数据抽取模型将日志数据和流量数据抽取到数据分析层的大数据分析中，或者直接将告警数据抽取到数据分析层的威胁态势分析中；而数据分析层中大数据分析通过置信传播和逻辑回归将数据传输到展示层中，而威胁态势分析直接将分析结果传输到数据展示层；数据展示层主要分为用户管理、运维管理及可视化展示等模块。

3 智能化网络安全攻击检测技术

3.1 数据抽取模型

网络安全攻击检测平台需要尽可能检测出更多数据，但是网络安全检测数据包括漏洞、补丁、恶意软件等数据，基于分词方法建立数据抽取模型的智能化水平不足，因此必须从算法角度进行更新，确保网络安全攻击检测平台数据抽取模型能够智能化辨识各类网络安全检测数据。其中基于模型特征模板、卷积神经网络算法、随机场算法构建的智能化网络安全攻击检测平台数据抽取模型如图2所示。

图1：智能化网络安全攻击检测平台框架

根据图2可知：智能化网络安全攻击检测平台数据抽取模型先从数据库中抽取漏洞、补丁、恶意软件等网络安全检测数据，然后经过模型特征模板和卷积神经网络算法（CNN算法）可以得到对应特征向量，而特征向量经过随机场算法可以抽取最优特征向量序列，最后智能化网络安全攻击检测平台数据抽取模型输出网络安全检测数据。

图2：智能化网络安全攻击检测平台数据抽取模型

3.1.1 模型特征模板

智能化网络安全攻击检测平台数据抽取模型采用模型特征模板则首先需要收集大量的网络安全检测数据，通过提取数据的特征向量建立不同类型网络安全检测数据的模板，专业在识别新的网络安全检测数据时即可直接按照模板特征向量判断数据类型。但是模型特征模板在建立模板窗口过程中容易出现窗口过大问题，而窗口过大会导致过拟合现象出现，此时模板窗口提取特征向量的效率大大降低。因此模板特征模板想要得到合理应用必须调整模板窗口的大小，这样才能得到所有特征向量的总序列。网络安全检测数据特征与网络安全检测数据字段、特征数据、数据信息字符的相对位置有关，而网络安全检测数据特征信息可以向特征向量序列转换，因此基于模型特征模板可以得到特征向量的总序列。

3.1.2 卷积神经网络算法

智能化网络安全攻击检测平台应用卷积神经网络算法可以抽取数据的字符级特征，该算法的优点是可以对细粒度更高级别的特征进行处理，而且卷积神经网络算法本身自身在数据处理灵活性方面具有较好表现。卷积神经网络算法下数据抽取模型特征提取首先需要初始化数据、输入字符向量、设置参数，在保证模型特征提取速率的情况下尽量减少内存消耗；然后才能构建卷积神经网络模型，该模型由卷积层、池化层、全连接层、输出层组成；最后通过开始训练、模型测试、内存优化、字符特征向量提取等流程输出网络安全检测数据的特征信息。

3.1.3 随机场算法

智能化网络安全攻击检测平台应用随机场算法可以独立提取数据特征向量，而基于模型特征模板和卷积神经网络算法提出网络安全检测数据特征向量无法做到这一点，因此随机场算法可以与模型特征模板、卷积神经网络算法形成互补。链式随机场算法可以根据整体特征向量的标签顺序的概率计算出特征向量损失值，首先数据抽取模型输入网络安全检测数据标签特征序列，然后使用模型特征模板根据特征向量在不同时刻的标签权重计算出权重值、权重向量和特征向量的总序列、权重矩阵和输出层数据特征向量，最后才能得到最有标签的网络安全检测数据结果。

3.2 网络安全分析方法

智能化网络安全攻击检测平台数据分析应该采用逻辑回归下的网络安全分析方法，该方法采用二元分类处理网络安全检测数据，其逻辑回归模型需要根据网络安全检测数据的特征序列对应类集合和预订类几何确定，然后根据网络安全检测数据特征序列的权重系数以及特征向量的攻击概率即可得到抽取数据的二元分类结果。为了减少二元分类结果的分析偏差，可以采用置信传播判断网络安全检测数据的分析结果可信度。置信传播首先需要构建智能化网络安全攻击检测贝叶斯网络，然后根据样本攻击特征概率和条件概率更新贝叶斯网络节点并得出置信度，最后根据置信度判断二元平衡分类结果是否可行，如果可信则先更新数据库再输出网络安全检测数据的数据分析结果，如果不可信则直接输出网络安全检测数据的数据分析结果。

智能化网络安全攻击检测平台应该同时使用模型特征模板、卷积神经网络算法、随机场算法搭建数据抽取模型，并且使用逻辑回归和置信传播的网络安全分析方法提高样本分析的精确程度。

4 智能化网络安全攻击检测中数据抽取实验与分析

4.1 实验环境

智能化网络安全攻击检测中数据抽取实验在CentOS6.8 64位操作系统、英特尔22纳米工艺、8核心十六线程E5-2640v2CPU（主频2.0GHz）、16G内存、1T硬盘等硬件环境下进行，而实验软件在Win10操作系统下进行操作。

4.2 数据样本

智能化网络安全攻击检测中数据抽取实验共使用六个服务器与以上硬件设备构成的主机一同构建智能化网络安全攻击检测平台，服务器网络安全检测数据全部来自于用户服务器，根据抽取的网络安全检测数据评估该数据是否存在恶意入侵或者攻击客户服务器的可能。实验使用的网络安全检测数据样本包括反向恶意代码、僵尸网络、Xing GuoQuan等恶意软件，其中反向恶意代码的执行空间为用户空间，其特性为能够与用户服务器建立外方向连接；僵尸网络的执行空间同样为用户空间，但是其特性为能够与用户服务器建立主从僵尸网络连接；Xing GuoQuan恶意软件的执行空间为内核空间，其特性为能够在内核执行的过程中与用户服务器建立外连接。

4.3 实验内容

智能化网络安全攻击检测中数据抽取采用基于模型特征模板、卷积神经网络算法、随机场算法构建的数据抽取模型，数据分析采用置信传播模型和逻辑回归网络安全分析方法，实验数据样本从反向恶意代码、僵尸网络、Xing GuoQuan等恶意软件中随机选择，对攻击用户服务器概率与真实值分布在0～2GB数据量之间的样本进行分析对比，同时使用仿真软件对数据量与攻击概率和损失值之间关系进行分析。

4.4 实验结果

根据实验环境、数据样本和实验内容可以得到网络安全检测数据量与攻击概率与损失值之间的关系。网络安全检测数据量从0GB增加到2GB时，置信传播模型下攻击概率在攻击概率真实值上下波动，真实值攻击概率为84%，置信传播模型攻击概率在82～86%之间；逻辑回归网络安全分析方法的攻击概率同样在攻击概率真实值上下波动，但是波动频率较置信传播模型更大，网络安全分析方法的攻击频率在77～88%之间；网络安全分析方法的网络安全检测数据损失值比贝叶斯分类法低，可见网络安全分析方法更加智能。

5 结论

综上所述，智能化网络安全攻击检测中数据抽取与分析首先应该构建数据抽取模型，而数据抽取模型可以同时应用模型特征模板、卷积神经网络算法、随机场算法搭建，三种算法结合可以弥补网络安全攻击检测数据抽取灵活性、检测效率、检测量等方面的缺点，合理使用不同算法才能提高网络安全攻击检测的智能化水平。而网络安全攻击检测中数据分析可以采用逻辑回归和置信传播得到网络安全检测数据的分析结果，这种判断方式可以减小判断结果偏差。