数据挖掘在计算机网络病毒防御中的应用

2020-11-26 12:07白轶车宇
电子技术与软件工程 2020年4期
关键词:防火墙数据包数据挖掘

白轶 车宇

(中国核动力研究设计院 四川省成都市 610041)

数据挖掘技术作为一种新型技术,通过对数据的深入挖掘与分析了解网络病毒的规律,并为计算机网络病毒防御工作提供重要参考依据。当前人类的生活方式发生了翻天覆地的变化,生活水平在提升的同时,人们需要依靠电子数据完成交流与沟通活动,而信息技术的价值也得到了广泛的认可,由于当前网络病毒侵害计算机现象较多,有必要应用数据挖掘技术剖析病毒数据,帮助计算机抵御病毒威胁。

1 计算机网络病毒特征分析

1.1 隐蔽性

计算机病毒的隐蔽性是最为核心的特点之一,尤其是针对企业计算机群组的攻击性病毒,由于网络安全防护能力较高,所以病毒的隐蔽性也经过了大幅度的升级。在大数据时代,以APT攻击为首的网络病毒类型已经产生了多种变种,并且其具有极高的隐蔽性,潜伏期也通常较长,对于计算机网络的破坏效果明显。同时这类病毒也能够获取海量的数据,并通过建立的隐蔽信道把数据传出,无论是对于传统的物理防火墙还是软件防火墙,都容易在这一攻击手段之下无法发挥应有作用。

1.2 资源占用性

资源占用性体现在两个方面,一种是以计算机硬件资源占用为目标的攻击类病毒,另一种是以数据获取为目标的非法侵入性病毒。前者运行过程会通过病毒的自我繁殖,在最短的时间之内导致计算机系统瘫痪,作为一种大能量破坏性病毒,当前发挥的价值较为有限,近些年这类病毒基本不再出现。后者在运行过程必然会侵占计算机系统的硬件空间,或者对原有的软件系统造成较大的运行负担,占用资源现象无法避免,并且在数据的传输层面也会占据较大的空间。

1.3 非法侵入性

在非法侵入性方面,所有的病毒都不会冠冕堂皇的被安装到计算机硬盘之内,而是会通过系统本身存在的硬件或软件错误以及缺陷,通过某种手段存储于硬件设备之中。非法侵入性病毒在大数据时代具有更高的隐藏效果,尤其是对于APT攻击,通常情况下,计算机系统本身不会产生报错,同时专业化的防火墙也难以完全阻隔针对网络系统的攻击,自然容易出现大范围的数据泄露问题。

2 数据挖掘技术应用原理

2.1 数据的采样

数据挖掘技术必然需要从数据源以及数据流中获取样本,记录在某个时间段内的所有数据包,并且分析当前是否存在恶意攻击行为,而在各类数据包内都含有相关的数据身份表明密文。在未遭受攻击之时,这类密文中含有的字符具有极高的线性相关效果,但是在一些隐蔽性攻击中,会通过对于数据包的恶意更改,让数据包可以携带隐藏的信息,虽然该方法容易引发数据的丢包问题,但是造成的损失往往由计算机网络和硬件设备的保有者承担,攻击者无需注重该问题的既成后果,在防御用的数据挖掘技术中,必然会通过对这类数据的采样和使用,从中找到各类数据的分布模式,为后续的分析工作奠定基础。

2.2 数据的识别

在数据的识别阶段,要求已经获得了的数据样本要经过全面以及细致的分析,确定所有数据是否遭受了篡改,从而判断当前是否出现了严重的网络攻击。在大数据时代,由于个人信息以及企业信息能够为非法分子带来更多的收益,所以这一攻击方法成为了主流,本文也只是研究了大数据时期的多种主要攻击手段,从实际的作用效果上来看,正是由于这类攻击手段难以被计算机系统察觉,会导致原有的各类防范手段失效,在数据的识别阶段,采用网络数据挖掘技术,自然可以详细的分析各类数据和字符的构成、字符的集中范围、数据的集合模式等。

2.3 问题的查找

问题的查找过程需要找到在遭受攻击之时攻击程序的存储节点和分布区域,以APT攻击为例,数据挖掘技术可以在极短时间内实现对规划范围内节点的数据分析工作,并且把节点分配为根节点以及叶节点,当发现某节点和正常运行状态下的数据不符,则分析以该节点为中心,周边节点的数据产生情况,并且将存在缺陷和故障的节点记录在案,从而合理确定当前网络攻击的蔓延范围,并且可以通过生成攻击图的形式,让专业人员可以找到最佳的问题处理手段。

3 计算机网络病毒防御用数据挖掘技术构成

3.1 关联规则设定

网络数据的传播阶段,计算机系统的硬件设备、软件体系中都具备一定的关联方法,包括节点之间的关联、数据层面的关联、数据库中各类数据表现之间的关联等,常用形式包括因果关联、简单关联和时序关联三种,并在最终构成关联网络。从最终产生的数据效果和字符含量上来看,未被攻击的数据体系具有极高的线性相关性,即某数据的产生频率基本相同,并不会出现突然变化状况。数据挖掘技术的构成过程必然需要通过对关联规则的设定和使用,根据不同的关联方式找到各类节点之间的关联模式,从而让分析的数据类型和数据表现可以更好地支持应有的分析工作,以最大限度提高整个系统的运行稳定性和病毒防护的高效性。

3.2 数据聚类分析

大数据技术的一个重要表现模式是,可以在极短时间内分析获取的数据样本之间产生的相互关联效果,在具体分析过程,通过对已经记录的数据包中,大量密文字符构成状态的分析和验证,可以研究是否存在数据的聚类现象,并且分析数据包的本身构成状态。当发现字符之间不存在极强的线性相关性时,可确定当前该计算机网络已经被病毒攻击,并且这一信道的数据包发挥了网络攻击中的隐蔽信道作用。通过数据的发掘,可以把数据包中被检测的密文纳入到详细的分析模型内,才可让检测系统更好地研究是否遭受了攻击。

3.3 数据分类分析

数据的分类分析作用区域是计算机软件中,所以有数据的模块和节点,通过分析可以让该系统能够处于安全稳定的运行状态。不同软件在运行过程,其数据的分类和具体表现形式具有较大不同,软件系统可以支持不同类型的功能。防护用计算机挖掘技术的建立过程,要求最终构筑的项目要能够从根源上研究不同数据包和数据集合体的发挥功能类型,并在这一基础上,找到各类功能的实现方式,从而让该系统可以处于科学高效的运行状态。

3.4 数据类型研究

无论是当前常见的何种常见攻击方式,只要最终目的是意图通过攻击手段,从计算机网络系统中获得数据,都会通过建立的隐蔽信道获得各项信息,而隐蔽信道的常用作用表现形式是通过对于数据包中密文的处理、记录和篡改,让数据包记录另类信息。这一攻击手段会让原有密文部分的数据丧失线性相关性,而在数据挖掘技术的使用过程,可以通过对于密文部分字符构成的分析,研究在不同时间段内是否出现密文的非法输送现象,确定存在隐蔽信道之后,可以按照APT攻击的检测工作模式,研究当前系统中是否存在节点的被篡改问题,以此为标准落实后续的研究项目。而APT攻击作为当前较为成熟的大数据攻击技术,基于攻击图的防护方法可以选用,核心技术是数据的发掘,通过数据的归类、分解、表现形式的验证等,找到APT攻击的具体影响模式。

4 数据挖掘在计算机网络病毒防御中的应用研究

4.1 序列分析与关联规则

在动态数据的统计处理中应用序列分析,可以得到有效的分析结果。该方法应用时就是将随机数据序列规律作为研究重点,以此为基础探究试验库内所有计算机网络病毒数据序列,然后再进行数据挖掘分析,利用数据挖掘技术构建序列模式模型。这一阶段需要用到数据挖掘算法,对时间序列加以搜索。关于数据挖掘序列分析算法的应用程序如下:如果事件库D交易T和时间戳间的关系十分密切,这时交易处于(t1,t2)范围之间,且事件库D内包含了x、y、z,这时序列规则可以用xy-}z来表示,规则支持度和置信度分别为Support(x}JY}JZ)和support(X U Y U Z)。

数据挖掘技术在网络病毒防御应用过程中,关联规则是指某一类数据内会有被发现的内容,在变量取值中具有一定规律可循。这种规律的存在可以体现出数据和数据间的密切关系,且联系十分紧密。应用数据挖掘技术可以分析数据之间的关联规则,并将具体关联规则划分为时序关联规则、简单关联规则、因果关联规则等。数据挖掘技术在应用的同时应对数据库的数据展开分析,寻找数据与数据的关联,找出数据变化规律,以此为前提找到关联网,明确所有数据在数据库内的关联规则,再对不同的关联规则进行分类处理,最终形成数据组,方便为日后计算机网络病毒防御提供数据参考。

4.2 聚类分析与异类分析

数据挖掘技术中的聚类分析具体指对得到的数据包分解,分解后产生不同组别,每个组别间都有相同点和不同点。从数据之间的异同角度出发,对网络病毒数据展开实时聚类分析,识别数据分布疏密度,观察数据分布模式,从中总结出每一组数据的特征和数据间的关联性。与聚类分析相对应的是异类分析,异类分析也被成为孤立点分析,结合数据库的不同点,即与其他数据存在较大偏离差距的信息,这部分数据信息和常规数据在规模上偏差较大。根据这一特点展开数据集聚分析,寻找数据孤立点,判断孤立点与其他数据是否有联系,如果没有联系,且数据规模偏差较大,说明当前计算机网络内部也发生了异常,这部分数据就是病毒数据,要求相关人员提高警惕意识,做好网络病毒的防御工作。

4.3 计算机网络病毒防御系统设计

4.3.1 检测模块设计

依靠数据挖掘技术创建计算机网络病毒防御系统,对海量数据有效筛选,构建模型后寻找网络病毒的入侵特点,将挖掘到的数据存入数据库内,为今后的病毒防御做准备。网络病毒防御系统已数据为中心,实时记录并分析大量数据,应用数据挖掘技术记录系统日志审计信息,从中找出入侵行为,解决病毒入侵问题。由于数据挖掘需要耗费较长时间,可以将研究的重点放在入侵检测模型中,系统提取网络病毒特征,并建立入侵检测模型。

4.3.2 控制防御模块设计

不同防火墙有着不同程度的防御功能,多数计算机网络设备集成中带有防火墙系统,比如混合式防火墙。这些防火墙可以防御恶意数据入侵,保护计算机数据。该计算机网络病毒防御系统的设计应用了Linux系统,Iptables是系统中自带的防火墙功能。分析Iptables防火墙在病毒防御系统内的应用,主要体现于以下两方面:

(1)非法字符控制。字符串是最常见的病毒形式,在sql内输入指令时如果带有“or 1=1”,应使用防火墙控制非法字符,将数据包拦截后避免数据库被损坏。防火墙可以在string模块中控制非法字符,这一模块和防火墙字符串相互匹配,并匹配数据报文,以浏览器的方式在sql注入。可见防火墙对字符串匹配时能够拦截域名、限制域名,阻止域名访问,减少木马入侵次数。

(2)应用防火墙控制非法IP抵制,拦截恶意IP数据。应用防火墙的过滤功能丢弃IP数据报文,截断恶意IP地址和网络的连接,防止其向计算机发送恶意数据包,禁止用户访问该地址。

4.3.3 后续处理模块设计

检测模块和控制防御模块设计完成之后,应检测入侵到计算机内网中的病毒,再进一步展开防御处理。以上模块无法完善病毒防御系统,还应该对病毒入侵做好后续处理,将网络入侵情况及时反馈给用户。后续处理模块具有监控效果,能够将系统监控数据如实记录,方便管理人员处理数据,且该模块拥有通知功能和防御控制功能,发生病毒入侵时能够及时通知管理员,向对方发送邮件,将网络病毒的类型和等级反馈到管理员,方便管理员采取处理措施。数据反馈之后,管理员对网络病毒类型展开分析,探究病毒原理和特点,应用Olly Debug工具分析病毒,及时更新病毒库,将新病毒填入库内,逐渐提升系统防御效果。

5 总结

总而言之,本文应用数据挖掘技术对计算机网络病毒的入侵情况进行在线检测和控制,使用数据挖掘算法分析病毒,围绕病毒入侵展开讨论。根据数据挖掘技术的应用原理,结合网络病毒的特征表现,设计出计算机网络病毒防御系统,通过检测模块、控制防御模块、后续处理模块的优化设计,实现对病毒的科学防范。

猜你喜欢
防火墙数据包数据挖掘
构建防控金融风险“防火墙”
SmartSniff
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
在舌尖上筑牢抵御“僵尸肉”的防火墙
下一代防火墙要做的十件事
基于GPGPU的离散数据挖掘研究
视觉注意的数据包优先级排序策略研究
移动IPV6在改进数据包发送路径模型下性能分析
筑起网吧“防火墙”