基于频繁行为挖掘的未知木马检测技术

2017-03-14 02:24敖乃翔
网络安全技术与应用 2017年2期
关键词:木马知识库贝叶斯

◆焦 栋 敖乃翔 王 辰

基于频繁行为挖掘的未知木马检测技术

◆焦 栋 敖乃翔 王 辰

(中国电子科技集团公司中国电子科学研究院 北京 100041)

本文针对木马检测技术的研究现状和难题,提出了频繁行为挖掘的未知木马检测技术。通过对历史木马的行为序列进行据挖掘分析,形成频繁行为知识库,然后采用朴素贝叶斯算法,快速判定目标程序是木马程序的可能性,并关联目标程序与知识库中频繁行为序列,寻找最相似行为,采用匹配序列的后缀行为预测木马后续攻击。

未知木马;频繁行为;木马检测

0 前言

随着网络技术的不断发展,网络开始大规模的覆盖人们日常生活、工作、学习的各个领域。在享受网络带来的巨大便利的同时,人们也面临着严重的安全威胁。尤其是在“互联网+”与工业4.0的推动下,移动互联网、云计算、大数据、物联网等与现代制造业结合,使得传统相对安全的隔离工业网络,面临着更加严峻的网络安全威胁。

木马作为一种攻击工具,被网络攻击者利用,进行账号、机密文件、隐私信息等的窃取,从而为其谋取利益,严重威胁着互联网用户的隐私和数据安全。而当木马被用来进行针对国家重要信息系统与关键基础设施的高级持续性威胁(APT)攻击时,将会造成更加严重的后果。据国家互联网应急中心(CNCERT)统计,2015年共发现10.5万余个木马和僵尸网络控制端,控制了我国境内1978万余台主机。其中,位于我国境内的控制端近4.1万个。而在国家重要信息系统方面,2015年我国境内有近5000个IP地址感染了窃密木马,存在失泄密和运行安全风险。通过以上数据分析,木马仍然是黑客进行网络窃密的重要手段,且感染数量庞大,范围广泛。而随着信息技术的发展,木马也在不断采用新技术、新方法进行演进,例如OceanLotus特种木马等,具备着文件伪装、随机加密、自我销毁等技术能力,甚至使用云控技术,以增强木马攻击的危险性、不确定性,以及被识别查杀的难度。

1 木马查杀技术研究

目前,国内外主流的木马检测技术主要可以分为两大类:一是基于特征码检测技术和二是基于木马行为特征检测技术。

基于特征码的木马检测技术:分析已知木马和被感染的系统文件,分析挖掘出木马特征,并构建木马样本特征库,这些特征是通过分析木马在目标程序中运行时进程名称、木马原始文件及生成的文件的特征字符串、文件大小及所在目录、启动加载的方式、生成的文件名、使用的固定端口等信息得出。当检测目标程序是否为木马时,通过目标程序与被感染文件的特征匹配特征库中的特征码,如果匹配,则表示目标为木马。该类方法只能识别已知木马,虽然具有较高的准确率,但却无法识别未知木马程序。同时如果系统中装了未知Rootkit后,常规的特征码检测反病毒软件将无法发现Rootkit在系统中的存在[1,2]。

基于行为特征的木马检测技术:利用木马特有的行为特征来检测木马的一种方法。该类方法主要是通过对木马进行长期的观察、分析、研究和归纳,提取出木马的特异性行为特征,而这些行为或行为组合在正常程序中不常出现。通过监视程序运行时的行为,如果发现了木马行为特征,系统就会发出可疑木马程序报警,并采取相应措施。主要的木马行为特征有:对可执行文件做写入操作、盗用截流系统中断、写引导扇区、执行格式化磁盘、修改注册表、修改启动项、修改文件关联、注册为系统服务、创建网络通信通道、常用端口服用、打开不常用端口等。虽然基于木马行为特征的木马检测方法可以检测未知木马,但是误报率高,且现有相关检测方法无法进行未知木马行为预测,缺乏对未知木马程序的有效控制手段[3,4,5]。

本文提出一种基于频繁行为挖掘的未知木马检测方法,实现了对未知木马检测与后续攻击行为的预判,弥补了现有木马检查方法缺乏对未知木马后续攻击预测的不足,给系统防护决策提供有力支撑。

2 未知木马攻击检测与预测方案

本方案是用历史发生过的木马数据变化模式判定已知与未知木马,以及预测其后续攻击行为。首先通过对历史木马的行为序列进行大数据挖掘分析,结合频繁行为序列的相关概念和方法提取出预测所需的知识,形成木马行为知识库。然后,结合朴素贝叶斯算法,基于先验行为序列,快速判定目标程序是木马程序的可能性。最后,通过大数据关联目标程序与知识库中频繁行为序列,寻找最相似行为,并采用后缀行为预测木马后续攻击。

图1 未知木马攻击检测与预测方案

2.1 知识提取阶段

步骤一:分析历史木马程序,形成行为序列库。对每一个历史木马样本,分析其在不同时段的活动行为,构成活动行为特征向量S=[(a1,t1),(a2,t2),…,(an,tn)],其中ai是行为库中的行为特征,且ti<ti+1。将所有木马样本的活动行为特征向量存入数据库,形成行为序列库。

图2 邻接频繁情节(A→B→C)挖掘自动机示意图

步骤二:挖掘行为序列频繁行为,形成频繁行为知识库。在行为序列库的基础上,对所有行为序列采用自动机(图2为邻接频繁行为序列长度为3的自动机示意)进行邻接频繁行为序列挖掘。具体挖掘过程如下:

(1)将行为序列库中所有行为特征放入候选的邻接行为序列(依据时间先后依次发生的行为即为邻接行为序列)集合中,作为长度唯一的频繁行为序列;

(2)在每一条行为序列中,通过自动机实例,挖掘长度为i(2≤i≤M,其中M是最长频繁邻接行为序列长度)的邻接行为序列并计数,如果候选邻接行为序列的出现次数超出支持度阈值(根据实际情况自行定义),则将其放入长度为i的频繁邻接行为序列集合Ei中;

(3)对Ei中的每一对频繁邻接行为序列进行匹配连接测试,形成长度为i+1的候选邻接行为序列;

(4)在i+1的基础上,重复(2)和(3),至生成所有限定长度(根据实际情况自行定义)内的频繁邻接行为序列;

(5)由所有频繁邻接行为序列集合Ei(2≤i≤M)构成频繁行为序列知识库,以支撑后续木马检测与预判。

2.2 判定阶段

在上一阶段形成的频繁行为序列知识库基础上,采用朴素贝叶斯算法[6],关联匹配目标程序与历史木马程序的频繁邻接行为序列,实现对目标程序是否为恶意木马的判定。具体步骤如下:

步骤一:对目标程序进行最长频繁邻接行为序列挖掘en=(a1,a2,…,an);(ai为行为库中的行为特征)。

步骤二:在频繁行为序列知识库关联en的匹配对象,如匹配,说明目标程序为木马,若不匹配执行步骤三。

步骤三:采用朴素贝叶斯算法,进行en是否为木马的判定。具体如下:

(1)设C={正常程序,不确定,木马}是一个随机变量分类集;

(2)基于频繁行为序列知识库,采用朴素贝叶斯算法,计算目标程序为木马程序的概率p(C|en):

(3)将en的特征值带入,可得:

(4)根据p(C|en)的最大值,可以确定en最大可能程序类型:

(5)若判定为木马,则基于欧几里得距离寻找最相似频繁邻接行为序列。

2.3 预测阶段

在预测阶段,利用上一阶段中提取出的频繁邻接行为序列后缀行为(与目标程序邻接行为序列匹配后的后续剩余行为)预测未来时序子段上的特征行为,从而完成预测工作。

3 结束语

本文提出的技术方案中采用频繁邻接情节进行知识挖掘,采用朴素贝叶斯算法进行木马判定,与现有技术相比,不仅可以提高对已知和未知木马识别精度,还可以对未知木马未来攻击行为进行预判,可有效支撑系统及时采取木马捕获和阻断等响应处置。

[1]吴润浦,方勇,吴少华.基于统计与代码特征分析的网页木马检测模型[J].信息与电子工程,2009.

[2]陈婧婧.基于行为特征的木马检测系统研究及实现[D].四川师范大学.2010.

[3]李焕洲,唐彰国,钟明全等.基于行为监控的木马检测系统研究及实现[J].四川师范大学学报(自然科学版),2009.

[4]颜会娟,秦杰.基于行为分析的木马检测系统[J].网络安全,2010.

[5]夏爱民,张宏志,杨伟锋.基于综合行为特征的木马检测技术研究[J].信息安全与通信保密,2014.

[6]阿曼.朴素贝叶斯分类算法的研究与应用[D].大连理工大学,2014.

第二步:

改变im和jm的选择方式来防止可能存在的攻击。

具体操作位:i0=FO;j0=F0+S[i0];

确定了im,则S[im]=XtmYtm,jm=jm-1+Sm-1[im];S[jm]=XnmYnm,这样再将XnmYnm的位置分别向上和向左移动Xnm+1、Ynm-1后,记S[jm]=Xnm’Ynm’。

Swap(S’[im]+S[jm])mod EF=Xtm’Ytm’,分别又将Xtm’Ytm’和向左和向下移动Xtm’+1,记S[S’[im]+S[jm])modEF=Xtm’’Ytm’’则Xtm’’Ytm’’即为密钥输出字节。

又或者当m=Pm时,则明文字节Dpm=XpmYpm运行上述改进算法时,则:

R_step1:jpm=S[ipm]=XpmYpm;R_step2:jpm=S[ipm]=Xpm‘’Ypm‘;

加密阶段为:Dpm⊕Zm=XpmYpm⊕XqmYqm=Epm;

同理,可得解密阶段为:

Epm⊕Zm=XpmYpm⊕XqmYqm⊕XqmYqm=Epm。

4 结束语

本文对无线网络安全中的RC4加密算法进行了分析和改进,使得原先无任何加密的无线网络等待了较好的保护。但是,计算机网络技术的高速发展,势必会将原有的无线局域网加密算法进行破解和攻击。在建立一套行之有效的无线网络管理安全管理模型的同时也应该及时把握时代的发展,不断探索升级原有的安全管理模型才能真正做到无线网络的安全。

参考文献:

[1]冀艾.WLAN安全机制[J]电信工程技术与标准化,2012.

[2]李东霖.基于公钥证书的无线局域网访问控制算法[D].吉林延边:延边大学,2014.

[3]耿嘉,曹秀英,毕光国.一种攻击RC4-WEP类密码的改进算法[J].通信学报,2004.

[4]胡嘉,迟全,袁巍,初剑峰,徐小博.基于抵抗故障引入攻击的RC4算法的改进[J]吉林大学学报,2012.

猜你喜欢
木马知识库贝叶斯
小木马
骑木马
基于贝叶斯解释回应被告人讲述的故事
小木马
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
旋转木马
高速公路信息系统维护知识库的建立和应用
基于贝叶斯估计的轨道占用识别方法
基于互信息的贝叶斯网络结构学习
基于Drupal发布学者知识库关联数据的研究