一种DGA恶意域名检测方法研究与实现

2021-06-06 09:03陈娌砺

中国新通信 2021年7期

陈娌砺

【摘要】域名解析系统已经发展成为了国际互联网中一个完全不可能被忽视且重要的一个关键的基础网络设施和信息服务，难以避免被域名利用者非法利用。在深入地分析研究了网络僵尸病毒网络与DGA等恶意域名的应用之后，对当前网络市场上各种主流恶意域名安全检测解决技术特点进行了分析比较，并初步提出了一种基于字符特征来改善网络恶意域名检测技术的理论框架。该技术基本框架以支持向量机为主要的分类器，融合了一些改进的字符串特征和其他的各种统计学方法特征。实验数据表明，该技术框架在离线训练时长、对未知DGA恶意域名家族的检测能力方面表现优秀，可以较好地满足运营商大网环境下对恶意域名的检测分析要求。

【关键词】恶意域名机器学习 DGA域名支持向量机

引言：

域名解析系统（DomainNameSystem，dns）作为目前互联网最重要的信息技术和核心信息基础服务设施之一，把难以被他人记忆的互联网协议地址通过映射成为容易被他人记忆的域名[1-2]。许多网络服务都是基于域名服务而进行。

恶意网站域名指的是任何滥用该网站域名进行任何恶意操作的网站域名，主要含义指的是包括网站内容为包括传播各种恶意软件、促进恶意命令和控制（commandandcontrol，c&c）服务器[3]进行通信，发送恶意垃圾邮件、托管网络诈骗和进行网络安全钓鱼的恶意网页[4]等。

恶意域名对于人们进行网络活动中的经济和个人信息都有很大的威胁，域名安全检测也成为信息安全里的重要研究内容。

一、相关工作

1.1 实现方法

当前，有两种主要的方法来实现恶意域名[5]：fast-flux和domain-flux。fast-flux方法是[6]将连续执行每个域名和输入主机IP地址的快速映射从而对输入IP进行初始限制地址配置和其他安全技术策略丢弃或暂时丢弃，这可能导致安全专业人员无法在短时间内准确，快速地定位攻击服务器的恶意黑客的网络地理中心。domain-flux[7]有效保护攻击者实际执行的候选命令，并完全控制整个服务器（commandandcontrol，c&c），以防止恶意的候选域名在完全受控的虚拟机上被访问。

1.2相关研究

恶意网址检测方面主要有2个比较流行的做法：第一个是直接维护一个黑名单，第二个是用data-driven的方式，即设计良好的特征+机器学习分类模型来实现对恶意网址的自动分类。接下来主要为大家介绍一种基于机器学习的恶意网页检测技术。

一些现有的研究项目及其工作主要使用一些所谓的机器和深度学习技术，这些技术主要包括决策树，支持向量机（helper vector machine，svm），聚类等。文献[8]使用决策树算法基于被动DNS数据构建分类器。文献[9]从分析DNS流量和网络数据的角度总结了周期性域名发现的特征，并重构了J48决策树进行分类。

当前，用于检测和处理现有的域名检测的各种方法具有其自身的特性。但是，无论是公司顶级域名服务器，权威顶级域名服务器还是带有递归域名解析器的域名服务器，都很难获得域名流量数据和解析数据。

基于上述问题，本文分析了恶意Domain-Flux域名的特征，根据特征的内在差异选择特征，并选择与DNS流量不同的轻量级数据和结构。

二、域名特征选取及方案设计

2.1域名字符特性分析

由于DGA域名算法生成的恶意注册域名经常使用字符的一些随机字母和数字组合，在字符的概率分布方面，这些字符通常与善意域名有显着差异。选取字符特征有：字符长度、域名后缀、数字个数、数字比率、连续数字最大长度、连续字母最大长度、连续相同字母最大长度、最长元音距、域名字符熵值九个特征。

2.2特征改进

本文基于一个开放源代码的分词数据库，对域名的字符结构进行了全面的分析，并从英语域名字符组中提取了最长和可能最特殊的含义。例如，一个域名，名称为google.com，通常由域名google和com的两个单字符子字符串组成。则该字符串长度为2。将选取特征中连续字母最大长度改为拆词后字符串长度。特征改进前后如图1所示，对比正负样本区分更明显。

2.3分类算法选择

本次实验中，我们要使用一個目前应用十分广泛的算法支持向量机（supportvectormachine，svm），这个算法对正常域名和DGA域名之间的特征差异性关系进行了精确区分，svm分类算法的主要分类理论依据之一其实就是特征结构分类风险的全局最小化。svm分类算法结构是一种非常严谨的分类数学理论推导和重要的分类理论数据基础，分类的算法正确率高、稳定性好、泛化分类能力强，可以很好地快速得到全局最优值的解。

三、实验与分析

3.1数据集

本次实验的数据集由正常域名和恶意域名两个组成部分，共二十多万。使用 alexa 的排名相对比较靠前的域名作为正常域名。本文主要是通过对网络上所公开的域名黑名单进行列表分析，并且将去重的域名进行列表分析形成本文的域名样本。正负样本比例约为一比一。其中模型的训练数据占2/3，测试数据占1/3。

3.2实验对比

本文与特征改进前的方法进行了对比试验，对比结果如图2所示。

四、结束语

本文主要提出了一种基于domain-flux恶意域名的异常检测的系统，结合了九个主要特征，主要实现了基于svm算法检测的恶意域名的异常检测方案。该方法的检测准确率，查全率和Fl值均达到95%，具有良好的检测效果。另外，本文的工作也可以离线完成，不再接收DNS流量，数据收集简单。该检测解决方案解决了检测大量数据中的问题，具有良好的实用价值。

未来，改进的技术方向将主要针对不合理使用计算资源来优化总体状况，并对检测到的恶意域名进行第二次调查以提高其准确性。

参考文献

[1] MockapetrisPV.DomainNames：ConceptsandFacilities[S].RFC1034，1987.

[2] MockapetrisPV.DomainNames：ImplementationandSpecification[S].RFC1035，1987.

[3]郭晓军.面向DGA类型Bot的命令控制通信过程研究[J].网络安全技术与应用，2017（8）：48-49.

[4]AminRM，RyanJJCH，vanDorpJR.DetectingTargetedMaliciousEmail[J].IEEESecurityandPrivacyMagazine，2012，10（3）：64-71.

[5]GhafirI，PrenosilV.DNSTrafficAnalysisforMaliciousDomainsDetection[C]//ProceedingsofConferenceonSignalProcessingandIntegratedNetworks.WashingtonD.C.，USA：IEEEPress，2015：613-618.

[6]NazarioJ，HolzT.AstheNetChurns：Fast-fluxBotnetObservations[C]//ProceedingsofMaliciousandUnwantedSoftwareMALWAREConference.WashingtonD.C.，USA：IEEEPress，2008：24-31.

[7]GueridH，MittigK，SerhrouchniA.CollaborativeApproachforInter-domainBotnetDetectioninLargescaleNetworks[C]//ProceedingsofInternationalConferenceonCollaborativeComputing：Networking，ApplicationsandWorksharing.WashingtonD.C.，USA：IEEEPress，2013：279-288.

[8]BilgeL，KirdaE，KruegelC，etal.EXPOSURE：FindingMaliciousDomainsUsingPassiveDNSAnalysis[C]//Proceedingsofthe18thAnnualNetwork&DistributedSystemSecurityConference.[S.l.]：ISOC，2011：1-17.

[9]ZouFutai，ZhangSiyu，RaoWeixiong.HybridDetectionandTrackingofFast-fluxBotnetonDomainNameSystemTraffic[J].ChinaCommunications，2013，10（11）：81-94.

陳娌砺：1996.07;女;民族：汉族;籍贯：湖北省石首市;学历：硕士;研究方向：应用数学。