机器学习在校园安全中的应用研究

2020-05-28 12:58
山东农业工程学院学报 2020年4期
关键词:域名决策树贝叶斯

(安徽三联学院计算机工程学院 安徽 合肥 230601)

0.引言

互联网技术的迅猛发展,使其逐渐渗透至各个领域之中,尤其是在数据采集、处理与传输等方面,互联网技术具有其他技术所无比拟的应用优势。随着互联网技术在各个领域中的普及与应用,互联网安全问题也已成为民众关注的焦点,而校园作为教书育人的重要场所,其校园安全更应得到人们的重视。如何在校园中建立健全而完善的网络安全保护机制,防范校园中重要数据的丢失与窃取,需要校园予以高度的重视。而机器学习在校园安全中更是发挥着至关重要的作用。

1.机器学习概述

机器学习是人工智能技术中的核心内容,其能够对人类行为进行有效模拟,学习人类的行为来赋予计算机更多地功能,丰富计算机的数据库,使计算机变得更加智能,从而优化计算机的结构性能。机器学习可以看作是一种智能化的处理过程,其能够使机器像人类一样进行学习,但其是怎样学习的呢,对于这一点,许多学者都从不同角度进行了研究,并且至今尚未形成一个统一的意见。不过,总体来说,机器学习和推理过程之间具有十分密切的联系,这也得到了许多专家和学者的肯定与认同,因此,对于机器学习来说,可按照其策略性的不同将其划分为以下几类,包括事例学习、机械学习、类比学习以及传授学习等,考虑到计算机有着复杂的功能,因此对于机器学习来说,其所涵盖的范围也比较广泛,通过不同知识、不同技术的结合运用,从而使机器具有学习能力,在这些知识和技术中,概率论、算法复杂度理论、凸分析以及统计学等都是机器学习所涉及到的专业学科,按照机器学习的类别,大致可将其划分成五种,第一种是根据学习策略来进行分类,如类比学习、归纳学习、示教学习、机械学习等,第二种是根据获取到的知识来进行分类,例如决策树、形式逻辑表达式、过程编码、产生式规则,计算机程序、代数表达式参数等,第三种是根据机器学习的应用领域来进行分类,例如数据挖掘、自然语言、信息服务、专家系统等都是机器学习的应用领域,第四种是综合性分类,例如遗传算法、归纳学习、增强学习等都属于综合性分类,第五种是按照学习形式来进行分类,例如监督与非监督式学习便是以学习形式来分类的。

2.机器学习在校园安全中的技术种类与应用

面对校园网络安全形势愈发严峻的现状,为了进行有效应对,防止校园网络安全问题的频繁发生,就必须要在计算机中应用相应的安全防护技术,这对于确保校园安全具有非常重要的意义。机器学习是校园安全中的核心技术之一,其能够有效保护校园网络不会遭受到恶意攻击,由于机器学习能力直接决定着校园网络系统的安全防护能力,因此在应用机器学习来对校园网络进行安全检测时,其功能模块主要分为数据采集模块、数据处理模块和机器学习模块,在此过程中,机器学习模块在其中发挥着至关重要的作用,数据采集模块能够对校园网络的安全情况进行实时动态的追踪与检测,判断外部网络中是否存在恶意信息或恶意攻击,并通过TCP/IP来对网络信息进行截取与判断,这也是大部分校园在网络安全检测中的基础技术。数据处理模块则能够对数据采集模块所截取到的信息进行相应的处理,使截取信息中含有的重复数据与错误信息得到有效的过滤和筛选,以此确保校园网络系统的运行高效性,确保安全检测功能的完善。对于机器学习模块,其也是校园安全检测系统中的核心模块,该模块发挥着至关重要的功能,通过该模块可记忆和学习入侵与攻击,从而实现对网络攻击和非法入侵进行有效检测的目的。在校园安全检测系统中,其主要由五个组成部分组成,分别是数据源、数据采集、数据预处理、机器学习和处理结果反馈。无论是在数据处理,还是在数据反馈,机器学习都表现出良好的兼容性,而且在安全检测中有着巨大的应用潜力,这也使机器学习成为校园网络安全防护中的核心技术,并得到了迅猛的发展。

3.机器学习在校园安全中的关键应用技术

3.1 决策树

在校园安全检测中,决策树作为机器学习中的一种关键应用算法,其有着广泛的使用范围,并且应用效果较好,并在校园安全检测中得到了广泛的应用。以决策树为核心算法的机器学习,可使网络中的恶意信息被有效拦截,然后以从根节点至叶子节点的原则来排列恶意信息,使其成为一个二叉树式,对于后续可能产生的网络入侵,可通过分支叶子节点来与之进行逐一对应。当校园网络受到攻击或入侵时,机器学习可评测入侵或攻击的形式特征,掌握其后续发展,然后结合校园网络的实际安全情况来测试节点的属性,并将节点当作根来进行子树重复。对于决策树算法在1986年时便已经提及,在那个时期所提出的ID3算法和现代所研究出的二叉树算法总体上是比较接近的,其都是通过节点运算来进行安全检测的算法,不过,ID3算法则属于决策树中一种颇具代表性和典型性的算法,不过因ID3算法在安全检测中难以满足其数据规格的要求,并且所面临的数据种类多种多样,这也使人们在ID3算法的基础上研究出C4.5算法,该算法可以看成是ID3算法的另一种延续,并且其更能有效用于安全检测,现如今在许多校园中都已开始应用C4.5算法来进行网络安全检测。

3.2 神经网络

在互联网与现代化信息技术的发展下,神经网络已经成为校园安全中一种用于安全检测的重要技术手段,其也是所有技术中复杂性最高的一种技术。神经网络可模拟人脑的部分功能,利用运作单元对人脑中用于处理信息的神经元进行代替,通过对大量的运作单元附加高度权值,以此形成相应的神经网络结构,考虑到神经网络中包含着海量的运作单元,因此在对神经网络进行构建时,需要利用权值或逻辑关系将各个运作单元连接起来,这样在应用神经网络来进行安全检测时,神经网络能够快速识别和预处理校园网络中存在的各类信号,从而在校园网络出现安全事件时能够做到迅速止损。现如今,神经网络已经成为校园安全中一种直观而有效的方法。神经网络能够利用误差补偿机制来发挥其有效性,当校园安全检测过程中发现存在恶意信息时,会使神经网络对信息的输入与输出发生失衡,此时神经网络会自动调节和运作各个神经单元,使节点网络得到及时有效的补充。

3.3 支持向量机

支持向量机可以看成是一种分类器,需要在特征空间内探寻对应的超平面,利用超平面来对两个类进行分割,同时还要确保各个类有着最大的边缘距离。一般来说,支持向量机属于一种二分类模型,其机器学习的策略是进行最大间隔,从而使复杂的问题被转化成凸二次规划问题,通过求解凸二次规划问题来达到间接解决复杂问题的目的。支持向量机在进行分类时所遇到的问题主要包括三种,分别是线性不可分问题、近似线性可分问题以及线性可分问题。其中,线性不可分问题指的是无法利用单独的线性分类器来对单个数据集进行分类,在应用支持向量机来进行机器学习时,往往会经常产生线性不可分问题,例如在利用支持向量机进行人脸识别时,便是非常典型的线性不可分问题。在应用支持向量机来解决问题时,核函数是其常用的解决方法,通过在高维空间中对样例特征进行映射,可能会出现因映射维度过高而造成计算过于复杂,而通过使用核函数,则可对样例特征进行映射之前,对其进行低维计算,然后在高维上来表现分类效果,这样便可使计算复杂程度得到有效简化。相比于神经网络来说,支持向量机在机器学习中能够将复杂问题用凸优化问题进行表示,然后通过现有的算法来对凸优化问题的目标函数中存在的全局最小值进行求解。而神经网络则是通过贪心学习的方式来对局部最优解进行求解的。在校园安全中应用支持向量机时,即使没有丰富的先验知识,支持向量机也能获得良好的分类正确率,而且其推广能力非常强。所谓推广能力,是指结合以往的经验可推断出其规律,并根据学习到的规律来预测校园网络中未知行为的发展。

3.4 贝叶斯理论

相比于决策树、神经网络,贝叶斯理论并不依赖于硬件系统的检测性能与算法的优劣性,贝叶斯理论的应用效果是由推理理论和概率手段所决定的,目前在校园安全检测中已经普遍采用贝叶斯理论来进行假设和推理,这也使其成为机器学习中的一种非常重要的方法,并且为不同机器学习算法在校园安全中的有效应用提供了大量的理论依据。考虑到贝叶斯理论在逻辑性上会有着一定的宽容性,这也使贝叶斯理论能够在校园安全形势不确定的情况下提供可靠的理论支撑。贝叶斯理论在机器学习中是一种不需要进行监督的理论体系,其能够根据已发生的安全事件来按照相应的序列进行排列和分析,并对已知序列采取细致的分析和类比。在现代化信息技术不断发展的今天,在校园安全问题检测中,贝叶斯理论有着其独特的生存依据。

4.机器学习在校园安全中的应用分析

4.1 安全入侵检测

机器学习在校园安全中有效应用于校园网络的安全入侵检测,机器学习在应用过程中不会对校园网络的性能造成影响,也不会影响用户对计算机的操作与使用,其能够分析与检测校园网络中的安全日志与运行数据等信息,进而分析校园网络的安全状况,判断是否存在安全威胁,从而使校园网络得到实时的安全防护。机器学习具有智能化的特点,将其应用于安全入侵检测中,可大大增强安全入侵检测的准确率与灵敏度,从而使系统能够在很短的时间内对潜在的安全威胁进行准确的检测,并针对安全威胁的危害程度进行有针对性的防护,从而最大限度的降低恶意攻击给校园网络造成的不利影响。在校园安全入侵检测中,人们还普遍应用神经网络来实现系统的入侵检测功能,神经网络具有较强的适应性,其能够对用户的系统操作行为进行实时记录,并能够较好的检测出校园网络所面临的入侵种类,然后及时向安全管理人员反馈检测结果。因神经网络不会依赖于假设的已知数据类型,这也使其往往能够在误用检测中进行应用,并取得较为理想的应用效果。在应用神经网络算法进行校园安全入侵检测时,其能够记录和分类用户行为所产生的各种基本特征,以此判断用户的行为特征是否具有合法性,如果用户的行为特征不合法,则系统会自动将该操作行为判定为非法行为,然后触发入侵检测。神经网络正是凭借该应用机理,使其被广泛应用于校园安全入侵检测工作中。除了神经网络之外,还可通过贝叶斯理论来对校园安全入侵行为进行检测,其甚至还可检测到与校园安全入侵行为有关联的其他行为或事件。贝叶斯理论在机器学习中具有非常强的学习能力,这也使其同样适用于校园安全入侵检测。

4.2 垃圾邮件检测

在校园安全中,机器学习也可以应用于垃圾邮件检测,机器学习对垃圾邮件的检测可以当作是一种分类问题,其可将校园中的邮件在{-1,1}中进行整体定义,其中垃圾邮件由1来进行表示,而非垃圾邮件则由-1进行表示,邮件检测主要步骤如图1所示:

图1 邮件检测主要步骤

针对垃圾邮件的文本分类问题,可借助于相应的数值来表达垃圾邮件中含有的文本信息,从而使不同消息能够用来表示向量,对于垃圾邮件来说,其特征值通常在不同特征向量中进行集中表现,并且因为机器学习在检测垃圾邮件时是通过在线检测来实现的,因此通过机器学习来对邮件进行分类与识别,可使校园网络在检测垃圾邮件时的效率大幅提升,有效减少了检测错误或无法检测的现象出现。

4.3 恶意域名检测

在校园安全中,恶意域名检测是机器学习的核心应用之一,对于校园网络来说,其域名系统往往会成为黑客的攻击对象,也可能会充当黑客的攻击工具。这也使域名系统安全成为校园安全中的重要研究热门,在以往的恶意域名检测中,主要是通过拦截名单或恶意域名黑名单来进行检测的,这种检测方法非常容易被黑客绕过。随后,人们又研究出查询请求数来进行检测的方法,不过该方法不仅误报率很高,而且一旦遇到未知的异常域名,便难以将其检测出来。目前,通过机器学习的应用来对恶意域名检测的相关规则进行构建,已经成为我国网络安全领域的未来发展趋势。在校园安全中,针对恶意域名的检测问题,在应用机器学习时,往往会将在线模型与离线模型进行结合使用,其将所有域名当作训练数据集,然后通过离线模型来进行训练,并从中提取出域名的网络特征、时间特征、区域特征、TTL特征以及DNS应答特征等,然后通过X-Means聚类算法或决策树算法来对相应的训练模型进行构建,并通过malwareurl.com、NortonSafeWeb等已知域名来验证训练模型,使模型中的相关参数得到有效调整。在线检测模型可以实时分析采集的域名流量,并通过被动域名查询来提取对应的域名特征,判断域名信息是否已知,如果是已知域名,则会利用在线检测模型来进行继续训练,如果是未知域名,则在训练后的分类器中进行输入来判别该域名,以此分析该域名是否属于恶意域名。例如,在恶意域名检测中,可采用X-Means聚类算法来聚类域名的区域行为特征与网络特征,以此获得域名的特征向量,根据其证据特征向量,通过决策树来评价新域名,域名评分通过{0,1}来进行表示,其中恶意域名由0进行表示,正常域名则用1来进行表示。网络特征是模型建立的依据,针对系统中可能存在的新地址空间映射的恶意域名,可以从所有已知域名中对短期域名、IP地址数量、共享IP数量、域名长度、访问比例、TTL值等行为特征进行提取,然后通过J4.8算法对决策树进行构建,如果利用C4.5算法来对决策树进行构建,则需要利用开源机器学习软件Weka,这种检测方式不仅不需要构建历史恶意数据的训练模型,而且数据训练所消耗的训练时间以及训练的数据量都相对较少,此外还不会受到较多条件的限制。

5.结语

总而言之,机器学习在校园安全中发挥着至关重要的作用,其能够显著提高校园网络的安全管理水平,在校园中有着巨大的应用前景。校园应进一步加强机器学习在网络安全中的应用,高度重视校园安全管理中出现的各种安全问题,确保机器学习的应用策略具有针对性,以此保障校园网络安全,最大限度的防范网络安全事件的发生。

猜你喜欢
域名决策树贝叶斯
基于贝叶斯解释回应被告人讲述的故事
一种针对不均衡数据集的SVM决策树算法
Combosquatting域名抢注的测量研究
决策树和随机森林方法在管理决策中的应用
如何购买WordPress网站域名及绑定域名
基于决策树的出租车乘客出行目的识别
基于贝叶斯估计的轨道占用识别方法
基于互信息的贝叶斯网络结构学习
基于肺癌CT的决策树模型在肺癌诊断中的应用
IIRCT下负二项分布参数多变点的贝叶斯估计