基于多源数据及机器学习的威胁监测系统架构和功能设计

2021-11-05 08:03任竹艳
电子技术与软件工程 2021年17期
关键词:威胁机器流量

任竹艳

(中电福富信息科技有限公司 北京市 100191)

伴随IT 技术和通信技术的迅猛发展,网络空间环境日渐复杂,云计算、虚拟化、软件定义网络、BYOD 等技术的应用,使得网络的边界变得不再确定。同时,网络攻击工具的平民化、趋利化,使得具备隐蔽性及持续性的APT 高级网络威胁频繁出现。传统的网络攻击主要利用基于规则库的特征匹配技术来发现在网络通讯协议中或应用访问中不符合安全策略的事件,受到单一的数据来源、有限的处理能力、对物理环境的部署依赖等诸多因素的限制,导致对内外部网络攻击的获悉途径及能力不足,对全局的安全感知及未知的预测受限,无法有效应对新环境下的安全挑战。

采用流量监听方式,可以在不影响用户使用体验的情况下深入获悉网络状态,从而为监测网络安全,提供重要的数据源。大数据技术及机器学习算法的爆发式发展及持续商用,使得通过机器学习算法动态分析多源数据的安全分析成为可能,进而发现潜在的威胁,助力自动化分析海量安全事件,为安全分析运维人员提供安全运营的支撑工具。

1 多源数据

传统的安全分析基于WAF、IPS/IDS 等各类安全防护设备的告警信息,这部分数据为安全分析提供了丰富的数据源,但同时,很多攻击的细节在告警日志中被遗失,网络流量数据可为安全分析提供多源数据补充。DPI 技术(Deep Packet Inspection)是在传统IP数据包检测技术(OSI L2-L4 之间包含的数据包元素的检测分析)之上增加了对应用层数据的应用协议识别,数据包内容检测与深度解码,既可以检测2~4 层,又可以检测应用层。通过对网络报文的解析来识别承载的载荷内容,可分析出细粒度的网络操作行为,同时通过特征对比碰撞,将逐层封装过程中数据包的各层头部信息进行识别提取,匹配规则库中已知的特征记录,实现流量的操作类型识别。通过深度包解析技术对网络流量进行解析,基于协议方向的网络操作行为采集,实现会话级组包及中间状态记录。

通过采集解析包括日志、流量、基础数据、管理类数据等多种来源的各类型数据,实时传输至大数据平台,可提供满足多种不同安全场景需求的高质量数据源。同时,基于分析需求不断补充完善数据的颗粒度及定制化字段,反向驱动数据源升级。例如,基于下载行为等特殊业务分析场景进行深度定制,捕捉并还原应用系统具体网络操作行为。

2 大数据及机器学习

大数据5V 的特性和新的技术架构颠覆了传统的数据分析方式,同样影响着对数据的思维方式。以解决现实场景的问题为驱动,在数据化思维模式指导下,数据采集、数据存储、数据管理及数据处理的能力也逐渐提升。机器学习应用到网络安全空间安全中,是近年来安全领域的关注热点和趋势。但是,针对不具备专家先验知识及训练样本不充分的任务,机器学习的适用性较难验证。机器学习在网络安全中的应用集中在威胁检测、异常检测以及用户行为分析等方面,例如:威胁检测通过对已知恶意文件的样本学习,来确定新型未知文件是否构成威胁;异常检测通过系统检测行为模式,并基于此自动构建配置文件。

大数据能够通过各类型数据之间融合互通,实现多元主体、多类目标之间的信息链式联系。而基于机器算法中的自学习技术,可通过回归算法进行动态基线预测,实现机器学习自主构造及对异常数据的自动监测,同时通过历史数据对行为模型进行模拟、修正,自动生成动态基线模型,实现威胁动态监控,提升检测的准确率,从而降低安全人员的运营成本。

3 系统架构与功能

智能威胁监测系统,通过采集海量数据,利用安全大数据分析、人工智能和机器学习技术,实现安全威胁的智能检测、威胁情报的获取和分析。如图1所示,按照层次化模型设计,系统架构分为四层:数据采集层、处理层、分析层、服务层。

图1:智能威胁监测系统架构

3.1 数据采集层

数据采集层通过实时流量采集、批量文件采集、实时消息采集、周边系统数据采集等能力,对包括网络流量数据、基础数据、管理类数据等数据进行采集接入。基础数据例如:IP 地址、域名、URL、漏洞、样本、事件等,管理类数据例如:资产信息及账号信息等。

实时流量通过在网络中前置DPI 探针实现,对网络链路上的流量进行多路并行捕包及特征检测,根据预设的策略过滤控制网络流量,完成数据采集、流量分析统计、日志合成等操作,并按需将数据分发给后端分析平台。

批量文件采集基于数据传输的数据量、并发量等具体需求,选取基于传输层或应用层的不同采集方式,例如可采用基于SFTP 或SOCKET 等方式实现数据交互。

针对数据量及并发较高的数据传输需求,采用基于端口监听的实时消息采集方式,一般来说并发量高的安全组件,比如说IPS、防火墙等可以通过设置syslog 外发来实现和大数据检测平台的数据采集进程对接。

对于集成度比较高的系统及平台,由于已经在自身的基础上整合了多个业务系统,如果重新与其对接的系统做二次对接,极大程度上会造成资源和时间成本的浪费,此时,数据采集模块通过webservice 的接口方式实现数据的对接。

3.2 处理层

处理层针对数据进行清洗、去重、校验、标准化、标签化等处理操作。

清洗过滤模块按照数据特征和分析要素进行整合,统一沉淀所需数据。合并/去重是对于数据消重最主要的方式,将具有相同属性值的记录进行合并处理。标准化模块统一处理格式存在差异的原始数据,标准化格式内容针对不同来源的采集接口进行基于边缘的结构化预设并基于不同的数据情况进行自适应处理。面对数据分析过程中的缺失值,采用替代法(估值法),利用已知经验值代替缺失值,维持缺失值不变和删除缺失值等方法进行处理。

3.3 分析层

分析层基于海量的安全数据,利用安全大数据分析、人工智能和机器学习等进行数据分析、威胁建模、行为识别,为上层应用提供高价值的分析数据。

数据建模为了满足内外部不同威胁检测的安全场景分析需求,进行业务定义及特征构建。业务定义进行应用场景的梳理,进而针对不同的应用场景进行特征向量构建,例如对时间、用户、地点、系统、操作、源IP、目的IP、目的端口、协议等不同要素的单维或者多维组合;对不同特点的特征进行不同的处理,例如:创建衍生变量、筛选变量,包括归一化、概率分布计算、封箱等。

数据挖掘主要进行结合数据的模型算法进行拟合,模型算法涉及分类、回归、聚类、关联等,具体模型包括LWLR、Kmeans++、孤立森林、LOF、DBSCAN、Apriori 等。不同的场景适用不同的挖掘算法。例如:针对异常流量的识别,适合采用回归算法,利用历史流量数据的局部加权回归模型对未来的数据大小进行预测,并基于动态阀值进行安全预警。随着时间序列的推移,模型每分钟进行参数的动态调整。模型绘制流量的基线,通过将多个具备业务意义的时间点(节假日、工作时等)及不具备业务意义的时间点(距离最进、历史同位等)作为权重输入,将模型参数基于时间序列进行动态拟合(分钟级),动态的输出模型结果。通过历史数据结合模型,输入样本数据,拟合目标回归值。而针对异常用户行为的识别,由于异常行为模式和正常行为有显著区别,适合采用异常检测算法,可通过基于孤立森林异常检测算法进行异常行为的识别。

3.4 服务层

服务层主要针对不同的场景提供针对不同角色需求的服务能力。

攻击检测包括外部威胁检测、横向威胁检测、资产外连威胁检测。外部威胁检测用以分析和发现网络入侵、拒绝服务攻击等外部攻击行为。横向威胁检测分析内部网元之间的病毒传播及违规行为,发现企业内部疑似被黑客控制的主机的内网横向移动行为;资产外连威胁检测关注企业内部资产的对外发起攻击行为,如被控制为僵尸主机、肉机,进行挖矿、对外发起攻击等。

异常流量监测主要找出异常流量攻击行为。异常行为监测主要型发现各系统存在的安全风险和异常的用户行为,包括账号异常、权限变更异常、操作行为异常、资产被访问异常等。

威胁情报包括通过系统智能分析产生的威胁情报的信息共享输出及根据威胁情报进行的关联分析,识别来自外部的安全风险。

能力开放针对系统层面的能力调用,提供服务开放接口以供调用。

4 结语

网络安全问题一直存在,只是在网络技术、IT 技术飞速发展的今天变得更加重要。随着大数据技术、基于大数据的人工智能技术的发展,为更好的进行安全智能分析提供了手段和能力。业务系统快速迭代,攻防博弈不断升级,APT 及零日漏洞攻击的高隐蔽长期潜伏特点,需要利用多源数据结合大数据及机器学习算法作为关键业务资产防护的必要技术手段。通过梳理可纳入的数据源,基于机器学习算法的特点,结合在实际安全工作中的安全需求,开展智能威胁监测系统通用架构和功能设计,从业务和技术两个角度,从数据采集层、处理层、分析层、服务层四层架构,对系统中的重要功能组件进行了阐述,以期弥补传统基于规则的威胁识别缺陷,为网络安全建设提供思路启发与应用实践参考。实际工作中,需在企业的安全顶层目标指导下,针对数据的纳入类型、数据的纳入范围、采用的技术水平进行匹配,应尽可能维持最大的投入产出效用。

猜你喜欢
威胁机器流量
机器狗
冰墩墩背后的流量密码
机器狗
张晓明:流量决定胜负!三大流量高地裂变无限可能!
受到威胁的生命
未来机器城
面对孩子的“威胁”,我们要会说“不”
五位一体流量平稳控制系统