电力网络日志分析系统设计与实现

2018-05-22 11:13李祝红赵灿明杜炳杨安东
中国科技纵横 2018年7期
关键词:数据挖掘

李祝红 赵灿明 杜炳 杨安东

摘 要:随着电力企业信息化水平不断提升,信息业务支撑服务范围越来越广,各类业务终端接入数量呈快速增长趋势,公司拟通过通过建设电力网络日志分析系统捕获网络实时访问数据,对用户访问数据信息进行行为挖掘和分析,以监管信息内网用户非授权网络访问行为,并对用户访问信息进行其它有益挖掘;实现业务终端安全管控、终端网络访问行为的数据挖掘和数据分析。

关键词:电力网络;日志分析;数据挖掘

中图分类号:TP311.13 文献标识码:A 文章编号:1671-2064(2018)07-0023-01

随着电力企业信息化水平不断提升,信息业务支撑服务范围越来越广,各类业务终端接入数量呈快速增长趋势,加强对业务终端安全管控、对终端网络访问行为进行挖掘和数据分析意义重大。

现有的桌面终端安全管控技术和手段均难以满足需求,如:IP管控、桌面VRV偏重于对IP地址或用户终端的管理,但均无法针对用户网络访问行为数据进行分析和管理;上网行为管理系统偏重于对网络访问行为管理,但是数据包级的挖掘功能不足,且需要高成本的软硬件支持,针对特定网络支持不足;而入侵检测系统偏重于对数据报级网络行为特征分析,对用户终端网络行为难以有效管理。

如何有效克服现状不足,设计出一种能够基于网络用户访问行为的日志分析系统,使得用户能够有效管理网络访问行为进行用户有用数据挖掘分析具有重大意义。

1 国内外现状

近年来,对于网络日志分析的研究和相关产品研发也取得突破性进展。

在网络用户行为分析方面,主要的分析方法有两大类:一类是以网络用户的正常行为建模,来判断采集到的行为信息是否异常,其称为异常检测技术,主要是指通过对数据的聚类分析和深度神经算法的检测;第二类主要是指通过利用用户网络访问行为中的异常数据进行建模分析,主要包含模式匹配技术、专家系统和推理监测方法等。需要特别指出的是,模式匹配技术是其主要的代表性检测技术,它的主要原理是通过采集用户的网络访问行为与已建立的网络行为数据库进行比较分析和匹配,一旦发现用户行为与数据库无法匹配,则认为该用户的网络访问违反了安全策略。这种方法的原理简单,操作性强,数据监测准确率高;但是缺点也相当明显即智能检测到已知的网络行为,数据库需要不断的更新;除此之外,在高速、大规模的网络环境中,如果仅仅依靠模式匹配技术无法及时分析处理大量的数据包,处理速度和处理准确率值得商榷。

2 技术关键点

2.1 基于WinPcap的数据包捕获和过滤技术

WinPcap主要包含三个部分,分别是数据包监听程序、底层动态链接和独立的静态库;其中数据包监听程序是主要的核心程序,动态链接和独立的静态库懂事为用户层服务的。

(1)数据包监听设备驱动程序。为实现数据抓包,理论上必须不经过操作系统的协议而直接对网络传输的原始数据进行抓包。鉴于此,Winpcap程序必须要部署一部分核心程序在操作系统的核心层,该程序与网络接口直接连接。(2)底层的动态连接库(packet.dll)和高层静态库(wpcap.dll)。为了保证程序的合理性和可运行性,Winpcap需要提供一个可用于程序编汇的接口。这个接口也被称之为底层动态链接库和高层静态库。需要指出的是,底层动态链接库主要用于提供一个底层的API,方便数据包监听程序直接访问驱动函数;高层静态库则主要用于高层抓包数据库的完成,建设数据库的目的主要是是数据抓包可以不经过操作系统核心层的管理。

与此同时,关于底层动态链接其主要部署在用户层,同时与其他两个运行程序实现逻辑隔离,主要是为了该程序可以在多版本的WINDOWS上稳定运行。

2.2 基于聚类分析算法的网络流量统计

数据挖掘一般是指从大量的数据中通过算法抽取挖掘出潜在、未知的有价值的模式或规律等知识的复杂过程。

基于以上描述,本系统运用了自动聚类分析方法。我们通过流的头字段中的源IP地址、目的IP地址、源端口、目的端口等参数对流簇进行了定义。其中,IP地址的定义主要是利用长度在8至32的数值个数来定义;端口的定义则主要是通过某個较为独特的端口值或所有可能值来定义,因为网路中分配给固定的端口其值一般是不大于1024的,只有是临时的端口值采会大于1023;一次我们认为大于1023或者是小于1024的端口数值是可以被定义的。

3 功能描述

3.1 系统功能图(如图1)

3.2 功能描述

3.2.1 数据处理

(1)数据抓包。指通过利用对网络端口的实时监控,实现网络访问的实时数据包。(2)数据包筛选。主要指对抓包到的网络数据依据源地址和目的地址开展数据筛选,对符合筛选条件的数据包进行过滤,对符合条件的数据包开展下一步分析。(3)数据包分析存储。解析数据包内容,丢弃非邮件发送和网页浏览的数据包,对符合条件的数据包进行进一步内容解析,解析出邮件行为的发件人地址、收件人地址、邮件标题、发送时间等信息和网页访问行为的网页地址、访问者IP等信息,分别存储到数据库中。最后存储到数据库中的数据是终端行为审计信息查询的主要依据。

3.2.2 用户行为挖掘与分析

(1)用户数据流量排名。以柱状图展示所选时间段内不同类型数据包中用户访问流量排名前10位。(2)用户兴趣点分布。统计某一时间段内用户兴趣点的具体用户访问量和访问流量占比,并以饼状图展示。(3)网络实时流量图。实时展示核心交换机中不同类型数据包流量情况以及每个网络终端中网络流量情况。(4)不同类型包流量统计。统计某一时间段内ARP、HTTP、ICMP、TCP、UDP等不同类型数据包的累计流量,并以柱状图展现。

3.2.3 系统管理

(1)监控关键字管理。提供用户网络访问行为中关键字设置,系统对存在关键字信息的网络访问行为进行自动预警。(2)白名单管理。提供监测用户白名单管理,系统会自动过滤掉白名单中用户,不对其进行网络访问行为查询和统计。(3)组织管理。提供系统用户的组织机构信息维护。(4)用户管理。提供系统访问用户的信息管理,包括用户姓名、手机号、邮箱地址等信息。

4 结语

系统已成功应用于国网芜湖供电公司信息内网用户终端安全管理当中,系统捕获网络实时访问数据,对用户访问数据信息进行行为挖掘和分析,以监管信息内网用户非授权网络访问行为,并对用户访问信息进行其它有益挖掘。本研究对于加强安全终端管控、增强网络信息安全有着显著作用。

猜你喜欢
数据挖掘
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
数据挖掘技术综述与应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议