基于Spark的网络日志分析系统设计与实现

2021-09-13 08:50汪小霞

无线互联科技 2021年10期

汪小霞

摘要：当下，互联网技术已经广泛地应用于企业办公系统。企业在需要对业务进行处理时，对互联网有着较高的需求。在利用网络技术的基础上，工作人员可以有效地借助飞快的信息传播速度，降低工作的成本，同时也可以进一步提升办公的整体效能。因此，文章针对Spark的网络日志，进行系统设计、分析以及阐述，以此为相关领域的研究人员提供参考。

关键词：Spark;网络日志;系统构建;逻辑处理;网页展示

0 引言

现阶段，大多数用户以及行业都在使用互联网技术，但却没有良好的信息安全意识。而当下的网络环境也越发复杂和危险，使得信息安全风险管理工作日渐成为企业日常风险管理的重要内容。企业需要有效地分析以及处理网络日志，以此充分保障企业不会受到网络威胁。本研究为整个系统的优化以及维护提供一定的数据参考。

1 网络环境

在互联网发展的背景下，网络应用于政务办公系统中。各行各业不断地利用网络，确保能够获得更多的信息以及数据。这使得办公事务也可以顺利地利用互联网实现高效率的工作。一项调查显示，我国四成以上企业员工在办公的过程中，使用网络的时间与工作未产生必然的联系，甚至是访问一些恶意的网站，因此影响了工作效率。企业在未来的发展过程中，须改进网络日志方面的分析系统，保障在运用互联网的过程中，有着较高的安全性。

2 基于Spark的网络日志分析系统的设计

2.1 Spark

Spark是UC Berkeley AMP lab研发的一种开源集群计算框架，并使用Scala，是基于Hadoop所实现的一种分布式的文件系统类型。最开始研发的目的是为了有效地在一个开源软件平台上进行工具的执行，但是最后经过长期的研发，形成了一个较为完整的系统类型。Spark可以有效地提供内存集群计算的效果。在数据信息的处理过程中，其可以将一些中间输出以及结果完整地保留在内存中，不需要再次进行读写处理。这种信息处理方式可以有效地顺应机器的学习，同时也可以有效地进行数据方面的深度挖掘。而在进行迭代计算的过程中，相较于Hadoop，Spark有着更高的效率性[1]。

2.2 总体结构

2.2.1 节点层

节点层的设计处于最底层。它是由多种机器节点构成的互联集群环境，同时也是现阶段网络日志在分析系统中的一种物理层。

2.2.2 任务管理模块

任务管理模块主要是针对不同的Spark集群任务，所开展的管理调度。而在系统进行配置方面的管理过程中，设计人员还可以有效地实现人物配置、任务状态监控以及任务调度。系统在使用的过程中，能够有效地定时执行每日任务。而该模块还包含两个不同的部门，由Spark框架以及分布式管理系统构成。

2.2.3 Spark

Spark是一种基于MapReduce的并行计算框架，但是与MapReduce不同的是，在使用的过程中，其产生的计算结果可以保存在内存中，以此就可以在计算的过程中有效降低延迟性，进一步提升交互效果。另一方面，设计人员还需要在Spark的使用过程中，实现更加广泛的数据集操作，保障数据库、流处理以及图计算满足各种方面的需求。虽然Spark是一种较为独立的项目，但是依然可以在设计的过程中，实现与分布式文件系统共同运作。同时，也可以直接在HDFS上利用YARN，在MapReduce上一同进行作业[2]。

2.2.4 HDFS

HDFS是一种分布式文件系统，主要为计算机存储功能提供一定的底层支持。在设计的过程中，HDFS可以有效地作用于一些廉价的硬件上，并且可以有着较高的容错性，另一方面，还可以成为一个较为流行的海量数据存储。

2.2.5 日志采集模块

该模块主要是为了能够对上游的一些带解析的日志数据位置进行详细的解析，以此在自动收集的过程中，对于企业的内部网络进行Squid服务器的日志数据分析。在全部收集之后，使用者便可以对数据进行预处理，之后依据数据的实际要求，进行加工。在处理的过程中，日志采集模块可以实现对于数据的一致性、完整性、丢失性等方面的操作。而子模块还可以针对性地筛选日志数据，将数据转换成可以分析的数据形式，之后将其采集到日志数据中。Spark进行集群节点方面的儲存。

2.2.6 逻辑处理模块

该模块主要与Spark进行集群方面的交互。而对于用户而言，该模块可以有效地在网页端进行相应的操作，之后对业务数据进行查询，对HQL进行语句方面的定制。

2.2.7 网页展示模块

该系统主要基于Web。在查询之后，该模块就可以返回到结果数据，之后对不同的搜索进行分析，保障在分析的过程中，能够形成信息数量较多的网页。

3 基于Spark的网络日志分析系统的实现

在上述的结构设计下，为了检验系统的合理性，设计人员可以进行研究和分析。

3.1 系统部署

如图1所示，本系统的实现，需要依靠CICS交易服务器、Hive数据仓库、客户端、Liberty服务器、Spark集群，对脚本进行上传，对日志进行存储、提取与分析、生成报告等。

3.2 任务调度

Spark分析模块是Scheduler最重要的核心组成部分，需要在应用的过程中，运用Hadoop MapReduce。而在资源管理以及调度的过程中，Spark使用的方式基本上基于YARN。这种资源调度器可以有效地在使用的过程中，起到资源调度分配的作用。在不同的应用当中，它都能够实现任务调度器的作用，以此对于任务进行调度以及协调。对于这种上层资源调度而言，应用内部的任务调度较为独立[3]。

3.3 用户需求数据分析

在实现的过程中，首先基于用户的实际需求，将请求的数据进行分析以及计算，之后再将分析的结果进行返回。返回基本上可以分为图片以及纯数据这两种不同的类型。在使用的过程中，工作人员有效地利用getData进行数据信息的调用以及分析。在前台的信息处理过程中，技术人员可以有效地利用前台调用JFreeChart工具，进行相应的分析。

在现阶段的发展过程中，Spark已经成为十分热门的一种开源项目，并广泛地应用到各种企业中。在研究中，该技术也能够起到十分有效的作用，足以帮助企业在日常的网络日志的管理过程中，实现安全性以及质量性的管理目标。另外，这项技术还可以定期优化以及改进。

3.4 日志处理

为确保基于Spark的网络日志分析系统能够有效实现，工作人员对日志进行处理非常重要，具体方法如下：（1）日志上传：系统中日志的上传方式包括两种：手动与自动。手动上传需要依靠CICS交易服务器的部署功能，自动上传则需要依靠Web来实现。（2）日志处理：工作人员可通过日志分析系统对日志进行处理，利用系统部署中的Spark集群功能进行计算，并实现对不同节点日志的分析，经分析后的数据可被返回并自动汇总，以备使用。

4 结语

综上所述，文章主要基于Spark的构建，分析了企业网络日志分析技术。为了进一步提升企业的网络安全性，技术人员还需要在日后的发展过程中，对网络系统的进行优化。

[参考文献]

[1]李言飞，张鹏，戚晓鹏，等.中国疾病预防控制信息系统网络日志大数据分析[J].中国卫生信息管理，2018（6）：625-628.

[2]李亚红，胡前忠.分布式网络日志分析系统的设计与实现[J].信息与电脑（理论版），2018（21）：163-165.

[3]张扬.基于大数据技术的网络日志分析系统[J].电子技术与软件工程，2018（17）：175.

（编辑王永超）