基于并行挖掘大数据的无损云取证模型仿真

2021-11-17 04:31晶,张
计算机仿真 2021年2期
关键词:分块日志关联

李 晶,张 滨

(1. 浙江财经大学经济与管理实验中心,浙江 杭州 310018;2. 浙江财经大学艺术学院,浙江 杭州 310018)

1 引言

计算机取证包含物理证据获取及信息发现两个步骤。物理证据获取表示调查人员抵达计算机犯罪现场,探寻并核查有关计算机硬件[1,2],物理证据是所有取证工作的前提,在得到物理证据时,最关键的就是确保获取的初始证据不遭受损坏。信息发现表示从初始数据内探寻能够用于证明或反驳的证据。为了维护初始数据安全,全部的信息发现工作均是在初始证据的物理拷贝下实现的,物理复制工作可采用Unix系统的dd命令。

计算机取证不仅是计算机及网络技术问题,还牵涉法律与道德观念,并需要计算机专家、执法人员等多方人员的共同合作。此外相关研究人员针对不同领域问题得出如下解决方法。

文献[3]提出一种基于局部二值模式和马尔科夫特征的数字图像篡改取证方法。运用LBP(Local Binary Pattern,LBP)算子把图像从空域转换到LBP域,进行JPEG压缩后提取二维JPEG矩阵,计算矩阵在各方向上的一阶差分矩阵,对每个方向上差分矩阵分别提取马尔科夫特征,运用支持向量机实完成分类训练,对细缝裁剪篡改进行检测。文献[4]提出一种基于隐藏事件触发机制的内存取证方法。运用虚拟化技术实时监视目标虚拟机中的内核对象,分析内核对象逻辑连接关系与运行状态变化,以此检测隐藏对象;将发现隐藏对象作为内存取证触发事件,利用内存映射提取隐藏对象代码段信息,达到实时和局部内存取证目标,但是取证工作的实际应用限制较大。文献[5]采用求解线性方程稀疏解的方式,在稀疏解的求解过程中对大数据进行特征分类,优化目标函数的求解,结合数据在类中的分布情况进行有效加权来实现大数据挖掘,提高大数据挖掘的效率及准确度,但是该方法没有考虑网络数据冗余性对结果的影响。

因此,本文提出一种基于并行挖掘大数据的无损云取证模型,采用动态调度并行挖掘方法,保证挖掘结果正确性的同时,增强取证挖掘速率,使用分块无损压缩手段,结合虚拟化技术与协作技术,创建无损云取证模型,综合维护证据安全性。

2 基于动态调度的并行挖掘大数据算法

全局通信模式——Master-Worker模式,如图1所示。此模式可应用在拥有完全并行性算法内。初始数据集可划分成毫无关联的子集,每个子任务计算不同数据子集,每个Worker节点间的关联较小,因此利用Master节点完成通信目的,如图1所示。

图1 全局通信模式示意图

数据挖掘的核心问题就是关联规则挖掘,关联规则挖掘的重心是得到频繁项目集,以关联规则挖掘为例,探究动态调度下并行挖掘大数据算法的详细操作过程。

使用数学矩阵工具,运用具备较强优越性的计算机处理矢量矩阵把事物数据库变换为矢量矩阵[6]。比如,把某个事物数据库变换为上三角矩阵,继而展现单属性下的关联规则,其可以表示成

(1)

假设e为待挖掘目标属性,在矩阵A内能够算出该属性的支持度与置信度

sup(f⟹e)=0.6,conf(f⟹e)=0.75

sup(g⟹e)=0.6,conf(g⟹e)=0.75

sup(h⟹e)=0.6,conf(h⟹e)=0.6

sup(d⟹e)=0.6,conf(d⟹e)=1.0

(2)

若设置minsup=0.5,minconf=0.7,就能获得以下关联规则:f⟹e,g⟹e,d⟹e。

将规模M×N的数据库均匀输送至p个节点内,把M各元组分割为M1,M2,…,Mp。则第i个节点内的数据库是:

(3)

式中,

(4)

把新生成的数据库Di依次输送至第i个节点内,明确待挖掘目标,给予参变量minsup、minconf。

关于第i个节点,把Di当作矩阵,了解待挖掘对象,同时进行相关运算

(5)

(6)

(7)

(8)

(9)

将Pj值重新排序,让属性序列更加稠密,则关联规则更易被挖掘。

(10)

如果满足式(10)条件,计算Aj⟹Ak的支持度sjk。Aj、Ak依次表示数据库内第j与第k个属性。且满足:

(11)

算出Aj⟹Ak的信任度cjk的值:

(12)

产生一个大项集合后,使用全局通信模式,将节点Master当作主节点[8]。剩余Worker节点把自身生成的大项集合结果sjk和cjk输送至主节点cjk,让主节点承担全局关联规则任务。

经过以上步骤得到数量较多的繁琐规则,需要注意的是,在输出最后规则集过程中,要实施严格挑选,得到输出规则R,从而完成并行挖掘大数据的全部过程,实现高效率数据挖掘。

3 数据分块无损压缩

云取证面临的关键问题即为取证完整性,对取证数据进行分块无损压缩可充分解决这一问题。初始信号的特征会直接影响压缩效率,网络信号通常由一系列周期信号和噪声信号重叠构成。数据分块无损压缩框架如图2所示。

图2 数据分块无损压缩框架图

网络振动信号通过离散余弦转换后,在频谱内展现较优的能量汇集特征[9]。子带量化预测算法能有效利用该特征,即运用较少的量化位数评估初始信号的多数信息。由于信号采集数量较多,在网络节点这样内存资源受限的平台内不能一次性处理全部数据,所以需要对数据实施分块处理,减小内存占用比例。

节点把初始数据分块成固定长度,将块编码当作文件名存储在SD卡内,每次处理SD卡都能得到对应数据,提高数据压缩性能。

DCT转换考虑到节点硬件平台支持,使用DCT类型IV转换模式,记作

(13)

式中,k=1,2,…,N,mn代表初始数据,N是分块大小,相对的反向DCT转换是

(14)

式中,n=1,2,…,N。DCT类型IV转换和反向转换的对称性,表明两个转换可以使用相同计算函数完成,减少了转换矩阵在节点内占用的存储空间。

差值计算关键是由量化DCT系数还原与反向DCT转换构成的。在进行量化DCT系数还原时,首先采用边带数据内的第j列数据最大绝对值,根据式(14)获得此列数据需要的最大分配位数bj,然后按照边带数据内的分配位数nj还原量化系数qi,j,将此过程描述为式(15)。由此实现犯罪取证数据无损压缩,保障数据高度完整性。

(15)

4 无损云取证模型构建

使用并行挖掘大数据与无损压缩方法,可有效改善无损云取证模型可靠性。本文采用云计算技术的虚拟化及协作技术建立无损云取证模型。把基础设施层的各部分利用虚拟化技术,在服务器集群内产生数量众多的虚拟机,减少服务器的购置金额与运营成本。在进行数据采集与日志分析时,让每个主机和服务器集群共同协作,用最低的代价与高速率实现取证工作[10,11]。模型框架如图3所示。

图3 无损云取证模型架构图

云取证模型每层功能定义如下:

物理资源层:关键是将云计算物理资源的全球框架整合到一个层中。基础设施层包括虚拟化云中的主机、分布式存储、关联数据库和许多其它资源。中间层在提供基础设施层资源的前提下,可以完成多租户、并行处理、分布式缓存等业务,同时使用显示层为用户提供所需的消息。

证据资源池:这一层是法医证据的关键来源。利用云基础设施层的数据采集代理独立获取所需的日志数据,将获取的日志数据详细划分为文件类型、帐户类型、攻击类型等,形成证据资源池。

虚拟层:将证据分析过程设置为虚拟层,规范日志格式,采用静态取证和动态取证完成电子证据的截取。

协同层:该层的关键是协同代理。其核心功能是让服务器集群与各个代理协同运行,完成通信和交互。

管理中间件:关键包括用户管理、取证管理和安全管理。安全管理可以保证取证时系统的安全。

取证服务层:使用云端的数据采集代理采集问题日志,日志格式标准化后保存到日志库中。通过云计算中各主机和服务器集群的协作,进行挖掘和证据分析[12]。最后,根据用户的需求,反馈取证保留问题,使取证速度和准确性更加优异。

5 仿真研究

为了证明所建模型实用性,对模型性能展开深入探究。把实验使用的15台主机与服务器、路由器及交换机构成的系统为虚拟云,每个主机与分布器均为分布式架构,各个主机均能存留证据。实验过程中,设定大数据并行挖掘时间是50s,依次挑选不同时间段的完整数据。测试评估指标含义如表1所示。

表1 测试指标含义

使用JMeter依次模拟100~700个虚拟用户进行测验,同时记录测验参数,测验结果如图4所示。

图4 负载测验结果

从图4可知,本文模型可以高精度响应用户请求,取证效率较高,检测时间最大为11ms,并一定程度上保证数据无损压缩后的完整性,为网络云取证工作带来突破性进展。

在主机A内使用攻击工具对虚拟云内主机实施攻击,发现9台机器收到的UDP包数量明显上升,UDP数据包信息如表2所示。

表2 UDP数据包信息(部分)

从表2中可知,全部信息均源自主机A内,因此可断定A对其余主机具备攻击动作,断开每个主机与主机A的关联,对得到的数据完成备份,证据不但能储存在服务器集群内,还能备份在主机内,增加证据安全性能。

通常状态下,取证人员要摘要初始证据内的数据,再将初始证据与摘要信息妥善保管。和其余类型证据相同,电子证据一定要有足够的存储空间,因此以初始证据信息的可压缩性作为验证指标,将本文方法与文献[3]、文献[4]和文献[5]方法进行对比,验证转换矩阵在节点内占用的存储空间,得到对比结果如图5所示。

图5 初始证据信息的可压缩性对比结果

由图5可知,本文方法初始证据信息最终占据空间最小,在编号为三的转换矩阵中为2b,低于其它文献方法,说明转换矩阵在节点内占用的存储空间最小即初始证据信息的可压缩性较强。

6 结论

1)立足大数据挖掘与计算机取证,基于并行挖掘大数据构建一种无损云取证模型。充分提升证据获取速率的同时,保障数据完整性,确定网络犯罪的时间与传播过程,构成完整证据链。

2)云计算的出现让大数据挖掘变得更加有效,其使用集群并行计算,在多台机器内同时进行数据处理,检测时间最大仅为11ms,且转换矩阵在节点内占用的存储空间为2b,极大提高数据处理能力与效率。

3)但本文方法在数据无损方面的研究较为浅显,不保证适用于全部网络取证工作,下一步会深入研究无损取证全范围适用性优化问题。

猜你喜欢
分块日志关联
面向量化分块压缩感知的区域层次化预测编码
钢结构工程分块滑移安装施工方法探讨
一名老党员的工作日志
读扶贫日志
分块矩阵初等变换的妙用
“一带一路”递进,关联民生更紧
雅皮的心情日志
雅皮的心情日志
奇趣搭配
智趣