基于Spark框架的大数据局部频繁项集挖掘算法设计

2021-04-29 06:56王黎吕殿基

微型电脑应用 2021年4期

王黎，吕殿基

(北京经济管理职业学院信息学院，北京 100102)

0 引言

随着科学技术的发展与不断进步，效率高，成本低的大数据局部频繁项集的挖掘算法愈发重要。近年来形成了巨大规模的非结构化数据和半结构化数据，这些数据被称为大数据，而如何自动、充分地利用这些大数据，顺利地解决大数据中存在的数据庞大、无切入点的问题，成为了目前国内外迫切需要解决的一个难题，而数据挖掘技术也在此时应运而生[1]。

频繁项集挖掘技术是目前数据挖掘技术的基础，最初国内外主要采用的关联规则分析、序列项集、相关性分析等数据挖掘技术,它们都是以频繁项集挖掘技术作为核心基础的，而近几年来，随着大数据处理引擎Spark的出现，为海量数据的高效处理提供了一个新的解决空间，人们由此扩展研究出的Apriori算法与FP-growth算法是当前数据挖掘技术的主流，也是目前国内外大数据挖掘技术的研究重点，其中Apriori算法是一种挖掘关联规则的频繁项集算法[2]，其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集，而FP-growth算法则是在Apriori算法基础上提出的，但是从长远角度来看，这两种算法依然无法满足处理当前大数据的需求，因为处理时间过长与内存消耗过大这两点是Apriori算法与FP-growth算法无法从根本上解决的难题，而且数据量只会变得越来越多，Apriori算法与FP-growth算法也会变得越来越无法支撑大数据挖掘的要求[3]。

本文设计了一种基于Spark框架的大数据局部频繁项集挖掘算法，该算法将Spark理念规则化变为框架形式，Spark框架是一种很好的替代框架，处理大数据局部信息时有着独特的优势，本文在Spark框架原有的基础上增添了结构变换功能，可以让其随着本文设计算法的改动而变化。依次对大数据进行了局部算法筛选、局部算法分析、局部算法挖掘，从根本上降低了挖掘难度与成本投入。

1 基于Spark框架的大数据局部频繁项集筛选

本文设计的基于Spark框架的大数据局部频繁项集挖掘算法，首先通过Spark框架来完成对大数据局部频繁项集的最初筛选，该过程中，通过调整面积大小、运行速度等相关指令进行大数据局部频繁项集中的相关数据挖掘，且Spark框架会根据本文设计的大数据局部频繁项集挖掘算法中的相关指令而产生相对变化[4]。人为添加的大数据局部频繁项集筛选要求会转化为数据组D，而A则为Spark框架中的大数据局部频繁项集，经过计算后得到的S、V、X则分别为Spark框架所需要改动的面积、运行速度、筛选要求，改动后的Spark框架具体结构应用图,如图1所示。

图1 Spark框架筛选结构

此时Spark框架主要以集成网的形式出现，在该过程中，Spark框架也主要起着过滤大数据局部频繁项集的作用，其中符合筛选要求的大数据频繁项集会保存于Spark框架所形成的筛选网上,进入到下一阶段的分析当中，而不符合筛选要求的大数据频繁项集则会被Spark框架释放[5]。被Spark框架释放的大数据频繁项集主要分为两种:一种为本质上不符合筛选要求，这一类项集会被Spark框架直接交还于大数据整体频繁项集中，不予以干扰[6]。而另一种则是本质上符合筛选要求却因某种原因被破坏导致自身并不完整，针对这一类大数据频繁项集Spark框架会进行标注记录并给予检测反馈，方便这些大数据频繁项集被相关工作者及时发现并处理，减轻大数据整体的压力负担[7]。

2 基于Spark框架的大数据局部频繁项集挖掘结果分析

通过Spark框架对大数据局部频繁项集筛选结果进行分析。经过筛选后的大数据局部频繁项集会在Spark框架的储存空间得到保存[8]。等到这些大数据局部频繁项集趋于稳定后，Spark框架会应用本文设计的算法来对这些储存空间中的大数据局部频繁项集进行重新排版与分析[9]。通过Spark框架筛选后的整体大数据局部频繁项集，经过Spark框架分支载体的启动命令单元，完成为Spark框架的分支载体命令，而作为大数据局部频繁项集类别小组，分别为操作数据类频繁项集、图像数据类频繁项集、隐藏数据类频繁项集，其中操作数据类频繁项集、图像数据类频繁项集属于公开类数据频繁项集，可以直接用于接下来的应用。而隐藏数据类频繁项集则为加密型数据频繁项集，需要进行破解才可以投入到接下来的应用当中。

此时,Spark框架的结构会受到分析算法中分支载体的启动命令,在单元与分支载体完成命令单元后,影响由集成网状变为分支网状的结构，既保证了算法分析的正常运行，也为算法挖掘打下了基础，应用本文基于Spark框架理念所设计的局部频繁项集分析算法对大数据局部频繁项集算法分析的具体归纳图，如图2所示。

图2 大数据局部频繁项集算法分析的流程

在分析出频繁项集后利用Spark框架挖掘主要目标。将基于Spark框架的大数据局部频繁项集筛选结果和分析结果与Spark框架结合运用后得到的操作数据类频繁项集、图像数据类频繁项集、隐藏数据类频繁项集是接下来进行挖掘的主要目标[10]。

操作数据类频繁项集主要指的是大数据中蕴含指令信息数据或者动作信息数据的一类频繁项集，而图像数据类频繁项集则泛指了大数据中蕴含图片或者影像的一类频繁项集[11-12]。基于上述步骤，对这两种公开类数据频繁项集进行大数据局部频繁项集挖掘，上述分析得到的隐藏数据类频繁项集属于加密型数据频繁项集[13]，它的诞生是由于在它投入大数据局部频繁项集之前曾被有意进行数据加密过，在对该类频繁项集进行挖掘之前，需要先对该类频繁项集进行数据破解[14]。本文设计算法中的加密型数据频繁项集破解算法中的专属破解单元，可以在不破坏加密型数据频繁项集自身的基础上破坏掉其特有的数据加密，进而得到可挖掘的大数据局部频繁项集。

3 实验研究

为了准确评估本文基于Spark框架理念所设计的大数据局部频繁项集挖掘算法的挖掘效果，设置了相应的实验环境进行效果检测，将本文设计算法与传统的Apriori算法以及FP-growth算法进行对比。

对于大数据局部频繁项集的复杂性与包容性，需要对实验环境进行数据筛选，本文为完善实验操作并且能够准确比较本文设计算法与Apriori算法以及FP-growth算法的挖掘效果，按照步骤划分实验研究操作如下：

(1) 在实验环境中安置大量的大数据局部频繁项集以保证能够保留其复杂性以及包容性的特征，增强本实验比较效果的说服力，应用本文基于Spark框架理念所设计的局部频繁项集挖掘算法对大数据局部频繁项集算法筛选过程,如图3所示。

图3 大数据局部频繁项集算法筛选

(2) 在对大数据局部频繁项集进行算法分析的过程当中，Spark框架受本文设计算法影响会导致自身结构发生改变，此时Spark框架的具体结构图,如图4所示。

图4 Spark框架分析结构

在该过程中，通过本文设计算法中的公开类数据频繁项集挖掘算法与Spark框架对公开类数据频繁项集的具体挖掘概念,如图5所示。

在完成以上操作后，对设置的大数据局部频繁项集中的操作数据类频繁项集、图像数据类频繁项集、隐藏数据类频繁项集进行特有标注，方便最终比较结果的验证。

(3) 在挖掘的过程中要实时记录各算法对大数据局部频繁项集的挖掘效率与时间，合理应用各算法所存在的优势，综合评估所有算法的挖掘效果，设置挖掘信息通道及挖掘效果图,如图6所示。

(4) 保证实验的公平性，在对加密型数据频繁项集进行破解与挖掘的过程中，加密型数据频繁项集结构的前后对比图,如图7所示。

图7 加密型数据频繁项集结构的前后对比图

在此实验中，为了能够进一步提高实验整体的对比效果，需要设置一定的实验参数,如表1所示。

表1 实验参数

根据上述实验参数可以得到本文设计算法与传统的Apriori算法以及FP-growth算法对大数据局部频繁项集挖掘的整体成本投入图以及挖掘效率对比图,如图8所示。

图8 对大数据局部频繁项集挖掘的整体成本投入

根据图8可以看出，在对相同的大数据局部频繁项集进行完全挖掘时，传统的FP-growth算法所需要投入的整体成本最高，传统的Apriori算法所需要投入的整体成本次之，而本文设计算法所需要投入的成本最低，如图9所示。

图9 对大数据局部频繁项集挖掘的效率对比图

根据图9即对大数据局部频繁项集挖掘的效率对比图可以看出,在相同的时间内本文设计算法对数据局部频繁项集挖掘的效率远远高于传统的Apriori算法以及FP-growth算法。

对上述结果进行归纳与总结可以发现，在对同样数量的大数据局部频繁项集进行挖掘的过程中，本文设计算法只需要通过算法的不断改变来对所设计的Spark框架进行设置，即可完成对大数据局部频繁项集的整个挖掘过程，而传统的Apriori算法以及FP-growth算法在挖掘的过程中不但需要Spark的支持，还需要大量的软件与硬件设备进行支撑才能完成同样的工作量，因此所投入的整体成本会远远高于本文设计算法，而且在挖掘的过程中随着内存空间的不断减少，传统的Apriori算法以及FP-growth算法的挖掘效率也会随之变慢，而本文设计算法并不会受到内存空间的影响，因此本文设计的基于Spark框架的大数据局部频繁项集挖掘算法的挖掘效率会远远高于传统的Apriori算法以及FP-growth算法。

综上所述，本文设计的基于Spark框架的大数据局部频繁项集挖掘算法能够更好地完成对大数据局部频繁项集的挖掘，具有合理的操作条件与途径，也具有着较强的说服力。

4 总结

本文为解决传统算法成本高、效率低等问题，提出基于Spark框架理念所设计的大数据局部频繁项集挖掘算法，摒弃了传统算法对软件与硬件的依赖，通过自身算法的变化，以及Spark框架的合理运用更加高效并准确的完成对大数据局部频繁项集的挖掘，有效降低了挖掘难度与成本投入，为该领域的发展开辟了一条新的研究路径，具有十分开阔的研究前景，值得人们进行深入地研究。