基于Hadoop的大数据分析与优化略论

2021-12-24 12:47宋柯萱
电脑知识与技术 2021年29期
关键词:大数据优化分析

宋柯萱

摘要:作为开源软件的Hadoop具有强大的数据处理功能,具有容错性强,能够快速地对网络中的大数据信息进行获取与处理,可以有效解决数据处理过程中的伸缩性问题,为用户获取有用的信息,通过对用户主题行为数据挖掘方式特征进行分析,探究了对用户行为数据挖掘的聚类处理的方法与用户特征聚类数据的处理方法,该方法具有很强的适应性,能够保证Hadoop平台对大数据进行处理与分析。

关键词:Hadoop;大数据;分析;优化

中图分类号:TP391  文献标识码:A

文章编号:1009-3044(2021)29-0037-03

在具体的大数据处理与分析的过程中,Hadoop平台具有很强的适应新,它分别利用MapReduce 和HDFS 的功能来实现数据分析,而HDFS是一个可靠的分布式的文件系统,便于对分布式的数据进行处理。Hadoop 的优势在于它具有超高的数据吞吐量和访问能力,能够对海量的信息数据进行存储与处理。在进行数据挖掘时,利用 MapReduce 向 Hadoop建立群体信息提交时,相应的数据就会按照片段划分处理,并结合相应的数据聚合、关键词来完成海量数据的处理。

1基于用户主题行为数据挖掘

Hadoop平台在进行数据挖掘时,需要为不同数据的挖掘提供接口服务,结合数据挖掘设计的主题,利用 Map/Reduce 算法,将文本划分为几个小的模块进行处理,在不同的模块之间都重复执行相同的算法,直到完成整个数据的挖掘。利用Ha⁃doop平台可通过分布式存储技术对挖掘的数据进行存储,而且处理效率与吞吐率高。Hadoop平台能自动处理分析失败的节点,并重新按照数据处理的标准来挖掘数据,能整体提高数据处理的效率。Hadoop平台中Map/Reduce技术大数据处理的关键技术,其中,HDFS 和HBase技术为平台的基础,是数据处理的关键,HDFS是 Hadoop 大数据平台核心技术,能实现大规模的数据检索与处理,并采用流的形式快速地对数据进行访问,利用Map/Reduce算法,对分块的数据进行检索与挖掘,从而完成整个数据的处理技术。

基于用户主题的数据一般都是安全提前规定的关键词保存于 Hadoop分布式文件系统中,并根据用户的定义的主题与标准,将数据集划分成不同的切片,形成若干个数据子集,然后利用事先设计的MapReduce算法,对数据子集进行检索计算分析,完成整个用户行为的数据处理。具体的数据挖掘步骤如下:

1)数据的初始化处理。主要是对保存于分布式文件系统(HDFS)中数据切片进行处理,将获得的数据作为初始化的数据作为关键集的值,并得到<key,value>键值对数据,根据数据分析的要求,将key定义成用户编号,value定义成用户数据行为信息,完成HDFS 中的所有数据处理。

2)样本数据处理。通过 Map任务节点对初始化处理的用户主题数据进行样本密度求解分析,为了提高数据的效率,按照最大权值计算法的方法获取主题数据几个簇集,结合数据挖掘的要求,计算出各个簇集元素的簇 key、reduce 节点的关键值,使之与key值一致的簇集对应一起,形成一个统一的key值编号,作为整体数据处理的簇号。

3)数据的聚合处理。为了降低计算时所需的I/O通信代价,对HDFS处理后的数据集中,将各分区中key值相同的信息聚合在一起,形成数据聚合处理的基本要求。

4)哈希分区处理。根据设计的依据定义的要求,分区函数 Partition进行处理,将计算出的值作为key值,形成若干个数据存储区域,并把各分区的数据进行Reduce 函数定义,从而能完成用户主题的行为数据挖掘。

2对用户行为数据挖掘的聚类处理

2.1数据聚类处理的过程

在Hadoop平台的数据处理中,常用的聚类方法为k-means 方法,它处理数据的效率高,应用十分广泛,由于数据处理比较复杂,采用k-means方法对聚类数据处理时,需要合理的选择聚类中心的数据,这是数据聚类处理的关键,如果选择的不够合理,就不能选择局部最优方案,不利于数据的聚类处理。利用Hadoop平台聚合数据,需要优化k-means方法,结合KL散度方法,对挖掘用户行为数据聚合处理,将得到聚类数量k 与初始聚类中心进行比对,初始聚类中心会对相同簇中用户的行为数据进行处理,将用户的行为数据的平均距离d产生一定的影响,从而能够得到如图1所示的k与d 间的关系。

通过图1可以看出,在k值相对较小的情况下,需要处理的用户行为聚类数据量比较小,在相同数据簇部门用户的行为数据出现了模糊化、边缘化的情况,簇中平均距離d相对较大,说明数据的聚合处理效果不够理想。在k值逐渐升高变化,d值会逐渐降低并趋向平稳,数据用户行为的数据也变得集中,在k 值达到一定水平后,d值趋向平稳,说明挖掘的数据在经过聚合处理之后,能够获得相应的要求。结合k与d之间的变化特性,数据聚类处理的步骤如下:

(1)结合k值与d值的对应关系,利用k-means方法求出二者相对应的关系值。

(2)利用k-means方法,选择数据分析点,求出d值的改变趋势,具体计算方法如下:

(3)对值进行计算分析,确定的变化区间,从而能够获取簇内值改变频率的变化区间,在这里规定,便于进行后期的聚类处理。

2.2聚类中心的选择

在完成的区间分析之后,就可以k-means方法不断缩小d值的区分范围,并获得相应的k值。在进行数据聚类分析时,首先要选择聚类中心的问题,这就需要对聚类的数据密度进行处理,采用KL散度对数据聚类中心进行处理。通常同簇内用户的主体数据点分布相对密集,在与聚类中心点距离越大,数据密度就越大,和中心点距离越大密度越小,在具体的数据挖掘过程中,如果数据挖掘周围的密度较大,其余空间的数据聚合对象密度就越小,利用这种方法来分析用户主题数据的分布情况,可以将其作为数据处理的初始聚类中心,为Hadoop 平台的后续数据处理奠定基础。

(1)将通过 Hadoop 平台挖掘产生的数据集合用进行表示与描述,那么对数据对象j 的KL散度进行计算,具体的方法如下:

通过计算就会产生差异矩阵S,就是由计算后若干个元素组成,然后利用升序排列的方法形成KL散度。

(2)k值与d值之间的平均距离计算方法如下:

(3)数据挖掘的密度值计算。将矩阵S 中的第i行中和数据a 间隔超过di2 的数据对象进行删除,就能方便的求出挖掘数据对象a平均间距,从而可以有效地计算数据挖掘的密度值,具体的方法为:,在计算出最大值后,就可以当第一个最大值作为聚类的中心点,然后利用map 函数对用户行为的Value 的特征向量进行计算,按照数据对象的密度值,进行排序计算,直到计算到选择的k个中心点,形成相应的簇号key值。

(4)如果通过上述的计算过程处理时,一直到中心点的数据不足时,可以认为计算出的密度值为最大,这时将d减少一半后重新进行计算,直到计算出符合挖掘条件的聚类中心。

(5)对聚类结果进行分区处理。主要将初步挖掘的数据进行处理,依据key值对键信息,将挖掘的数据进行分区,形成若干个区域,利用reduce 函数计算处理,将分区中key相同的信息进行合并处理,直到聚类结果所有数据达到稳定状态,从而能够得到数据挖掘的聚类结果。

3对挖掘数据的用户特征提取

3.1用户特征数据提取计算方法

用户行为数据特征提取是用户数据信息进行管理的关键与基础,在具体的处理过程中,一般采用线性特征提取的方法进行计算,但是在具体的分析计算中,用户数据规模比较大,类内的散度矩阵往往会出现奇异值,就需要对线性特征提取的方法进行改进,来提取聚类处理后的数据挖掘的特征。

假设用户行为数据样本点为l维度中心化向量,利用主干成分法可以计算出数据样本的协方差矩阵,,但是采用主干成分法处理用户行为特征样本,主要用于处理数据量大,计算复杂度数据处理中,属于批处理的方法,往往会产生较大的数据误差。针对主成分分析方法在提取用户特征数据的弊端,需要对其进行优化,降低数据计算的复杂度,通过采用增量计算的方法,重新对聚类数据特征进行提取计算。

假设用户行为数据聚类数据流按如下的样本向量进行收集,这样的向量样本可能比较大,确定v(n)

为d 为数据向量,为了提高用戶特征数据聚类的准确性,要对样本的数据均值进行分析,假设 v(n)的均值为0,可以采用来描述维协方差的矩阵,这就能方便地对增量更新对方差矩阵进行计算,来得到用户的用户行为聚类特征,具体的计算方法如下:

为了进一步获取聚类特征数据,假设u(0)= u(1),这就能确定聚类数据特征的第一个特征数据方向,然后针对数据增量估计,将用户聚类特征计算方法转换为递归计算的方法:

其中,代表整个特征矩阵的方差,用户行为特征

数据的特征向量与特征值主要是通过  u 与的方法进行计算。

然后继续通过上述过程与方法不断进行计算,从而能够获取的为第一阶向量特征数据,第二阶向量的数据可利用第二阶向量映射获取,通过多样的迭代计算,具体的计算方法为:

这样通过不断的反复迭代计算,将式中的 v(n)值不断迭代输入计算,直到完成整个数据的处理,获取相关的特征值。这种计算方法不仅能有效地避免协方差矩阵特征值,还提高算法的效率,能有效地计算用户特征值的复杂度,从而能够提高用户特征数据的收敛性特征,实现整个数据挖掘计算处理。

3.2集群扩展性分析

集群扩展性主要在用户行为数据增量呈现几何级数变化的状态下,算法往往会受到限制,即随着用电数据量的逐渐增多,在运行Hadoop平台的过程中,采用增加节点的形式来提升数据处理的吞吐量,便于快速对数据进行处理,如果集群的扩展性优良,就说明利用该方法能够对大规模的数据进行处理。为保证数据挖掘的有效性,采用了用户行为数据量大小分别为 200M、400M、1000M、1500M、2000M时,对数据处理的效果进行分析,在不同的节点具体的运行效果如图2所示。

通过图2 的分析可以看出,在用户的行为特征数据低于400M 的情况下,Hadoop平台在并行节点数量增加的情况下,平台的运行效率保持稳定,在用户的行为特征数据量达到2000M 的情况下,Hadoop平台的并行节点数量增加的情况下,系统平台运行效率也保持着稳定,说明采用 Hadoop平台对大规模的数据进行挖掘出来的数据集具有良好的扩展性,也说明Hadoop 平台比较适合进行大数据处理与分析。

4结束语

通过以大规模用户行为数据为基础,以 Hadoop平台为技术来分析大数据特征提取的方法,不仅能够有效地完成用户特征数据的聚类处理分析,为用户特征数据提取提供依据,设计的数据处理方法还具有良好的拓展性,能有效地对用户的特征数据进行分析与提取,从而能够得到大数据环境下用户的关键性特征数据。

参考文献:

[1]朱月琴,谭永杰,张建通,等.基于 Hadoop 的地质大数据融合与挖掘技术框架[J].测绘学报,2015,44(S1):152-159.

[2]谷红勋,杨珂.基于大数据的移动用户行为分析系统与应用案例[J].电信科学,2016,32(3):139-146.

[3]耿志强,张杨,韩永明.基于矩阵的关联规则增量更新及其改进算法[J].北京化工大学学报(自然科学版),2016,43(5):89-94.

[4]于兆良,张文涛,葛慧,等.基于 Hadoop平台的日志分析模型[J].计算机工程与设计,2016,37(2):338-344,428.

【通联编辑:唐一东】

猜你喜欢
大数据优化分析
超限高层建筑结构设计与优化思考
一道优化题的几何解法
隐蔽失效适航要求符合性验证分析
电力系统不平衡分析
电力系统及其自动化发展趋势分析
基于大数据背景下的智慧城市建设研究