基于改进Spark技术的高维数据增量式聚类算法

2022-02-09 02:20刘仁芬杨凤丽
计算机仿真 2022年12期
关键词:高维降维聚类

刘仁芬,杨凤丽,王 霞

(石家庄铁道大学四方学院,河北 石家庄051132)

1 引言

高维数据包含多种属性,例如空间位置信息、多物理参量、多时次数据、医疗数据等,也可将其理解为维度超过2的数据。该类数据已经称为当下生活中经常使用的一种数据[1],但是由于该类数据的样本量极大,分析和处理的难度以及效果较差,甚至无法完成原始高维数据的加载;并且,即便在实现加载的情况下,也会导致计算机资源的超量占用,对算法的运算效率造成较大影响[2,3]。

当前,诸多学者针对高维数据的增量式聚类均展开相关研究,例如赵萌萌等人基于共享近邻紧密度,研究高维数据的增量式聚类算法[4],斯亚民基于嵌入式模糊集数据库,研究高维数据的增量式聚类算法[5]。上述算法,可用于完成正常数据的聚类处理,但是当数据信息流中存在异常数据时,上述方法的敏感性较强,则处理效果较差。

本文结合高维数据的特点,依据spark技术对高维数据的增量式聚类算法进行改进,提出基于改进spark技术的高维数据增量式聚类算法,实现高维数据的有效聚类处理,且避免敏感性的发生,提升数据处理效率。spark技术是一种用于处理大数据的计算引擎,也可理解为一种通用的并行架构,可实现交互式计算,可高效完成大数据的处理,并且通用性能较好,可适用于多种程序,实用性能较高,支持复杂算法的运算。增量式聚类是一种以提升数据聚类效果以及效率为目的,在上一次聚类的基础上,提升此次聚类效率的一种聚类算法。该算法也是用于实现高维数据处理的一种主要方法。

2 基于改进spark技术的高维数据增量式聚类算法

2.1 高维数据结构重组

高维数据中,含有大量模糊数据,对高维数据的处理造成一定影响。因此,为实现高维数据增量式聚类,需重组高维数据结构,获取数据中的模糊数据。本文采用基于混沌分区方法完成。依据获取的模糊数据分析该数据的时间序列混沌序列,以此分析两种结构[6],分别为重构结构及数据结构,前者属于模糊数据。

{x1,x2,…,xN}表示观测时间序列,属于高维数据流,且为待挖掘状态;宽带时间序列用x(n)表示,处于平稳状态;对模糊数据结构映射,且在特征空间中完成,其维数用m表示,基于此可得重组结构公式,且属于高维数据

X(n)={x(n),x(n+τ),…,x(n+(m-1)τ)}

(1)

式中:n=1,2,…,N;τ表示时间延迟。

为获取模糊信息的分布轨迹[7],需在完成特征融合的基础上,分析相轨迹演化情况,且处于高维空间内完成,则公式为

X=[s1,s2,…,sK]

(2)

式中:K表示嵌入维数,K=N-(m-1)τ,属于特征空间,且在搜索过程中;m表示层数,属于数据的本体特征;特征矢量集用si表示,属于相空间中,且si=(xi,xi+1,…,xi+(m-1)τ)T。

2.2 高维数据降维

由于获取的模糊数据的分布轨迹呈不均匀分布状态,并且数据的维数较高,因此,本文采用基于信息熵的高维稀疏降维算法,先该分布空间的高维数据进行特征筛选后,减少特征的数量,然后完成数据降维[8]。

阈值用δ表示,属于信息熵,通过减少数据特征数量,将无效的原始数据特征去除,其降维过程如下所述:

输入:输入X,X包含的样本数量为m、特征数量为n;贡献率为f。

输出:降维结果Yk×m。

1)对数据的所有特征进行求解,将求解结果与δ进行对比,进行特征选取,对X进行相关操作,操作内容为:求解特征ai的信息熵H(ai);向集合A中引入ai。

2)为获取矩阵Vn×m,中心化处理样本矩阵

V=A-repmat(mean(A,2),1,m)

(3)

3)为形成方差矩阵Cov,需求解其协方差,属于差异性特征之间

Cov=(VVT)/(size(X,2)-1)

(4)

4)求解Cov的特征值和特征向量。

5)选择并确定变换基:

为构成特征向量矩阵Wn×k,选取最大的特征值的特征向量完成[9],两者的数量均为k。

6)降维结果求解,其公式为

Y=WTV

(5)

7)输出结果

算法中f决定k值,f的计算公式为

(6)

式中:λi表示特征根。

2.3 并行化增量式高维数据聚类优化

2.3.1 关联数据检测

检测输出Yk×m,获取数据之间关联性。设γBLCMV表示Yk×m的监测统计特征值,其计算公式为

(7)

式中,检索的模糊域用at(θ)表示;R表示优化目标函数;φ表示分块匹配集,且φ=[φ1,φ2,…,φg],其式(8)描述

(8)

(9)

式中:ASM表示加权幅值,且为输出;ρSM表示自适应调节参数;DSM表示约束条件,且为不等式;H表示特征分布系数。

设定时间窗口为Tφ,其属于模糊类中心,计算公式为

Tφ=set(Tf/Nφ)

(10)

式中:Tf>φjTφ;Nφ表示φ的数量。

Yk×m的全局性最优返回结果为

pi(l+1)=min(pmax,Ωi(l+1))

(11)

将式(11)结果输入至缓冲器中,获取链路增益值hi,且hi≠hmin(l)、Ωi(l)>0,基于此完成Yk×m中关联数据检测。

2.3.2 改进spark融合聚类

为实现高维数据的增量式聚类,采用spark融合聚类方法[10]对提取的特征向量进行并行聚类优化,且在高维相空间中完成,获取高维数据功率谱密度,且属于传输信道,其计算公式为

(12)

设pi(l+1)=0,描述高维数据的输出斜度和峰度,两者的计算公式依次为

Sx=E[x3(t)]

(13)

Kx=E[x4(t)]-3E2[x2(t)]

(14)

并行化聚类的误差计算公式为

(15)

式中:μ表示特征分量;d(n)表示期望距离,ω表示间距。

为获取高维数据的均衡调度尺度特征,需提取高维数据的平均集对特征量,其属于集对簇中[11],并且位于信道的近场源中完成。

(16)

式中:E(i,j)表示均衡调度尺度特征;依据各个时帧A中的簇向量集ai,获取高维数据并行化聚类的R,其计算公式为

R=ω1Ci+ω2Di+ω3Mi+ω4Ni

(17)

式中:ω表示间距,且在扰动情况下,并属于聚类类间;C、D分别表示频率和尺度,两者均属于数据聚类过程中,且前者对应子带中心,后者对应时间;M表示约束参量,且呈线性。则高维数据的spark融合[12]的高维数据增量式聚类集计算公式为

Qkc(-1)i+1det(Q′i1)))

(18)

K(xi,xj)=〈xi,xj〉

(19)

结合自适应学习算法完成高维数据聚类中的自动寻找,完成高维数据并行化聚类。

3 仿真测试与分析

为测试本文算法的聚类效果和性能,本文选择两种不同维度的数据集作为测试对象,数据集1包含样本总数量为1799,其维度为256,类别数量为12;数据集2包含样本总数量为400,其维度为1024,类别数量为400,测试时,测试过程中通过Visual C++完成算法编译,并采用MATLAB仿真软件完成测试。

为测试本文方法的高维数据的结构重构效果,需确定其最佳嵌入维数,测试在不同维数下,数据集的混沌重组结果,数据集1的重构效果如图1。

图1 混沌重构测试结果

根据图1测试结果可得:嵌入维数为5时,混沌重构分区后的数据分布存在尖峰位置,虽然整体呈现上下分布,但是中心线的上下两部分存在一定不对称现象;嵌入维数为7时,混沌重构分区后的数据分布平滑、圆满,不存在尖峰现象,并且中心线上下部分呈现较好的对称分布;嵌入维数为9时,混沌重构分区后的数据分布则出现较为明显波动,则波动状态不规则,导致纵向中心线和横向中心线呈现差异变化。该结果表明,当嵌入维数为7时,可获取最佳的数据混沌重构效果。

为测试本方法对高维数据的降维效果,采用本文方法对两类数据集进行降维处理,测试在不同贡献率取值下,两类数据集降维前后的对比结果,见表1。

表1 两类数据集的降维测试结果

分析表1测试结果可知:本文算法具备良好的数据降维效果,针对维数相对较低和相对较高的两种数据集的降维性能相差较小,不存在维数越高则降维效果较差现象。当贡献率达到1.0时,两种数据集的维度分别下降120和118个维度,有效实现数据集的维度下降,以此降低存储空间的占用率。

为测试本文算法的聚类效果,采用归一化互信息和兰德指数作为评价指标,指标的计算公式分别为:

(20)

(21)

式中:数据集的样本总数量用N表示;第i类的样本数量用Ai表示,且属于本文方法聚类后;数据集中的真实数量用Bi表示,且属于第j类样本;ζ表示未知类别;以实际的样本类别信息为参照,聚类后与其类别相同的样本数量用a表示、不相同的数量用b表示。两个评价指标的取值范围为[0,1],本文方法的聚类效果随着该取值的增加而越佳、该取值的降低而变差。

所提方法下两类数据集的聚类的效果,结果见图2、图3。

图2 归一化互信息测试结果

依据图2测试结果可知:当样本类别数量较少时,在不同的增益比例下,NMI呈现差异性波动变化,但是当期比例达到0.7时,NMI的结果较低,随着样本类别数量的增加,呈现显著的下降趋势;当样本中类别数量较多时,随着样本数量的增加,不同增益比例下的NMI值均呈现下降趋势,但是,比例为0.1、0.3、0.5时,NMI的结果均在0.58以上,当比例为0.7时,NMI的结果均低于0.55,并且样本数量为12类时NMI的结果仅为0.15。

图3 兰德指数测试结果

依据图3测试结果可知:增益比例为0.1、0.3、0.5时,数据集1和数据集2的RI结果均在0.60以上,且波动范围较小,当增益比例为0.7时,数据集1的RI值,随着样本类别数量的增加,在0.3~0.45的范围内波动;数据集2的RI值随着样本类别数量的增加,则呈现缓慢下降趋势。

综合图2和图3结果得出:增益比例对于NMI的结果存在直接影响,因此,算法在运算过程中,比例值应低于0.5,同时,在合理的比例取值下,样本数量的增加,对于NMI的结果影响较小,可忽略不计。因此,在合理的增益比例下,本文算法的聚类效果良好,可完成高维数据的有效、可靠聚类。

4 结论

由于高维数据的利用率以及处理效果不理想,因此,本文以高维数据增量式聚类为目的,研究基于改进spark技术的高维数据增量式聚类算法。通过高维数据结构重构、降维处理,并通过spark技术完成数据的并行聚类优化,实现高维数据的高效处理,获取有效数据,实现高维数据的增量式聚类。通过仿真测试得出:本文算法在最佳的嵌入维数下,可完成最佳的数据结构重构结果,并且能够降低高维数据的维度,聚类效果良好。

在日后的研究中,将以进一步提升算法的性能为主,对高维数据中的近似特征展开研究,分析是否可通过近似特征的结合,优化算法的聚类性能。

猜你喜欢
高维降维聚类
有向图上高维时间序列模型及其在交通网络中的应用
混动成为降维打击的实力 东风风神皓极
Helicobacter pylori-induced inflammation masks the underlying presence of low-grade dysplasia on gastric lesions
降维打击
基于K-means聚类的车-地无线通信场强研究
高维洲作品欣赏
基于矩阵模型的高维聚类边界模式发现
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
一种改进的稀疏保持投影算法在高光谱数据降维中的应用