粒向量驱动的随机森林分类算法研究

2024-03-03 11:21张锟滨陈玉明吴克寿侯贤宇
计算机工程与应用 2024年3期
关键词:粒化决策树准确率

张锟滨,陈玉明,吴克寿,侯贤宇

厦门理工学院 计算机与信息工程学院,福建 厦门 361024

1979年,美国科学家Zadeh首次提出并讨论了模糊信息粒度化问题[1]。这一概念的提出,引发了不同领域的学者对信息粒化的探索与研究。1988年,Lin提出了邻域系统并研究了其与关系数据库的关系[2],1996 年,Lin 第一次提出了粒计算(granular computing)的概念,他给出了信息处理中一种新的概念与计算范式,并在数据挖掘领域进行应用实践[3]。在Lin的研究基础上,Yao定义了一种邻域关系[4],进而提出了邻域粒计算[5],并将其应用于数据挖掘等领域。2000年后,随着粒计算热度不断提高,国内学者也加大了对粒计算的研究力度。苗夺谦等人对知识的粒计算进行研究,给出了属性重要度启发式的属性最小约简算法,及基于协调度的决策树构造方法[6]。胡清华等人分析了邻域的约简,在文献[7]中提出了一种基于邻域关系的粒化方式,从而实现了实数空间中的粒计算,并在此基础上设计了邻域分类器[8-9]。Chen在文献[10-12]中提出了基于单特征模糊粒化结合卷积的分类模型和基于信息粒的随机模糊粒度决策树算法,将模糊粒化与机器学习算法结合,进行聚类与分类,并分析了粒的不确定性和距离度量。从信息粒度的角度分析,不难发现聚类和分类有很大的相通之处:聚类是在一个统一的粒度下进行计算,而分类是在不同的粒度之下进行计算[13-14]。粒和粒化是符合人类认知特性的范式,在大数据、数据挖掘以及复杂数据建模中有着重要作用,并广泛应用于诸多领域[15-17]。

随机森林(random forest,RF)[18]是一种集成分类算法,其核心思想是通过建立多个决策树来降低单个决策树的过拟合风险。每个决策树都是在不同的样本和特征集上训练,这种随机性可以减少算法的方差,并提高模型的泛化能力。这些决策树可以并行训练。在随机森林中,每个决策树的输出被视为一个投票。在分类问题中,随机森林会将实例分配给获得最多投票的类别,具有高稳定性、模型泛化能力强,易并行化等优点,并且由于其在分类任务上相比于其他算法具有更好的表现,因此广泛应用于检测系统[19]、推荐系统[20]、诊断系统[21]。随机森林的起始性能往往比较差,特别是只有一个基学习器时,这是因为基学习器的训练过程中加入了属性扰动,导致基学习器的性能降低[22]。但是,随着基学习器的个数增加,随机森林产生的集成学习器的性能会得到很大的提升,即最终泛化误差会收敛到最小。根据文献[18],当树的数目足够大时,随机森林的泛化误差的上界收敛于下面的表达式:

其中,是树之间的平均相关系数,s是度量树型分类器强度的量。通过分析式(1)可知,随机森林的过拟合风险可以通过Bagging 和特征随机选择来控制,但仍然存在一定的过拟合风险。相关性的存在使得随机森林的泛化误差略高于独立决策树的误差。此外,决策树和随机森林本身也有一定的偏差,特别是在复杂模式或特定样本分布的情况下。针对以上问题,本文在随机森林分类算法中引入粒向量,提出了基于粒向量的随机森林分类算法,该算法主要有以下优势:

(1)高维特征表示:粒向量引入了高维特征表示,将数据点映射到一个更大的特征空间。这有助于捕捉更多的数据关系和模式,尤其在处理复杂的非线性关系时效果更好。

(2)参照样本选择的随机性:随机森林算法在每棵决策树构建时随机选择特征,而粒向量每个维度都对应多个随机选择的参照样本特征。这种随机性有助于减少过拟合,增加模型的泛化能力。

(3)模型多样性:随机森林通过集成多棵决策树来进行预测,每棵决策树都是使用不同的数据子集和特征子集构建的。引入粒向量后,每棵决策树的特征子集也是随机选择的。这样可以增加模型的多样性,减少模型的方差,提高模型的鲁棒性。

在下文将首先详细介绍粒向量的定义和算法,以及其在随机森林中的应用。随后,提出基于粒向量的随机森林分类算法。最后,使用UCI数据集对基于粒向量的随机森林分类算法与传统随机森林算法和其他方法进行性能对比,验证粒向量算法的正确性和有效性,为随机森林算法的优化探索了一个新方向。

1 相关工作

1.1 粒子与粒向量

传统随机森林算法的输入对象为样本,在粒计算理论中,输入则为一个由粒子组成的粒向量。文献[23]提出了粒的构造方法,可在列(属性)上进行粒化;文献[17]提出了在单特征上粒化为粒子,多特征上粒化构造粒向量的具体方法,并进一步给出了粒的结构、距离度量等定义。

设数据集为U=(X⋃P,C),其中X={x1,x2,…,xn}为训练样本集;P={p1,p2,…,pk}⊆X为随机抽取的局部样本作为粒化参照样本;m维特征集合为C={c1,c2,…,cm} 。给定单样本x∈X,对于单特征c∈C,v(x,c)∈[0,1]表示样本x在特征c上归一化后的值。则x与p在单特征c上的相似度为:

定义1给定数据集U=(X⋃P,C),对于任一样本x∈X和参照样本集P={p1,p2,…,pk},以及任一单特征c∈C,则x在参照样本p中的特征c上进行粒化,形成的粒子定义为:

其中,rj=sc(x,pj)表示样本x以pj为参考,在单特征c上的相似度。易知sc(x,pj)∈[0,1],因此rj∈[0,1]。粒子由粒核组成,gc(x)称为粒子,则gc(x)j称为第j个粒核。若∀rj=1,则为1-粒子,简写为1;若∀rj=0,则为0-粒子,简写为0。

定义2设为数据集U=(X⋃P,C),对于任一样本x∈X,任一特征子集A⊆C,设A={a1,a2,…,am},则在特征子集A上的粒向量x定义为:

其中,gam(x)是样本x在特征am上的粒子。为方便计,特征集A={a1,a2,…,am}用整数标记,则粒向量表示为GA(x)=(g1(x),g2(x),…,gm(x))T。

粒向量由粒子组成,粒子又由粒核构成。因此,粒向量可以是一个粒核矩阵的形式,表示为:

与原数据集相比,粒核矩阵的大小受参照样本数量的影响:参照样本越多,粒核矩阵越大;参照样本越小,则粒核矩阵越小。粒向量也可以用另外一种形式表示为:

其中,g(x)j=(g1(x)j,g2(x)j,…,gm(x)j)T。粒向量由粒子组成,而粒子是一个集合的形式。因此,粒向量的元素是集合,与传统向量不一样,传统向量的元素是一个实数。

1.2 粒的运算

上节主要阐述随机抽取部分样本作为参照样本,然后对训练集样本在参照样本中进行粒化后,构造出粒子与粒向量。这一小节定义粒的相关运算与距离度量,建立基于粒向量的随机森林运算基础.

定义3设粒子为,其大小定义为:

由粒子的定义可知rj∈[0,1],因此0 ≤| |

gc(x) ≤k。

定义4设为样本x在特征a,b上的两个粒子,则两个粒子的加、减、乘、除运算定义为:

定义5设为样本x,y在特征a上的两个粒子,则两个粒子的加、减、乘、除运算定义为:

两个粒子的加减乘除运算结果为一个粒子。定义4是针对同一个样本在不同特征集合上粒化后不同粒子的运算,而定义5则是应用在不同样本在同一特征集合上粒化后粒子上的运算。

定义6设为两个粒子,则粒子的欧氏距离度量为:

定义7设GC(x)=(g1(x),g2(x),…,gm(x))T,GC(y)=(g1(y),g2(y),…,gm(y))T为两个粒向量,则粒向量的欧氏距离度量为:

其中,o(gi(x),gi(y))为粒子的欧氏距离。

1.3 粒范数

本节进一步定义粒范数。粒范数可用于衡量特征的重要性和稀疏性。通过引入粒范数作为正则化项,可以促使模型选择具有较大权重的特征,同时抑制那些具有较小权重或冗余的特征。这有助于降低模型的复杂性,避免过拟合,并提高泛化能力。

定义8设为粒子,则粒子的范数定义为:

(1)粒子-1范数

(2)粒子-2范数

(3)粒子-p范数

(4)粒子-max范数

(5)粒子-min范数

定义9设m维粒向量为,则粒向量范粒子定义为:

(1)粒向量-1范粒子

(2)粒向量-2范粒子

(3)粒向量-p范粒子

粒向量的范粒子运算结果为粒子,提供了一条由粒向量转化为粒子的途径。

定义10设m维粒向量为,则粒向量的范数定义为:

(1)粒向量-11范数

(2)粒向量-12范数

(3)粒向量-21范数

(4)粒向量-22范数

粒向量的范数运算结果为实数,粒子的范数运算结果也为实数,这些运算提供了粒向量与粒子转化为实数的途径。

2 基于粒向量的随机森林算法

基于粒向量的随机森林分类算法是有监督分类算法,它结合粒计算理论以及随机森林思想,将可并行的粒与集成学习融合,对多特征描述下的粒向量进行分类,以提高随机森林的性能。为了设计基于粒向量的随机森林分类算法,需先定义基于粒向量的随机森林结构,阐述基于粒向量的随机森林分类算法的原理。

2.1 基于粒向量的随机森林原理

根据定义1 和定义2,数据集将以粒矩阵的形式输入随机森林。经相似度粒化的随机森林算法随机选出的粒向量和粒子,参照文献[16]的思想构造粒决策树。本文根据公式(2)进行相似度粒化,原数据通过粒化生成的粒向量以局部参照样本进行粒化,可以通过局部信息构造相关系数较低的相似度粒核矩阵;在所有样本上进行粒化,所以算法能够把握全局信息进行决策,进而能够有效提高算法的准确率。通过公式(1)分析传统随机森林存在的问题,本文提出的基于粒向量的随机森林算法具有以下优势:

(1)GvRF 可构造的决策树数量是RF 算法中的|g(x) |倍,能快速提高基学习器数量,以提高随机森林的收敛速度。

(2)由于参照样本的选取具有随机性,生成的粒矩阵能够提供多个相关性较弱的分类器,能有效降低相关系数ρˉ。

(3)用于构建粒向量的参照样本均来自原始数据,通过随机选取可以更好拟合原始数据分布,以提高算法在复杂模式或不同分布的数据集中的性能。

2.2 基于粒向量的随机森林模型结构

参考随机森林的结构,基于粒向量的随机森林模型分为五个部分:输入层、粒化层、抽样层、并行层、决策层、输出层,其模型结构如图1所示。

图1 基于粒向量的随机森林模型结构Fig.1 Granule vector based random forest model structure

首先,输入信息空间IS=(U,F),其中样本集为U={x1,x2,…,xn},属性集为F={f1,f2,…,fm},对样本集进行归一化操作。GvRF模型的粒化层随机选取参照样本构成参照样本集P={p1,p2,…,pk},并使用公式(2)在所有属性下进行粒化,将原数据集粒化成为一个粒核矩阵GT={G(x1),G(x2),…,G(xn)},粒核矩阵的大小由参照样本的多少决定。粒化过后的相似粒矩阵GT通过随机抽取粒向量用于构造决策树根节点的训练数据,随机抽取粒子进行节点的分裂。在并行层,粒核矩阵GT将被处理成多个新的粒核矩阵GTk},其中k为样本的个数。每个粒核矩阵用于构造粒决策树,构造好的粒决策树可进行并行运算。最后通过预测层得出每棵树决策的类别,形成决策集,最后通过投票在输出层确定该样本的输出类别。

2.3 基于粒向量的随机森林算法流程

2.2 节主要分层具体描述GvRF 算法模型结构。本节主要阐述基于粒向量的随机森林算法流程。

算法1基于粒向量的随机森林算法

根据算法1,GvRF 算法中N和k共同决定了随机森林中基学习器的数量。与传统随机森林算法相同,基于粒向量的随机森林算法的时间复杂度主要包括基学习器的训练和预测阶段。在训练阶段,需要构建多个决策树。每个决策树的构建时间复杂度通常为,其中m是属性数量,n是样本数量。粒具有可并行化的特性,对于基学习器的个数N和参照集大小k,算法采用并行化处理,总体时间复杂度约为。在预测阶段,随机森林中的每棵决策树都需要遍历,时间复杂度为。因此,GvRF 算法的总体时间复杂度约为。对于每棵决策树,存储的空间复杂度为O(m)。而基学习器的个数N和参照集大小k也会增加存储开销。因此,GvRF 算法的总体空间复杂度约为O(Nkm)。通过以上分析,GvRF 算法相比于传统随机森林算法而言,由于其粒的特性,在增加模型输入信息的同时,没有增加模型的时间复杂度,这也是将粒向量引入随机森林算法的优势之一。

传统随机森林算法中每个基学习器只使用部分样本和特征进行训练。这样可以增加样本和特征之间的差异性,减少模型对于训练集的过拟合。通过集成多个基学习器的预测结果,可以降低方差并提高模型的稳定性和泛化能力。由于引入了参照集选择的随机性,GvRF 算法在传统随机森林算法的基础上,进一步提供了多个高差异性的基学习器,这使得GvRF算法相比于传统随机森林算法具有快速收敛的性质,同时也进一步提高了模型的泛化能力。

分析算法1可知,相比于传统随机森林算法,GvRF算法需要额外指定参照集大小k,即算法所需的超参数有:基学习器的个数N和参照集大小k。它们共同决定了模型的学习器大小,以及算法时间与储存开销。参数的变化对算法的分类结果和运行性能有很大的影响,因此需要选择合适的数值。通过实验结果表明,综合考虑分类效果以及算法成本,GvRF 算法中基学习器的个数N的合理取值范围为0~50,参照集大小k的合理取值范围为4~10。

3 实验与分析

为验证所设计基于粒向量的随机森林算法(GvRF)的综合有效性,本文采用了UCI中的多个高维小样本数据集进行实验,所有数据集的描述性信息如表1所示。

表1 实验采用的UCI数据集Table 1 UCI dataset used in experiment

由于每个数据集中特征量纲不同,所以需要对每个数据集进行最大最小值归一化处理,将每个特征数据变换到[0,1]的区间之中。归一化公式如下:

预处理结束后,对预处理的数据进行相似度粒化,单特征上形成粒子,多特征上形成粒向量,GvRF算法的输入即为多个粒向量组成的相似粒矩阵。本文使用GvRF算法与RF算法在UCI数据集上,将算法分类效果作为评价指标进行对比。本文还讨论了两个超参数:基学习器个数N,参照集大小k对提出算法的影响。

3.1 GvRF与RF对比实验

对于表1 中的8 个UCI 数据集,实验采用提出的基于粒向量的随机森林算法(GvRF)和随机森林算法(RF)进行分类效果的比较。对比实验中包含准确率、召回率和F1 分数三种评估指标,每个指标的值都是均值(Mean)加上标准差(Std)。数据集首先通过公式(16)进行归一化,输入RF 算法的为归一化后的数据,输入GvRF 算法的数据则还需要经过公式(2)的粒化操作转换成粒核矩阵。本次实验的超参数设置如下:基学习器数量N设定为25,参照集大小k设定为5,其他条件均保持一致,所有实验均采用十折交叉验证。结果如表2所示。可以看出,在7 个数据集上,GvRF 方法在准确率、召回率和F1 分数三个评价指标上均优于RF 方法。具体来看,在准确率方面,GvRF 方法的提高范围在0.56%到2.62%之间。在召回率方面,GvRF方法的提高范围在1.92%到3.86%之间,平均提高2.80%。在F1 分数方面,GvRF 方法的提高范围在1.54%到3.35%之间,平均提高2.34%。这表明GvRF 对比于RF 在提高模型分类性能的广度和深度上都取得了较好效果。

表2 GvRF与RF在不同数据集中的性能对比(Mean±Std)Table 2 Performance comparison of GvRF and RF across different datasets(Mean±Std) 单位:%

但是,GvRF 方法的提高幅度在不同数据集的评价指标之间也存在差异。例如,GvRF与RF的提高幅度在数据集Heart 与数据集Iris 上存在明显差异。在数据集Heart 上,GvRF 方法的召回率提高2.87%,F1 分数提高3.04%,而在数据集Iris上,这两个指标的提高幅度仅为0.43%和0.01%。这表明GvRF 方法在高维数据集上表现出更强的优势,这主要是因为高维数据集可以结合相似度粒化方法提供更丰富的信息以供其进行决策。

综上,表2结果显示GvRF方法相比RF方法在高维小样本数据分类性能上获得了较为全面和稳定的提高。同时,也应注意到算法性能的提高在不同数据集和评价指标之间的差异,这需要在算法比较和选择时综合考虑其他因素包括参照样本数量k、基学习器数量N以及对不同数据集采用不同的策略,以做出更加准确的决策。

3.2 参数的影响

对于GvRF 和RF 算法,不同基学习器的数量同样影响算法的分类效果。本文提出的GvRF 算法主要由基学习器数量N和参照样本数量k两个超参数共同作用,本节通过实验讨论这两个参数对GvRF算法的具体影响。

3.2.1 基学习器数量N

为探索不同大小的基学习器数量N对算法的影响,本小节在每个数据集上以不同的基学习器数量进行实验。实验以[2,100]为区间,2为步长确定基学习器数量N,参照样本数量k为固定值5 进行,其余条件均保持不变,每组实验均进行十折交叉验证。图2 为GvRF在不同数据集中不同基学习器数量N的实验结果。

图2 GvRF在不同基学习器数量N 的准确率Fig.2 Accuracy of GvRF with different N

根据图2可知,在所有数据集的实验中,GvRF对于RF 算法在不同基学习器数量下准确率均有一定的提升。从收敛速度看,由于GvRF算法采用相似度粒化使数据集以粒向量形式扩充基学习器,其收敛速度在各数据集上均优于RF 算法,尤其在Heart 数据集上较为明显,Iris 数据集由于样本数与特征数都相对较小,GvRF算法最开始就处于最优值,并在之后小幅震荡。从收敛趋势来看,除了Glass数据集仍然处于上升趋势,其他数据集均趋于收敛。可以观察到,多数情况下,GvRF算法收敛结果要高于传统RF算法,但在基学习器数量N的值超过50 后,部分数据集上的指标也出现了小幅下降的趋势,但总体指标仍然高于RF。这说明基学习器数量N的变化并没有明显影响GvRF算法对于RF算法的性能提升。

3.2.2 参照样本数量k

在不同参照样本数量的实验中,将基学习器数量N设定为固定值25,参照样本数量设定在[1,20]区间内,步长为1,其他条件均保持不变,每个实验均进行十折交叉验证,结果如图3所示。

图3 GvRF在不同参照样本数量k 的准确率Fig.3 Accuracy of GvRF with different k

对图3 分析可知,在所有数据集上,GvRF 相对于RF 在准确率指标上均有出不同程度的提升,其中在Glass 和Heart 数据集上提升幅度尤为明显,在Iris 和Diabetes 上提升幅度较小,且不同数量的参照样本对同一数据的决策准确率有着较大幅度的影响。从趋势上分析,随着参照样本个数的不断提升,GvRF算法性能在初期(k∈[4,10])可以快速提升,在出现峰值数据后,部分数据集例如Seed 和Diabetes 数据集的准确率趋于稳定,在其他数据集上的准确率呈下降趋势。

结合图2 和图3 实验内容可以看出,基学习器数量N和参照样本数量k两个超参数共同决定了GvRF 算法的分类精度,并且由于参照样本的选择具有随机性,参数k对提出的算法具有更大的影响。根据泛化误差公式(5),本文提出的GvRF算法的优势在于:可以随机选择参照样本并通过相似度粒化的方式快速构造出多个相关系数较低的基学习器,在减少了泛化误差的同时提高了其收敛速度。值得注意的是,当N和k的值相对偏大时,GvRF的性能出现下降的趋势,这个现象在变化参数样本数量k时尤为明显。综合以上分析,本文提出的GvRF 算法在所实验的数据集中均有不同程度的提升,主要受到基学习器数量N和参照样本数量k两个超参数的影响。其中对于高维小样本数据的提升幅度更大,这充分说明了GvRF 算法的正确性和有效性。考虑算法效率等因素,推荐在高维小样本数据集中,参数k的值选择较小的参数,例如[4,10]。参数N的值则由于其收敛后具有较稳定的分类表现,可以根据不同数据集进行范围较大的自由选择。

3.3 GvRF与其他方法对比实验

本节主要对比了提出的基于粒向量的随机森林分类算法和以下对比算法:

(1)传统随机森林(random forest):建立多个决策树来降低单个决策树的过拟合风险。每个决策树都是在不同的样本和特征集上训练。

(2)极限随机树[24(]extra-trees):极限随机树是一种对传统随机森林的改进,其在构建决策树时,会随机选择特征和切分点,而不是使用最优的选择。不同样本实验中统一设置特征采样数为总特征数的平方根个特征。

(3)旋转森林[25(]rotation forest):旋转森林是一种利用特征旋转增加模型多样性的方法,每棵树都在经过特征旋转变换后的特征空间上构建,旋转变换通过主成分分析(PCA)等方法实现。不同样本实验中统一设置旋转次数为3,随机旋转的角度范围。

(4)XGBoost[26](extreme gradient boosting):XGBoost是一种基于梯度提升树的集成学习算法,在梯度提升树的基础上引入了正则化项,通过控制模型的复杂度来防止过拟合。不同样本实验中统一设置学习率为0.1,采用L2正则化。

本次实验中,GvRF 将基学习器数量设置为25,参照样本数量设置为4。除了不同算法特有的超参数,决策树部分超参数统一设置如下:基学习器数量为25,最小分割样本数为2,最小叶子节点样本数为1,树的最大深度为3,分裂标准为基尼系数(gini) 。表3 比较了GvRF算法和其他4种算法:RF、ET(文献[24]方法)、RoF(文献[25]方法)、XGBoost(文献[26]方法)在8个不同数据集上的分类准确率。

表3 GvRF与其他算法在不同数据集上的对比分类准确率Table 3 Accuracy comparison of GvRF and other algorithms on different datasets 单位:%

从表3 数据可知,GvRF 算法在大多数数据集上表现较好,特别是在Wine、Glass、Column3C数据集上的准确率最高,分别为98.89%、77.46%、84.19%。在Seed 和Diabetes 数据集上,GvRF 算法的准确率与XGBoost 相等。在Heart数据集上,XGBoost略优于GvRF。另一方面,综合数据集数据,可以看出GvRF 算法在小样本数据集(如Iris)和大样本数据集(如Diabetes)上表现都比较好,同时也能处理特征数相对较多的问题(如Breast cancer),这表明GvRF 算法具有较强的泛化能力,对样本量和特征数量较不敏感,能够较好地扩展到不同规模和结构的数据集。与XGBoost 相比,GvRF 处理小样本数据集的能力更强,XGBoost则在高维特征数据集上表现较好,因此GvRF更适合样本量不足的场景。综合来看,GvRF算法相比其他算法有更好的泛化能力,能够在不同类型的数据集上都获得较高的分类准确率。

为了进一步验证GvRF 算法的泛化性能,分别以Heart和Breast cancer两个数据集为例,比较了GvRF与其他算法在不同基学习器数量N下的分类准确率,如图4展示。结果表明:在Heart数据集中,当基学习器数量较小时,各算法的分类准确率较低,都在0.80~0.82,但GvRF略高于其他算法。随着N的增加,所有算法的准确率均有提升。当N达到100时,GvRF算法的准确率为0.85,高于XGBoost与其他算法。这表明随着基学习器数量的增加,GvRF 算法的优势逐渐增加。在Breast cancer 数据集中,各算法的分类准确率维持在0.94~0.96的较高水平,GvRF仅比RF略高0.52个百分点。随着N的增加,GvRF的准确率稳步提升,在N=100 时GvRF 的准确率高于传统随机森林与旋转森林,低于XGBoost算法。这也说明在此类数据集中,基学习器数量的增加对GvRF 准确率提升具有一定的帮助。值得注意的是,提升GvRF的基学习器数量在提高准确率的同时也相应增加了算法开销,在具体应用时需要针对不同数据集进行参数寻优。综上,增加基学习器数量N,可以一定程度上提升GvRF算法的分类准确率,在较小基学习器数量时,快速增加模型的收敛速度,但在某些数据集中其收敛速度明显小于XGBoost等算法。

图4 不同基学习器数量下的性能对比Fig.4 Performance comparison of different N

4 结束语

本文通过分析随机森林算法,结合相似度粒化理论,在单特征上构造粒子,在多特征上由粒子形成粒向量,定义粒子与粒向量的大小、距离和运算方法。将相似度粒化技术引入随机森林算法中,设计基于粒向量的随机森林算法。由于粒子具有多角度、可并行的特点,通过随机选取参照样本构造多个相关系数较低的基学习器,可以提高随机森林算法的性能。最后在多个不同类型数据集上进行实验,充分验证了文章所提出算法的正确性与有效性。未来阶段将重点针对以下几个问题展开研究:

(1)现阶段粒化理论存在一定的随机性,下一阶段将深入研究更具鲁棒性的粒化算法,构建包含更丰富的约束条件和先验知识的算法框架,采用非监督学习等方法,增强算法的泛化能力和鲁棒性。

(2)现阶段粒化理论计算成本相对较高,下一步将采用分布式计算等方法降低算法的计算复杂度,探索更合适的数据结构和搜索策略来优化算法的时间和空间复杂度。

(3)未来需要进一步提升提出的算法对基学习器的适应性,以拓宽其应用场景。后续研究将继续深入研究,提出算法的理论框架,丰富算法的理论基础。同时在更广泛的数据集和应用场景上验证算法效果,发现算法的潜在问题,不断改进算法,提高算法的精度、泛化能力,丰富算法的功能。

猜你喜欢
粒化决策树准确率
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
琯溪蜜柚汁胞粒化影响因素及防控技术综述
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
高速公路车牌识别标识站准确率验证法
基于决策树的出租车乘客出行目的识别
基于肺癌CT的决策树模型在肺癌诊断中的应用
粗粒化DNA穿孔行为的分子动力学模拟