基于在线集成的概念漂移自适应分类方法

2023-07-20 11:21郭虎升高淑花王文剑
计算机研究与发展 2023年7期
关键词:集上鲁棒性位点

郭虎升 丛 璐 高淑花 王文剑

1 (山西大学计算机与信息技术学院 太原 030006)

2 (计算智能与中文信息处理教育部重点实验室(山西大学)太原 030006)

大数据时代,流数据作为一种典型的数据类型受到广泛关注.不同于传统静态数据,其具有动态性、时序性、无限性、不可再现性等特点,给数据的收集、存储、分析、处理,以及面向挖掘任务的模型构建和算法设计等都带来了严峻挑战[1-2].流数据在实际生产生活各领域的应用范围不断扩大,例如网络入侵、智慧医疗、气象预测等.近年来,对流数据的研究备受关注,其目的是提高在线学习模型的泛化性能以适应流数据的实时分布[3-5].概念漂移是流数据挖掘在现实世界中的一个重要特性,也是流数据分析挖掘中不可避免的难点问题,它打破了传统机器学习中数据分布固定的假设,其典型特征是实时数据分布不断变化,并已受到越来越多的关注和研究[6-7].

流数据中存在的概念漂移使得由历史数据训练得到的学习模型很难适应分布变化后的新数据.例如在医学领域中,病毒可能会发生变异,若一直使用之前的在线学习模型对病毒进行筛查,很难在较短时间内发现变异后的病毒(如德尔塔毒株是由COVID-19 病毒变异而来,随着病毒特征改变,需要实时更新筛查方法);在气象预测领域,天气情况可能会受气温、空气湿度、压强等因素的影响,这些因素的改变都可能导致不同的天气情况,若无法检测气象因素的实时变化情况,就不能准确预测天气情况的变化.因此,在含概念漂移的流数据挖掘中,需要打破传统机器学习对数据分布固定的假设,这对于提高在线学习模型的适应性能具有重要意义.

目前,利用集成学习处理概念漂移是非稳定环境下流数据挖掘采用的有效手段,即结合流数据的时序特性,构建多个具有差异性的基学习器,通过组合策略将多个弱学习器集成以形成一个性能较强的集成模型,提高学习模型的泛化性能.然而,多数集成学习方法在漂移发生后不能对新数据分布做出及时响应,导致在线学习模型在漂移发生后不能快速收敛到新的分布,模型泛化性能较差.

为提高概念漂移发生后在线学习模型的快速响应能力及模型的实时泛化性能,本文提出一种基于在线集成的概念漂移自适应分类方法(adaptive classification method for concept drift based on online ensemble,AC_OE).该方法一方面通过在线集成策略对流数据进行局部的在线预测以实时调整基学习器权重,捕捉数据分布演化的局部细节信息;另一方面,引入增量学习器以获取流数据的全部分布信息,并随新样本的进入进行增量式的训练更新,提取流数据的全局分布信息,提高模型的鲁棒性.所提出的方法使得概念漂移发生后在线学习模型能对概念漂移做出响应并快速收敛.本文的主要贡献有2 个方面:

1)通过对样本的在线局部预测,动态调整基学习器权重,提高模型对新分布数据的响应能力及收敛性能.

2)设置增量学习器以提取流数据的整体分布特征,提升在线学习模型的鲁棒性.

1 相关工作

目前,已有较多文献对流数据挖掘中概念漂移问题进行研究,常见的处理策略大致分为基于主动检测的概念漂移处理方法和基于被动自适应的概念漂移处理方法.

基于主动检测的概念漂移处理方法通过引入概念漂移检测机制,对流数据分布的稳定性进行检测或者通过模型实时性能指标(分类准确率、召回率等)的变化判断是否有概念漂移发生.当监测到数据分布不稳定或学习模型指标发生明显波动时,触发概念漂移警报,以及时对模型进行相应调整.常见的主动检测方法主要有基于滑动窗口的方法和基于模型性能的方法.基于滑动窗口的方法采用单个或多个滑动窗口来存储处理数据,使用当前滑动窗口来容纳最新分布的样本,通过不断向前滑动窗口来判断是否有概念漂移的发生.典型的方法有:使用自适应滑动窗口的熵方法[8]、基于自适应窗口的方法[9]、基于多窗口协同滑动的方法[10-11].基于模型性能的方法需要实时监测模型性能的变化情况,当检测到模型性能发生明显下降时,表明流数据中可能发生了概念漂移.典型的方法如:快速的概念漂移检测方法通过比较2 次错误分类之间的标准差与设定阈值之间的大小来检测概念漂移[12];基于在线性能测试的方法通过比较漂移位点精度收敛偏差来判别概念漂移位点以及基于迁移学习的概念漂移检测方法[13-14].主动检测方法虽然能够在流数据非平稳状态下避免不必要的检测,提高了算法的效率,但是在学习过程中可能会发生概念漂移位点的误检、漏检及延检等情况,这将导致在线学习模型泛化性能降低.

基于被动自适应的概念漂移处理方法则不需要引入漂移检测机制来判断概念漂移的发生,而是通过不断调整学习器来适应数据分布的变化.在被动自适应方法中,基于集成学习的处理方式较为常见,其根据学习单元大小可分为基于数据块的集成和基于单数据样本的在线集成.

基于数据块的集成每次对数据进行批量处理,典型的如:数据流集成方法将流数据分为固定大小的数据块,通过在数据块上训练基分类器构建集成模型,并根据一定的启发式规则使用最新数据块上构建的模型替换掉集成模型中性能最差的基分类器[15];基于动态调整基分类器权重的方法通过不断调整基分类器的权重来适应概念漂移[16-18];基于时序遗忘的方法使用遗忘机制对分类器进行动态加权[19];基于选择性集成的在线自适应方法和基于迁移的集成学习方法[20-21]通过选择性集成及迁移学习技术提高基学习器的有效性.基于数据块集成的方法虽然能够很大程度上提高分类器的预测性能,但是当数据块中发生概念漂移时,模型不能做出快速响应,导致模型的收敛速度较慢.

基于单数据样本的在线集成方法每个时间戳仅处理1 个样本进行模型更新,并对基分类器进行加权组合.典型方法如:基于混合标记策略的在线学习方法通过固定集成和动态集成相结合来适应概念漂移[22];在线的Bagging 方法和在线的Boosting 方法将传统的集成学习技术改进应用于数据流的处理[23-24].基于单数据样本的在线集成方法虽然在一定程度上提高了模型对概念漂移的响应速度,但是难以提取重要的历史信息.

本文结合在线集成与增量学习策略,提出一种基于在线集成的概念漂移自适应分类方法.与传统方法相比,该方法既利用在线集成模型更新集成分类器权值,提升模型对局部演化特性的适应能力,又利用增量学习有效提取流数据的整体分布信息以提升鲁棒性,使学习模型在概念漂移发生后做出快速响应的同时提高收敛性能.

2 在线集成的概念漂移自适应分类方法

针对概念漂移发生后,在线学习模型不能做出及时响应且难以提取最新数据分布信息,导致模型收敛速度慢的问题,本文提出一种基于在线集成的概念漂移自适应分类方法.该方法有效结合在线集成与增量学习策略,通过在线集成对新到样本进行局部预测,更新在线集成模型中基学习器权重,以有效适应流数据的局部变化特性.同时结合增量学习对样本进行增量训练,提取流数据的整体分布信息,提升模型的鲁棒性.图1 为该方法的整体框架示意图.

Fig.1 The overall framework of AC_OE method图1 AC_OE 方法整体框架

2.1 问题定义

流数据是指随时间不断推移而产生的一系列具有实时性、持续性和不稳定性的数据,可以将其表示为:

其中xi是对应时刻的样本实例,yi是 该样本实例对应的标签.若某一时刻流数据中样本的空间分布用一个“概念”来表示,则要学习的概念或者函数可用“目标概念”来表示.假设流数据中数据的联合概念分布表示为P(x,y),若在时刻t,流数据的概念分布发生变化,即该时刻发生了概念漂移,表示为:

2.2 在线集成的局部预测

由于流数据本身所具有的时序特性与集成学习机制高度契合,而集成学习又解决了单一学习器在流数据挖掘中不能把握全局信息的问题,因此通过在不同时刻构建基学习器进行集成,是流数据挖掘的一条可行路径.由于流数据中存在的概念漂移要求在线学习模型不仅能够对新数据分布快速收敛,也需要对概念漂移做出快速响应,而在线集成策略通过对样本进行逐个处理,有效提取漂移位点附近的细节分布演化特征,实现对概念漂移的快速响应.因此,本文通过在线集成策略进行局部预测,并对基学习器权值进行更新,以使得在线集成模型适应概念漂移发生后流数据的快速变化,同时提高学习效率.具体地,假设在线集成模型为H={(h1,w1),(h2,w2),…,(hk,wk)},其中,hi为基学习器,wi为所对应权值,初始状态下,每个基学习器对应权值wi=1/k.

在流数据处于平稳状态时,通过反复训练后集成模型中的基学习器对新样本都保持较高的预测能力.然而,当概念漂移发生后,由于新样本分布发生变化,集成模型中的基学习器无法快速适应新的数据分布,对最新数据分布的预测能力较差.因此,为对概念漂移快速响应,本文采用“权值在线更新、模型间隔训练”的方式,既通过在线的预测过程快速捕捉流数据当中数据分布的演化信息,并对集成学习的权值进行实时更新,同时又保持基学习器的相对稳定,通过每个数据块对基学习器进行替换,避免集成模型的不稳定波动影响学习性能.具体地,假设数据流为SD={D1,D2, …,Dt, …},在时刻t当新样本∈Dt到达时,使用前序的集成模型H中的基学习器首先对其进行局部预测:

在线集成模型对时刻t的第j个样本的预测结果与其真实标签不相等时,则将该基学习器的权重根据式(4)作更新,并采用式(5)进行归一化;反之基学习器权重保持不变.若流数据中发生概念漂移,在较短的时间内,在线集成中大多数历史基学习器的预测性能会保持较低的状态,则相应基学习器的权值会发生指数级下降,为了不使权重过低,本文在经过1 个数据单元后对基学习器权重根据式(5)进行归一化处理,使其保持在区间[0,1]内.

其中 β表示权重衰退因子,若分类器将当前样本错误分类,则该分类器的权重将以一定步长减小.当第t个时刻整个数据块Dt中样本全部处理完毕后进行基学习器的更新,即在Dt上训练得到新的学习器h,并选择在线集成模型中最差的基学习器进行替换:

由于基学习器h是在最新的数据块Dt上训练得到的,代表着流数据的最新分布,因此将基学习器权值的初始值设置为1.在线集成的局部预测过程如图2所示,其中局部预测与权值更新是迭代进行的.

Fig.2 Local prediction process for online ensemble图2 在线集成的局部预测过程

2.3 增量学习的全局预测

由于在线集成模型是在当前位点附近得到,其仅仅代表局部的分布信息.当流数据稳定时,仅采用在线集成模型无法覆盖整个流数据的分布信息,得到的基学习器鲁棒性较差.因此本文同时构建增量学习器进行全局预测,以提取流数据的整体分布信息,提升鲁棒性.具体地,在起始位点初始化1 个增量学习器I,在流数据进入过程中,根据每个新到达的数据块Dt以及历史数据块内的代表性关键样本,对增量学习器I进行增量更新,更新方式为:

其中Tr(·)表示在相应的数据集上训练得到学习器过程,Rand(m,·)表示从样本中随机选择m个符合特定条件的样本(这里的特定条件σy˜ji=yji(·)指选择模型分类正确的样本).增量学习的全局预测过程如图3 所示.

Fig.3 Global prediction process for incremental learning图3 增量学习的全局预测过程

在此基础上,结合2.2 节和本节所述的在线集成模型与增量学习模型构成总的测试模型,对待测样本进行加权投票:

2.4 AC_OE 方法

本文提出一种基于在线集成的概念漂移自适应分类方法,该方法通过在线集成来对新到样本进行局部预测,使模型对概念漂移及时响应,结合增量学习器做全局预测.利用历史数据块内适量关键样本与新到达的数据块内样本,分别提取关键历史信息与最新数据分布的信息,更新增量学习器,从而快速适应概念漂移.在一个数据单元后,更新在线集成,提高了模型的整体泛化性能.算法1 展示了本文提出的AC_OE 方法的执行流程.对测试样本x进行标签预测.

算法1.在线集成的概念漂移自适应分类算法.

2.5 模型复杂度分析

本节将从时间复杂度与空间复杂度2 个层面分析AC_OE 方法的计算复杂度.

由于流数据挖掘的每一步过程主要的时间消耗在学习器的训练更新上,不妨假设传统在线学习模型在每个样本x上进行训练更新学习器所需要的时间为O(p2),其中p表示每一步的模型训练更新所需要的样本规模,则传统在线学习模型的复杂度为O(nT p2),n为数据单元规模,T为流数据中总的数据块数.而本文方法在在线集成中每个基学习器构建所需要的数据规模为n(一般地,n<p),且每一个数据块仅需要训练更新1 次在线基学习器,因此在线集成部分的复杂度为O(Tn2),尽管增量学习器构建所需要的时间复杂度与传统增量学习一致,但其与在线集成学习过程是并行的,因此所提出的模型时间复杂性相比于传统在线学习明显降低,同时又有效结合了在线集成与增量学习的优势.

在空间复杂度方面,AC_OE 方法采取在线集成方式,每次仅利用最新数据块的样本更新基学习器,只增加1 个数据块大小n的存储空间.此外,需要利用m个代表样本以及最新数据块内样本,实现增量学习器更新,因此需要增加m个存储空间,每次在线过程中需求的存储单元约为O(n+m).在线过程迭代执行时,不同时刻存储单元可以共用,因此,O(n+m)也为整个在线过程的空间复杂度.然而,传统在线学习需要在整个数据流更新,因此,本文提出的方法空间复杂度低于传统在线学习.

三是成功组织研发节水灌溉产品。结合我国农业灌溉实际研发了地埋式自动伸缩一体化喷灌设备等4项节水设备产品,地埋式自动伸缩喷滴灌设备和机井用水IC卡控恒压智能终端设备,被水利部鉴定为国际领先水平,并获国家专利。

3 实验与性能分析

为验证本文所提出的方法AC_OE 对含概念漂移流数据的处理性能,本文在不同的含概念漂移的标准数据集和真实数据集上进行实验验证,实验平台为Windows10 操作系统,CPU 为酷睿i7-3.2GHz 内核,内存为8GB.本方法采用MATLAB R2019a 编写和运行.与传统流数据集成分类算法(streaming ensemble algorithm,SEA)[15]、精度更新的集成算法(accuracy updated ensemble algorithm,AUE2)[17]以及深度神经网络(DNN-16)方法进行对比.

3.1 数据集

1)合成数据集.为检验算法处理概念漂移的能力,本文使用在线分析流数据生成器[25]来生成具有突变、渐变和增量类型的6 个数据集.

① Hyperplane 数据集.通过改变数据样本特征的权值来改变超平面的方向和位置,d维空间的点x的集合构成一个超平面:

其中xi是点x的第i个坐标,wi∈[0,1]是相应权值.当时样本被标记为正类,否则被标记为负类.

② LED 数据集.用来预测7 段数码管上的数据,包含24 个二进制属性;包含1 个突变漂移数据集LED_abrupt(漂移位点为50×103)和1 个渐变漂移的数据集LED_gradual(漂移位点分别为25×103,50×103,75×103).

③ RBFblips 数据集.通过随机径向基函数生成固定数量的随机质心,每个质心包含其对应的随机位置、标准差、类别标签和权重;包含3 个概念漂移位点,分别为25×103,50×103,75×103.

④ Sea 数据集.经典突变式漂移数据集,每个样本包含f1,f2,f3共3 个特征,其中类别只与前2 个特征相关,当满足f1+f2<θ时,样本属于正类,反之属于负类;包含3 个突变式概念漂移,位点为25×103,50×103,75×103.

⑤ Tree 数据集.通过决策树生成数据,为每个子叶上的属性生成随机数产生实例,概念漂移位点为25×103,50×103,75×103.

2)真实数据集.除了合成数据集外,实验中还采用了4 个真实数据集.

① KDDcup99 数据集[26].该数据集来自于第三届知识发现与数据挖掘竞赛,包括军事网络环境中模拟的各种攻击数据,用以检测网络入侵、区分正常的网络连接与恶意的网络连接.

② Electricity 数据集.包含澳大利亚新南威尔州电力价格受天气、用户需求、供应情况和季节等因素影响的数据.

③ Covertype 数据集.主要来自于美国林业局系统中某区域森林覆盖情况.

④ Weather 数据集.覆盖了某地区2006―2016年的每日天气测量数据,包括温度、湿度、风向风速、能见度与大气压等,用于预测降雨情况.

实验中使用的数据集的详细信息如表1 所示.

Table 1 Datasets Used in Our Experiment表1 本实验采用的数据集

3.2 参数设置

1)数据单元n.为在合适时间间隔内对模型进行更新,较小的数据单元会导致挖掘效率较低;而较大的数据单元会导致模型更新不及时,对概念漂移的响应时速产生一定的影响,实验中数据单元n=100.

2)衰退因子 β.权值衰退因子 β对于本文所提出的模型较为重要,衰退因子大时,容易减小漂移发生后不适用于新分布的基学习器,但容易导致模型发生振荡;反之,模型收敛较慢,无法快速适应漂移发生后新的数据分布,本文在不同的权值衰退因子 β=0.8,0.85,0.9,0.95 下进行了实验.

3)基学习器.实验中采用 LIBSVM 作为基学习器,核参数使用默认值(g=1/m,m为数据特征维度),在线集成中基学习器个数k=10.

3.3 评价指标

为验证所提AC_OE 方法的性能,本文从模型的准确率、模型的收敛性以及算法稳定性等方面进行了分析,具体指标有4 个.

1)平均实时精度Avgracc(average real-time accuracy).表示模型的实时精度均值,反映模型整体分类性能,定义为:

其中T表示所有在线的时间步数,racct表示模型在时间戳t的实时精度.racct的计算公式为:

其中nt表示时间戳t内能够正确分类的样本数,n表示每个时间戳内的样本总数.racct越大表明模型实时性能越好.

2)累积精度Cumacc(cumulative accuracy).该指标反映了模型从开始到当前时刻的整体性能,定义为:

其中Tt表示当前累积的累积步数.

3)恢复值RSA.RSA衡量了在线学习模型在概念漂移发生后收敛到新分布数据所需的步数.

其中step表示模型从概念漂移位点到收敛位点所需用的步数.由于模型在不同概念漂移类型的数据集上的性能波动变化不同,本文采用漂移位点后的n个参考点的精度变化来判断该点是否为收敛点.若n个参考位点的精度小于给定的阈值,且位点前1/2 个和后1/2 个参考位点的平均精度也小于阈值,则该位点被认为是收敛点.收敛点的定义为:

其中,i∈{1,2,…,n}.

4)鲁棒性R(robustness)[27].鲁棒性是对模型稳定性能的有效评价指标,同时是模型泛化性能的体现,本文在平均精度上分析了不同算法的鲁棒性,算法A在不同数据集上的鲁棒性定义为:

其中raccA(D)表示算法A在数据集D上的平均精度,表示在数据集D上所有算法中的最小平均精度值.某算法的整体鲁棒性值为该算法在所有数据集上的鲁棒性值之和,假设有n个数据集,具体定义为:

3.4 实验结果与分析

为有效衡量所提出AC_OE 方法的分类性能、发生概念漂移后模型的收敛效果和模型稳定性,本文从方法的平均实时精度、累积精度、概念漂移恢复性以及鲁棒性4 个方面进行实验结果的分析.

3.4.1 模型实时精度分析

本节分析算法在不同衰退因子 β和惩罚参数C下的表现性能.表2 展示了AC_OE 方法在不同参数下的平均实时精度,可以看出,随着 β的增大,平均实时精度大多出现先升后降趋势,这是由于 β值直接影响基学习器权重的变化,过小的 β会使权重下降速度过大,不能发挥出在线基学习器的性能,过大的 β会使基学习器的权重下降速度变慢,在概念漂移发生后,对概念漂移的响应不及时.随着C的增大,平均实时精度出现先上升后下降的趋势,这是由于过小的C会导致过拟合现象,过大的C会导致欠拟合.本文方法在每个数据集上通过网格调参将不同的C与β组合,得出模型的最优参数组合,并在该组合下进行后续实验结果分析.

Table 2 Results of Average Real-time Accuracy Under Different Parameters表2 不同参数下平均实时精度

表3 展示了不同方法在各个数据集上的平均实时精度以及综合排名情况.从表3 可以看出,在所有的真实数据集上,AC_OE 方法的模型性能最佳,在合成数据集上,除了在Sea 数据集上AC_OE 方法性能略低之外,在其他数据集上均有较好的排名;基于集成框架的算法能够提高模型的整体分类效果;在集成框架算法中,AUE2 和SEA 都是基于数据块的集成,而AC_OE 方法与使用在线集成的方法,在概念漂移发生时可以及时对概念漂移做出响应,从而提高模型的整体性能.

本文使用非参数检验方法Friedman-Test[28],对所提方法与对比方法的性能优势进行统计检验分析.对于给定的k种方法和n个数据集,令为第j个方法在第i个数据集上的秩,则第j个方法的秩和平均值为Rj=.零假设H0假定所有方法性能是相同的,在此前提下,当n和k足够大时,Friedman 统计值FF服从第一自由度为k-1,第二自由度为(k-1)×(n-1)的F 分布:

当得到的统计值大于某一显著水平下F 分布临界值,则拒绝零假设H0,表明各算法的秩存在显著差异;反之,接受零假设H0,所有算法的性能无明显差异.对上述不同算法的平均准确率进行统计检验,可得Friedman 统计值在所有数据集上的统计值FF=11.2703,在显著水平α=0.05的情况下F 分布临界值为2.960,因此,拒绝零假设H0,所有方法性能存在显著差异.

本文还通过Bonferroni-Dunn 测试计算所有方法的显著性差异,用于比较2 种方法之间是否存在显著差异.若2 种方法的秩和平均差值大于临界差CD,则这2 种方法的性能存在显著差异.

其中qα为显著水平 α下的临界值,经计算可得,在所有数据集上,显著性水平α=0.05的情况下CD=1.382 2.统计分析结果如图4 所示,结果表明,在统计意义上,本文所提AC_OE 方法具有明显的优势.

Fig.4 Bonferroni-Dunn test result for average of different methods图4 不同方法平均精度的Bonferroni-Dunn 检验结果

图5 为各个数据集上的累积精度,可以看出AC_OE方法除了在Sea 数据集上的累积精度略低于SEA 和AUE2 算法,在其他数据集上均明显高于其他方法.这是由于在概念漂移发生时,AC_OE 做出及时响应,保持较高的精度,使模型整体的性能得到了提高.另外,大多数数据集上,其他2 个集成框架算法的整体性能相对较高,这说明集成学习具有较好的处理概念漂移的能力.

3.4.2 模型收敛性分析

当流数据发生概念漂移后,在线学习模型能否快速收敛到新的数据分布是衡量算法的重要指标.表4 展示不同方法在已知概念漂移位点的5 个数据集上的模型收敛结果.表4 中每个算法对应的数据集的3 个值分别代表前、中、后3 个位点的恢复值;由于Tree 数据集在中期位点精度下降后一直没有恢复,保持平稳波动,因此对中后2 个位点的恢复度用“*”表示.可以看出,除数据集Sea 之外,本文所提出的AC_OE 方法在其他4 个数据集上的恢复值明显优于其他方法.这是由于AC_OE 方法能够充分利用最新样本,得到了代表最新数据分布的增量学习器,通过不断进行增量更新,能够使模型在漂移发生后快速收敛到新的数据分布,从而提升了模型的收敛性.

Table 4 Recover value (RSA)Comparison of Different Methods表4 不同方法的恢复值(RSA)比较

3.4.3 模型鲁棒性分析

鲁棒性是衡量算法稳定性的重要指标,值越大表示模型越稳定.图6 展示了不同算法在不同数据集上的鲁棒性,不同的小矩形高度代表的是算法在不同数据集上的鲁棒性值的大小,每一列上面的数值表示该算法在所有数据集上的鲁棒性值的总和,即该算法的整体鲁棒性.可以看出,在大多数数据集上,AC_OE 方法的鲁棒性均优于其他3 种方法,且整体鲁棒性得到了最优值,AUE2,SEA 两个使用集成学习的方法也取得较好的结果,这是由于AUE2,SEA使用了集成学习框架,将多个弱分类器组合,提高了模型的整体泛化性能.

Fig.6 Robustness comparison of different methods图6 不同方法的鲁棒性比较

4 结束语

针对流数据中概念漂移发生后,在线学习模型不能对分布变化后的数据做出及时响应且难以提取数据分布的最新信息,导致学习模型收敛较慢的问题,本文提出一种基于在线集成的概念漂移自适应分类方法.一方面,该方法利用在线集成策略构建局部的在线学习器,对数据块中的训练样本进行局部预测以动态调整学习器权重,有助于深入提取漂移位点附近流数据的演化信息,以对数据分布变化做出更精准的响应,提升在线学习模型对概念漂移发生后新数据分布的适应能力,提高学习模型的实时泛化性能;另一方面,利用增量学习策略构建全局的增量学习器,并随新样本的进入进行增量式的训练更新,提取流数据的全局分布信息,使模型在平稳的流数据状态下保持较好的鲁棒性.

作者贡献声明:郭虎升负责思想提出、方法设计、初稿写作及论文修改;丛璐负责初稿写作、数据测试及论文修改;高淑花负责代码实现、数据测试及初稿写作;王文剑负责思想提出、写作指导、修改审定.

猜你喜欢
集上鲁棒性位点
镍基单晶高温合金多组元置换的第一性原理研究
CLOCK基因rs4580704多态性位点与2型糖尿病和睡眠质量的相关性
Cookie-Cutter集上的Gibbs测度
荒漠绿洲区潜在生态网络增边优化鲁棒性分析
链完备偏序集上广义向量均衡问题解映射的保序性
基于确定性指标的弦支结构鲁棒性评价
二项式通项公式在遗传学计算中的运用*
复扇形指标集上的分布混沌
基于非支配解集的多模式装备项目群调度鲁棒性优化
非接触移动供电系统不同补偿拓扑下的鲁棒性分析