基于代价敏感系数的混凝土抗压强度预测

2022-03-27 13:40薛国斌胡安龙冯燕军李麟鹤
西安理工大学学报 2022年4期
关键词:误差率代价权值

薛国斌, 胡安龙, 魏 勇, 冯燕军, 梁 魁, 李麟鹤

(1. 国网甘肃省电力公司经济技术研究院, 甘肃 兰州 730030; 2. 国网甘肃省电力公司, 甘肃 兰州 730030)

混凝土由粗细骨料、水、凝胶材料以及各种添加剂按照一定级配拌制而成,经过一段养护龄期硬化形成。作为使用量最大、涉及范围最广的建筑复合材料,其各项性能指标与建筑工程质量、使用寿命以及使用者安全都息息相关[1,2]。其中,混凝土强度指标是控制混凝土结构质量的关键因素,尤其是抗压强度的大小在很大程度上决定了建筑物的荷载能力与安全性能[3-5]。因此,对混凝土抗压强度的预测一直以来都是学者们关注的重点。早期研究以单一变量如水灰比,作为混凝土抗压强度预测的重要指标,通过对混凝土水灰比及混凝土强度数据的分析,拟合两者曲线,得到对应条件下的混凝土抗压强度预测值[6-9]。然而,此类方法忽略了其他构成成分与影响因素对混凝土强度的作用,尽管后来对水灰比法则做出了进一步优化、扩展与补充说明,但依然无法充分考虑与混凝土强度相关的各类特征变量[10-12]。特别是随着工程实际中外加剂或掺合料等的使用,更进一步加深了其复杂非线性程度。

近年来,人工智能与机器学习算法在深度数据挖掘及反映复杂非线性规律方面表现出良好的预测性能,因此被广泛应用于各行各业。例如,随机森林、BP神经网络以及极端学习机等算法在混凝土强度预测领域都有良好的表现[13-15]。BP 神经网络因其优异的自学习和自适应能力,具有良好的应用前景。马高等[16]建立了CFRP约束混凝土抗压强度的BP神经网络预测模型,探讨了不同数据组合对神经网络模型预测精度的影响。采用随机森林算法处理回归问题具有良好的泛化能力,可有效防止过拟合现象;无须设置函数形式,可更加精准地拟合复杂的非线性关系;采用并行计算方式使得运行速度加快;能获得因素的重要程度。胡毅等[17]基于随机森林算法对混凝土抗压强度进行了预测研究,并建立了抗压强度预测体系。然而,由于混凝土抗压性能与材料配比、时间与空间存在复杂的不确定性关系,单一模型泛化性弱且无法准确描述特征变量与强度间的复杂映射关系。

自适应增强学习算法(adaptive enhancement algorithm, AdaBoost)作为一种集成学习算法,能很好地利用弱学习器之间的级联关系,在各类复杂不确定性预测问题中展现其优越性。刘晓悦等[18]通过建立AdaBoost算法与支持向量机组合预测模型,对岩体开挖岩爆现象进行了预测,预测模型可快速准确地预测岩爆等级。李龙起等[19]基于自适应噪声完全集合经验模态分解,采用AdaBoost-SVR集成算法建立了预测模型,对白水河滑坡位移进行了预测,预测结果验证了所提模型的准确性与适用性。然而,传统AdaBoost算法是基于当前弱学习器在训练数据集上预测误差率最小来选择弱学习器,存在因预测误差率较大而造成更新样本权值时损失较大的问题,会导致模型预测精度降低。

鉴于此,本文针对不同样本误差率分级,引入线性及指数代价敏感系数来优化样本权值更新策略。同时,为解决敏感系数选取问题,引入引力搜索算法(gravitational search algorithm, GSA)对敏感系数进行全局智能搜索。通过对不同敏感系数的组合策略进行实例对比分析,最终确定改进AdaBoost算法的最佳敏感系数组合。考虑到混凝土抗压强度与其拌合材料配比及养护龄期等变量之间的复杂非线性关系,基于自适应增强学习算法集成回归树(classification and regression tree, CART)建立混凝土抗压强度预测模型。最后,通过与传统AdaBoost 模型、BP神经网络及随机森林等预测模型的对比分析,验证了所提预测模型的有效性与准确性。

1 模型构建

1.1 分类回归树

分类回归树(CART)最早由Breiman提出,可用于处理分类问题及回归问题[20]。CART的生成是逐步递归建立二叉树的过程。对于回归问题,分叉基于平方误差最小化原则。

给定输入训练数据集:

D={(x1,y1),(x2,y2),…,(xi,yi)}

(1)

依据平方误差最小化原则选取最优切分点s以及最优切分变量j,原始数据集分割为D1与D2两部分:

(2)

式中:c1、c2分别为样本D1、D2的输出均值;划分的子数据集可以表示为:

(3)

响应的输出值可以表示为:

(4)

式中:m为数据空间被分割的子数据集数;cm为响应的输出值;Nm为样本个数;Rm为样本空间。

重复对数据集进行分割操作,直至满足停止条件为止。停止条件包括:特征数据已经用完,无可供使用的特征再进行分割操作;子节点中的样本已经为同一类;回归树达到了设定的最大深度;节点样本数量达到了设定的阈值。

最终,得到的回归树为:

(5)

式中:M为最终划分子集数量;Dm为第m个子数据集;I(x)函数表示为:

(6)

1.2 自适应增强学习算法

AdaBoost是由Freund和Schapire在Boost算法基础上改进得到的一种迭代算法,称为自适应增强学习算法。首先建立初始模型,通过调整样本权重与弱学习器权值,对初始模型进行迭代修正,最终获得最优的弱分类器集合[21, 22]。针对输入训练数据集D初始化样本权值分布:

W=[ω11,ω12,ω13, …,ω1N]

(7)

式中:W为权值向量;N为训练集样本个数;ω1i为第i组数据的初始权重,可以表示为:

(8)

弱学习器个数为M,训练样本最大误差为:

Em=max|yi-Gm(xi)|

(9)

式中:Gm(x)为弱学习器,m=1,2,…,M。

采用平方误差计算每个样本的预测误差率:

(10)

回归误差率定义为:

(11)

式中:ωmi为训练第m个弱学习器时的样本权值分布。

弱学习器的系数可以表示为:

(12)

更新样本集的权重分布,可以表示为:

(13)

式中:Zm为规范化因子。

由加权平均法得到最终的强学习器:

(14)

式中:αm为第m个弱学习器的权值。

1.3 代价敏感系数

自适应增强学习算法根据当前样本权值分布抽取下一组训练样本,权值越大,被重复选择的概率越高,当抽取的样本数量足够多时,训练产生新的弱学习器。对于AdaBoost分类问题而言,当误差率小于等于0.5时,弱学习器系数大于等于0,并且系数随着误差率的减少而增大,故误差率越小的基本分类器在最终分类器上的作用越大。本文中设定迭代次数等于弱分类器个数[23]。

由式(12)可以看出,上轮预测误差率大的样本其权值增大,而预测误差率更小的样本其权值减小,存在因预测误差率较大而造成样本信息损失的情况。针对不同误差分段的样本,通过引入线性代价敏感系数与指数代价敏感系数,将关注预测误差率最小转化为关注误差代价最小。式(13)可以改写为:

(15)

式中:L、E分别为不同误差率区间下的线性代价敏感系数与指数代价敏感系数。

本文将样本的预测误差率分为三段,在此基础上提出两种代价敏感系数组合策略,详细信息如表1所示。

表1 代价敏感系数组合策略Tab.1 Combination strategy of the cost-sensitive coefficients

敏感系数的基数。

2 实例分析

2.1 代价敏感系数寻优

采用引力搜索算法GSA来确定代价敏感系数的基数。GSA模拟天体粒子间万有引力定律,通过不断地更新加速度与天体质量(根据自身位置的优劣性),使天体不断向位置最优的天体运动,最终得到最优位置,即最优参数解[24, 25]。本文引入GSA算法进行代价敏感系数寻优,以线性与指数敏感系数组合作为GSA中天体粒子坐标,以模型预测结果的均方根误差作为适应度函数,最终得到天体粒子的最优位置坐标,即代价敏感系数最优组合。均方根误差可以定义为:

(16)

GSA算法的相关参数设置如下:粒子个数为30,迭代次数为100,初始引力常数为100,代价敏感系数优化搜索范围为[1, 3]。图1、图2分别展示了两种代价敏感系数组合策略下,引力搜索算法全过程天体位置分布。

图1与图2中,坐标点的不同深度代表了不同迭代阶段的天体位置。随着迭代次数的增加,粒子位置坐标点深度逐渐增加。可以看出,各个天体位置逐渐向适应度最好的位置靠拢,最后聚集到一点,即最优参数结果。不同误差率分段下,两种组合策略的代价敏感系数优化值,如表2所示。

图1 策略S1参数寻优天体位置分布Fig.1 Location distribution of the astroparticle of strategy S1

图2 策略S2参数寻优天体位置分布Fig.2 Location distribution of the astroparticle of strategy S2

表2 两种组合策略下代价敏感系数优化值Tab.2 Optimal value of cost sensitivity coefficient by two combination strategies

2.2 结果分析

基于混凝土抗压强度实测数据,使用AdaBoost集成CART建立预测模型,引入两组代价敏感系数值,得到两种组合策略下Cost-Sensitive AdaBoost-CART(CS-AdaBoost-CART)预测模型。本文所使用的混凝土研究数据均来自美国加州大学欧文分校的公开数据库,共1 030组样本[26]。其中,涉及水泥含量、高炉渣含量、粉煤灰含量、水含量、高效减水剂含量、粗骨料、细骨料、养护龄期8种特征变量。

为验证所提模型的有效性,选取混凝土强度预测领域常用的3种模型:传统AdaBoost-CART、随机森林 (random forest, RF)以及BP神经网络模型作为对照,对比两种不同敏感系数组合策略下CS-AdaBoost-CART模型与其他3种模型的预测结果。随机抽取800组样本作为训练集与训练验证集,剩余230组样本作为测试集。

图3、图4分别展示了5种不同混凝土强度预测模型的预测结果。为了更清楚地对各个模型的预测结果进行对比,图3截取了波动较大的30组样本点的预测曲线进行展示。

图3 不同预测模型的预测曲线Fig.3 Variation curve of prediction values versus real values by different models

图4 不同模型下抗压强度预测值-真实值散点图Fig.4 Scatter plot of prediction values versus real values of compressive strength by different models

由图3可以看出,对于不同的样本数据,各模型有不同的预测性能表现。当样本在50~55之间时,随机森林算法精度较好,其余几种模型预测能力相当;而当样本超过60之后,BP神经网络的预测曲线有较大偏离,这也可以从图4中得到印证。另一方面,其余3种模型在预测曲线图与散点图中难以看出优劣。表3列举了预测模型的三项评价指标值,分别为均方根误差(root mean squared error, RMSE)、平均绝对误差(mean absolute error, MAE)和确定系数(R-Square)。

表3 不同模型预测结果的评价指标Tab.3 Evaluation indicators of prediction results by different models

由表3可以看出,BP神经网络对混凝土抗压强度的预测性能最弱,预测误差最大,且R-Square分数最低,表明该模型拟合程度不足。相比之下,本文提出的CS-AdaBoost-CART预测模型拟合程度较好,且误差较低,其中敏感系数组合策略S1表现出更好的预测性能。同时还可以看出,所提出的基于线性与指数代价敏感系数的自适应增强学习模型显著提升了传统AdaBoost-CART集成预测模型的性能,并且较其他常用预测模型也有更好的表现。

3 结论与讨论

为了避免AdaBoost样本权值更新过程中因只关注预测误差率最小而导致的信息丢失情况,引入线性代价敏感系数与指数代价敏感系数。通过对预测误差率进行分级,建立了不同代价敏感系数的组合策略,由只关注预测误差率最小转化为关注误差代价最小,避免了因样本误差差异导致的样本信息丢失。同时,引入GSA智能搜索算法优化选取不同策略下代价敏感系数的基数。最终,通过集成回归树建立CS-AdaBoost-CART混凝土抗压强度预测模型。

基于不同成分配比的混凝土抗压强度实测数据集,通过与随机森林模型、传统AdaBoost-CART模型以及BP神经网络等典型算法的对比分析,验证了本文预测模型具有更好的预测效果与更小的误差,表明引入代价敏感系数对AdaBoost-CART算法的性能有显著的提升作用。本文的研究成果可为预测算法优化及实际工程中混凝土抗压强度预测提供参考。

猜你喜欢
误差率代价权值
一种融合时间权值和用户行为序列的电影推荐模型
CONTENTS
生化检验全程中质量控制管理方式及应用意义
降低评吸人员单料烟感官评分误差率探讨
爱的代价
无线传感器网络定位算法在环境监测中的应用研究
代价
基于权值动量的RBM加速学习算法研究
基于多维度特征权值动态更新的用户推荐模型研究
电工仪表测量中容易忽略的几个问题