桦木顺纹抗压强度的SEPA-VISSA-RVM近红外光谱预测

2022-02-26 03:00高礼彬陈金浩张怡卓王克奇
林业工程学报 2022年1期
关键词:波长光谱木材

高礼彬,陈金浩,张怡卓,王克奇

(东北林业大学机电工程学院,哈尔滨 150040)

木材顺纹抗压强度是结构用材重要的力学指标之一,而传统的破坏性检测方法时间长、成本高,且由于木材的各向异性及不均匀性,造成操作复杂且准确度低。近红外光谱技术(NIR)具有简单便捷、快速有效的特点,通过建立NIR定量分析模型,可实现快速无损测定[1]。黄安民等[2]指出近红外光谱技术在木材物理力学研究方面具有极大的潜力;虞华强等[3]将近红外光谱作为初步检测杉木木材力学性质的工具;赵荣军等[4]利用近红外光谱方法预测人工林粗皮桉木材力学性质效果较好。因此,近红外光谱技术在木材力学性能检测中被证明是一种理想可靠的方法。

在近红外光谱建模过程中,原始光谱会包含大量无用信息,要先进行特征选择,实现降维处理。云永欢等[5]和Yun等[6]提出模型集群分析(MPA)算法框架运用于光谱特征优选,打破了传统一次性建模思路,力求最大限度地利用已有样本集的信息,通过随机采样,从大量的子模型中提取统计信息并进行选择分析。基于MPA算法框架开发的算法常见的有:变量组合集群分析(VCPA)[7-8]算法,其根据优秀子集中变量出现频率作为变量重要性的评价标准选取特征变量组合;竞争性自适应重加权(CARS)[9-10]算法,其通过搜索方法及评价变量重要性程度的标准以得到最优的变量子集;变量迭代空间收缩(VISSA)[11-12]算法,其在变量空间中迭代收缩,保证新的变量空间优于前一个,得到最优变量组合。其中,VCPA和CARS的弊端在于当校正集样本出现波动时,对于变量的重要性判断会受到一定程度的影响,会降低模型的预测能力。VISSA避免了这种缺点,但因其在每轮迭代子数据集时,得到的是特征波长数量比例不同的子数据集,可能无法准确评价子模型的优劣,导致有效信息丢失,增加不稳定性。因而引入采样误差分布分析(SEPA)[13-14]与VISSA相结合进行改进,相比于原VISSA能以一种更温和的方式消除非信息变量。

合适的建模方法是建立光谱数据与真值之间联系的关键,由于木材的各向异性及不均匀性,使高维度特征变量之间的相关性非常敏感,采用线性建模会导致模型的精度大大降低,如偏最小二乘回归法(PLS)[15-16]。而非线性建模能有效提升预测精度,有较好的泛化能力且不会出现过拟合的问题,如支持向量回归(SVR)[17-18],但其不提供后验概率且参数不易设置。因此,在SVR基础上提出基于贝叶斯框架的稀疏概率学习模型——相关向量机(RVM)[19],其不仅具有SVR模型的优点,且核函数可以任意指定,不是必须正定,此外调节参数较少,便于模型优化,相较于SVR模型能够完成更精确的预测。

笔者以桦木木材为试验对象,使用近红外光谱仪采集光谱数据并测定顺纹抗压强度真值,然后以SEPA作为VISSA的改进策略进行特征波长筛选,在此基础上采用RVM非线性建模方法进行木材抗压强度预测,并与其他波长优选算法和建模方法效果进行比较。

1 材料与方法

1.1 试验材料

桦木木材淡褐色至红褐色,可用作地板、家具、内部装饰材料、车船设备、胶合板等。所制家具光滑耐磨,花纹明晰,如今多用于结构、镶花木细工和内部框架的制作。试验桦木样本来自黑龙江带岭林业局林场,取5株桦树样木,树龄均在20 a以上,在每株样木的胸高(1.3 m)附近截取约50 cm的圆盘后去皮,气干后锯解成力学试材毛坯条。参照GB/T 1935—2009《木材顺纹抗压强度试验方法》,制取尺寸为30 mm×20 mm×20 mm的顺纹方向抗压力学试样,并挑选出无疵试样100条,按1~100编号,将试样放入恒温恒湿箱内调至含水率为12%,保持室温为(20±2)℃、相对湿度为(65±3)%,然后进行近红外光谱扫描和力学性能测试。

1.2 近红外光谱采集与预处理

研究表明,木材近红外光谱在1 000~1 600 nm波长范围内携有重要信息,能够较好地预测木材力学强度等性质[3,16]。因此,采用INSION公司近红外光纤光谱仪进行光谱扫描,采集波长范围900~1 700 nm,环境温度20 ℃,平均相对湿度50%。使用两分叉光纤探头及钨光源,光纤探头垂直固定在金属支架上,试样置于支架底面,非接触测量距1 mm,光斑直径5 mm,采用聚四氟乙烯白板标定后进行光谱采集。在每个试件的径、弦切面上分别均匀扫描采集4个样本点,每点扫描30次自动平均为1个光谱,记录保存。将每个试件的径、弦切面共8条光谱数据平均成1条光谱,代表该编号试件整体的近红外吸收光谱。

本试验利用INSION公司开发的SPEC view 7.1 软件进行数据采集,由于原始光谱存在基线漂移、样本颗粒大小不一和光散射等噪声信息影响因素而混入非信息变量,因此需对所采集数据做预处理后再建模。分别采用多元散射校正(MSC)、卷积平滑(SG)和MSC-SG这3种方法对原始光谱数据进行预处理,然后针对各处理后的全波段光谱建立PLS模型。SG-PLS模型效果最优,校正集和预测集的决定系数分别为0.908 8和0.881 4,相应的均方根误差分别为3.765 3和3.086 5,如表1所示。由表1可知,经过SG预处理后能够对原始光谱信息进行去噪,所建立的抗压强度PLS模型更加稳定和精确。

表1 不同预处理方法的PLS模型对比Table 1 PLS model comparisons of different pretreatment methods

1.3 真值测试

参照GB/T 1935—2009测定桦木的无疵试样抗压强度真值。对100组桦木样本,以校正集与预测集之比为3∶1的比例,采用光谱-理化值共生距离(SPXY)算法[20]对其进行分割,得到校正集样本75个,预测集样本25个,如表2所示。由表2可知,抗压强度范围为60.822 1~107.476 2 MPa,预测集样品信息被校正集样品信息所覆盖。

表2 样本校正集和预测集抗压强度的测定结果Table 2 Test results of compressive strengths of sample calibration set and prediction set

1.4 近红外光谱SEPA-VISSA-RVM建模方法

1.4.1 SEPA-VISSA算法

VISSA的核心在于通过加权二进制采样(WBMS)构建子模型,然后提取预测误差最小的子模型,统计各变量出现的频率,分配变量权重来实现变量空间收缩。其中,WBMS主要根据变量当前权重来分配子数据集中的变量数,确保权值较大的变量有较高被选择概率,使每个变量有不同的采样频率。变量的权重公式为:

ωi=fi/mbest

(1)

式中:fi为变量在最佳子模型中的频率;mbest为最佳模型的数量;ωi为包含变量的子模型比例。

SEPA是将子模型均方根误差(RMSE,公式中记为RMSE)的中位数和标准差相加作为RMSE的一种估计。使用中位数而不是平均值和最小值,是因为中位数更稳健。在VISSA算法中通过WBMS建立m个子模型,最大主成分数为n,然后根据SEPA原理,以其中一个子模型的n个交叉验证均方根误差(RMSECV,公式中记为RMSECV)进行计算,取RMSECV的中位数和计算n个RMSECV的标准差后相加,公式如下:

(2)

式中:RMSECV为子模型的交叉验证均方根误差;n为RMSECV的个数;STD为各子模型RMSE的标准差。

根据上述原理,设光谱数据为X,抗压强度真值为Y,特征波长个数为p,WBMS采样数为m,则SEPA-VISSA算法过程如下:

步骤1,赋予特征波长p值均为0.5的初始权重。

步骤2,采用WBMS对光谱数据X生成m个子数据集,分别建立PLS子模型。

1.4.2 RVM建模原理

RVM是建立在贝叶斯稀疏框架下的稀疏概率模型。与SVR相比,满足Merrcer核正定的条件不再是必要的,且在计算负担方面也更小。在波长优选的结果下,令校正集为{xn,tn|n=1,2,…,N},建立木材抗压强度预测模型:

(3)

式中:xn为输入的变量,即光谱的特征波长;tn为目标输出,即木材抗压强度;ϖ为权重;ωm为ϖ中的第m个元素;M(1≤m≤M)为xn中光谱特征波长的数量;K(x,xn)为核函数;ω0为基础量;ξn为残差且满足ξn~N(0,σ2)。设tn为独立分布,则似然函数可表示为:

(4)

式中:σ2为噪声方差;t为目标输出,是以tn组成的向量(t1,t2,…,tn)T;φ为基函数,是以φn组成的矩阵[φ1,φ2,…,φM],其中φ(xn)=[1,k(xn,x1),k(xn,x2),…,k(xn,xM)]。

为了确定先验分布,假设参数ωn服从以0为均值、σ2为方差的高斯分布,则有:

(5)

式中,α为决定权值ϖ先验分布的超参数,其只与相对应的权值ϖ相关。假定α和σ2均服从Gamma先验概率,然后根据贝叶斯准则可得ϖ的后验分布为:

(6)

高斯(Gaussian)核函数(式7)、幂指数(Exponential)核函数(式8)和拉普拉斯(Laplacian)核函数(式9)是3种典型的核函数,具有良好的分布特性。分别采用这3种核函数,结合粒子群算法(PSO)[21]选取其最优核参数并在RVM中建模,最后比较优劣。各核函数表达式如下所示:

(7)

(8)

(9)

式中:yc为核函数中心;σ为核宽度。

2 结果与分析

2.1 特征波长提取

以SG预处理后的512个波长点作为对象,采用不同算法设置参数,并进行降维试验,过程如图1所示。其中,VCPA 的二进制采样(BMS)采样数为500,指数递减函数(EDF)运行数为200,比率为0.5;CARS的蒙特卡洛采样数为2 000;VISSA和SEPA-VISSA的加权二进制采样(WBMS)采样数均为2 000。试验均设最大主成分数n为10,交叉验证为5折,每个试验各进行10次,取试验结果中值。

不同算法的波长选择对比见图2。结合图1和2可知:①VCPA在EDF运行到187次时,最小RMSECV为3.672 2,此时得到15个波长点,占总波长的3%;②CARS在蒙特卡洛采样1 799次时,最小RMSECV为12.597 0,此时得到12个波长点,占总波长的2%;③VISSA选取了77个波长点,占总波长的15%,此时模型的最小RMSECV为3.681 8;④SEPA-VISSA选取了111个波长点,占总波长的22%,此时最小RMSECV±STD(SEPA)为3.822 0。此处4种算法的采样方法和判断最优变量特征方式都各不相同,由于是随机采样的子模型,仅表现当前对应算法选取特征时的子模型状况,相互间无直接联系。

对于木材的主要成分纤维素和木质素,其含有大量的含氢基团C—H、O—H、N—H等在近红外光谱区产生吸收,其中二级倍频主要位于1 000~1 400 nm处,一级倍频主要位于1 400~1 800 nm处,因此使其在近红外光谱区域有丰富的吸收信息。从图2可以看出,在990,1 210,1 460和1 660 nm附近有主要吸收。根据吸收峰可得,1 210和1 660 nm 处分别为C—H键二级倍频伸缩和一级倍频伸缩,1 460 nm处为O—H键一级倍频伸缩振动,990 nm处为N—H键二级倍频对称伸缩振动。由图2可知,VCPA和CARS选择波长数量较少,可能会遗漏信息变量而降低建模准确性,而SEPA-VISSA相比于VISSA所选特征波长增加了1 460 nm处C—H键一级倍频振动以及一些非主要的吸收峰,这是VISSA算法在特征波长多而杂时,子数据集随机产生所带来的不稳定性,而SEPA-VISSA算法能更稳定包含更多信息变量。

图1 不同算法的波长选择过程Fig. 1 Wavelength selection process of different algorithms

图2 不同算法的波长选择对比Fig. 2 Comparison of wavelength selections of different algorithms

对各算法优选后的特征波长进行PLS建模,如表3所示。其中,SEPA-VISSA在校正集中决定系数为0.940 2,校正均方根误差为3.049 2;在预测集中,决定系数为0.959 3,预测均方根误差为2.899 5,相对分析误差为3.025 6。相比之下,验证了SEPA-VISSA在校正集和预测集中的PLS模型效果均优于其他算法,主要原因如下:①相对于复杂的抗压强度本身而言,影响抗压强度的因素有很多,如木材的各向异性及不均匀性等特点,但通过VCPA和CARS所提取的特征波长可能会排除主要信息变量,导致预测结果不理想;②在SEPA-VISSA算法中,运用SEPA中的RMSECV±STD作为子模型的评判指标对VISSA改进,提取出的特征波长信息与抗压强度实际值拟合度更高,除了主要的特征波长,还包含一些非主要的特征波长,以更加柔和精确的方式剔除无信息特征波长,进一步提升预测模型的准确性。

表3 不同算法的PLS模型对比Table 3 PLS model comparisons of different algorithms

2.2 建模方法及比较

将SEPA-VISSA特征优选后的数据作为输入,以PSO算法分别对Gaussian、Exponential和Laplacian核函数的核宽度进行优化,其中PSO参数惯性权重ω和学习因子C1、C2为预置值,设最大迭代数为80,上下界为26和2-6,5折交叉验证,各运行10次,取最佳结果。不同核函数的PSO优化过程如图3所示,3种核函数参数优化的迭代次数分别为53,59和38,最佳适应度值为3.027 1,3.325 1和3.132 3。不同核函数的PSO-RVM模型效果对比见表4,根据表4,采用Laplacian建立RVM模型时,其核宽度为10.404 3,预测决定系数为0.944 9,预测均方根误差为2.043 2,均优于基于Gaussian和Exponential的RVM模型,因此采用Laplacian进行建模,可进一步提高抗压强度预测模型的精度。

图3 不同核函数的PSO优化过程Fig. 3 PSO optimization process of different kernel functions

表4 不同核函数的PSO-RVM模型效果对比Table 4 Comparison of PSO-RVM model accuracies of different kernel functions

不同建模方法的模型效果对比如图4所示,为SEPA-VISSA提取特征波长分别采用PLS、SVR和RVM这3种方法进行建模。其中PLS模型的预测决定系数为0.959 3,优于SVR和RVM,这是因为建模所输入的SEPA-VISSA特征波长是在PLS建立子模型的基础上所筛选的,因此,因变量(抗压强度)的全部变异通过回归关系被自变量(特征波长)解释的比例,即决定系数是更高的。但是由于木材的各向异性及不均匀性等特点,特征波长之间更多是处在非线性不可分的状态,因此SVR和RVM非线性模型的预测均方根误差分别为2.235 5和2.043 2,相对分析误差分别为3.924 3和4.293 6,均优于PLS建模,模型更稳定和精确。此外,RVM相比于SVR引入了贝叶斯方法,提供了后验概率的输出,能产生更稀疏的解,同时其调参也更为简便。从预测的结果数据来看,RVM模型的效果最优,建模效果优于PLS和SVR。

图4 不同建模方法的模型效果对比Fig. 4 Comparison of model accuracies of different modeling methods

3 结 论

在900~1 700 nm近红外光谱波段上,以桦木为例,提出SEPA-VISSA-RVM的木材抗压强度预测建模方法。通过实例和数据证明该模型不仅在波长优选上具有优势,且相比于常用的PLS和SVR建模效果更好,在实际工程中具有良好应用性。

1)利用SEPA作为VISSA的改进策略提取出的111个特征波长建立PLS模型,得到决定系数为0.959 3,预测均方根误差为2.899 5,相对分析误差为3.025 6,与VCPA、CARS和VISSA相比,在使用PLS线性建模时预测精准度更高,提升了木材抗压强度预测模型的准确性和鲁棒性。

2)将SPEA-VISSA与RVM建模方法相结合,通过PSO对RVM进行参数优化,选择Laplacian核函数建模,得到决定系数为0.944 9,预测均方根误差为2.043 2,相对分析误差为4.293 6,相比于PLS和SVR,RVM作为非线性建模方法可更加精确地计算出桦木抗压强度的预测值。

猜你喜欢
波长光谱木材
基于三维Saab变换的高光谱图像压缩方法
煤炭矿区耕地土壤有机质无人机高光谱遥感估测
一种波长间隔可调谐的四波长光纤激光器
基于3D-CNN的高光谱遥感图像分类算法
杯中“日出”
数字说
盖房子
加纳木材工业界呼吁政府减免木材进口税以挽救国内木材工业
紫外分光光度法测定溶血率的研究