基于高光谱成像技术生长发育后期苹果糖度的无损检测

2016-07-02 02:53孟田源王转卫翁小凤
关键词:无损检测

孟田源,王转卫,迟 茜,赵 凡,翁小凤

(西北农林科技大学 机械与电子工程学院, 陕西 杨凌 712100)

基于高光谱成像技术生长发育后期苹果糖度的无损检测

孟田源,王转卫,迟茜,赵凡,翁小凤

(西北农林科技大学 机械与电子工程学院, 陕西 杨凌 712100)

[摘要]【目的】 研究应用高光谱成像技术无损检测生长发育后期苹果糖度的可行性。【方法】 以生长发育后期的“富士”苹果为对象,基于采集到的波长900~1 700 nm高光谱数据,建立预测苹果糖度的偏最小二乘(PLS)、支持向量机(SVM)和极限学习机(ELM)模型,并比较主成分分析(PCA)和连续投影算法(SPA)2种数据压缩或特征波提取方法对预测模型精度的影响。【结果】 采用PCA方法可将全光谱压缩至9个主成分,采用SPA从全光谱的230个波长中提取出了13个特征波长,两者相比,SPA能更有效地提高模型预测能力。预测生长发育后期苹果糖度的最佳模型为基于SPA的PLS模型,其预测集相关系数为0.945,均方根误差为0.628 °Brix。【结论】 高光谱图像技术可以用于生长发育后期苹果糖度的无损检测,该技术的应用将有助于指导苹果的种植和适时采收。

[关键词]高光谱成像技术;苹果糖度;无损检测

中国是世界上最大的苹果生产国,苹果产量约占园林水果产量的30%,是我国最具国际竞争力的农产品之一[1]。工业化生产中通常根据苹果的外部特征,如大小、形状、颜色、外部缺陷等进行分类[2],然而这些外部特征并不能真实反映果实的内部品质信息,如糖度、酸度、糖酸比、硬度、含水率等,其中糖度是反映水果内部品质的主要指标,糖度的大小也成为影响消费者购买力的主要因素。果品可溶性固形物(Soluble solid content,SSC)含量中约85%的成分是糖,因此常用可溶性固形物含量表达果品的糖度。传统的测量果品SSC的方法是采用数字式糖度计或折射仪测量果汁的SSC,但该方法对果品具有破坏性,不适宜用于大量水果糖度的工业化无损检测。

近红外光谱技术是目前研究水果内部品质的最主要方法,但该方法通常采用点接触法采集光谱,难以全面获取并反映整个果实的内部品质信息。高光谱成像技术是将图像技术与光谱技术相结合的一门新兴的无损检测技术,具有同时获取反映水果外部品质的图像信息和反映内部品质的光谱信息的优点[3]。目前,在利用该技术进行苹果品质检测研究方面已经取得了一些进展。Xing等[4]指出,基于高光谱图像可较为准确地识别出金冠苹果的擦伤;Mendoza等[5]基于高光谱信息建立了预测苹果硬度和SSC的模型;Zhao等[6]从高光谱中提取出了表征苹果硬度的特征波长,并将其应用于苹果硬度的检测。上述研究均是以釆后或贮藏期的苹果为研究对象。马宝焜等[7]提出,在果实成熟期间,当苹果果实的单果质量稳定后,其含糖量、含酸量等指标仍会继续变化。申曙光等[8]提出,果实中的含糖量可作为苹果适时收获的主要生物学指标。因此,检测成熟期苹果的糖度对于苹果的种植和适时采收将具有重要的指导意义,但目前尚未见预测成熟期苹果糖度的研究报道。

为此,本研究以成熟期的“富士”苹果为对象,采用高光谱成像技术采集成熟期苹果的高光谱图像,提取反射光谱,然后采用化学计量学和人工神经网络技术建立基于反射高光谱预测苹果糖度的模型,并对模型的精度和可靠性进行分析,以期为生长发育后期苹果糖度的无损检测提供一种新的方法,进而为苹果的种植和适时采收提供参考依据。

1材料与方法

1.1材料

试验材料为处于生长发育后期的“富士”苹果。样品于试验前1 d随机采摘于陕西杨凌某果园的50多棵树龄11年的苹果树,采摘时综合考虑果树阳面和阴面对果实品质的影响。“富士”苹果从开花到成熟一般需要180 d左右,试验从苹果果实生长发育的110 d(2013-07-25,细胞膨大期后)持续到197 d(2013-10-20),此阶段属于苹果的生长发育后期。每隔10 d左右采样1次,共采样9次,所用样品均为形状规则的无缺陷果。本研究共采集样品199个。

1.2光谱数据采集及糖度测定

本研究所用的高光谱成像系统(HyperSIS,北京汉光卓立公司)主要由推扫型成像光谱仪(ImSpector,N17E型,芬兰)、CCD相机(OPCA05G型,日本)、暗箱和计算机组成。暗箱由4个100 W的白光漫反射型光源和电控移动台组成。成像光谱仪的波长为900~1 700 nm,光谱分辨率为3.32 nm,曝光时间为10 ms,物距为65 cm,图像采集速度为20 mm/s。

图 1 高光谱数据采集系统示意图

在采集高光谱图像前将系统预热约1 h。由于苹果表面形状的差异以及各个波段下光源强度分布的不均匀性,需要对图像进行黑白校正[9],校正公式为:

(1)

式中:R为校正后的漫反射光谱图像,RO为原始漫反射光谱图像,W为反射率为99%的标准白色校正板的漫反射图像,B为全黑的标定图像。

采用ENVI(V.4.8,Reseach Systems Inc.,Boulder,CO.,USA)软件提取和处理高光谱图像。由于像素点的分布为正方形,通过对比分析及单一变量原则,选取30像素×30像素的正方形区域作为感兴趣区域,以该感兴趣区域的平均光谱作为样品的高光谱。

采集完高光谱图像后,在样品赤道上选取均匀分布的4个点,分别挖取适当果肉用PR-101α型数字式折射计(ATAGO,日本)测量SSC,以4点读数的平均值作为该样品的SSC值。整个试验在(22±2) ℃下进行。

1.3样本划分

采用SPXY(Sample set partitioning based on jointx-ydistance)算法划分样本。SPXY样本划分方法由Galvão等[10]首先提出,是在KS法的基础上发展而来的。SPXY的优点是在计算样品间距离时将x变量和y变量同时考虑在内,这样能够有效地覆盖多维向量空间,从而改善模型的预测能力[11]。

1.4光谱预处理

由于光谱信号容易受到测量环境、测量条件和仪器性能等因素的影响,使测量得到的光谱信号存在噪声和谱线平移等干扰,因此需要对原始光谱进行预处理。常用预处理方法有多元散射校正、标准正态变量变换(Standard normal variate transformation,SNV)和Savitzky-Golay平滑等。经比较分析发现,SNV法能更好地修正待测样品的散射,有效地消除噪声干扰和谱线平移[12],故本研究选择SNV法对原始光谱进行预处理。

1.5数据降维

高光谱的许多波段包含大量相同的信息,选取有效的特征波长或对光谱数据进行降维,对于简化模型、提高模型的稳定性和精度非常重要。为此,本研究采用主成分分析法(Principal component analysis,PCA)对高光谱数据进行降维,用连续投影算法(Successive projections algorithm,SPA)提取特征波长。

PCA是一种面向模式分类的数据降维方法,是在不改变原始数据包含信息的基础上,由高维数据空间沿着协方差最大的方向进行投影,最终转化为较少维数数据集的一种方法。PCA能使降维后的数据集维持大部分的原始信息,减少数据采集过程中噪声的影响,具有方法简单、无参数限制等优点,可以方便地应用于各种场合[13]。

SPA是一种前向循环的变量选择算法,其能从光谱矩阵中选择含最低限度冗余信息的变量组。在选择特征波长时,首先选定一个波长进行迭代,并在每次迭代中加入新的波长,直到达到指定的波长数为止。其迭代的目的是选择那些冗余量最小的波长,以解决共线性问题[14]。

1.6建模方法

1.6.1偏最小二乘法偏最小二乘(Partial least squares,PLS)法是一种基于最小二乘的多元统计数据分析方法,可以在自变量矩阵和因变量矩阵中提取偏最小二乘成分,以达到降维和消除变量间复线性关系的目的[15]。

1.6.2支持向量机支持向量机(Support vector machine,SVM)是一种以统计学和Vapmik理论为基础的监督式机器学习方法[16]。该算法用非线性映射算法将输入向量空间映射到与较原来维数更高甚至无穷维的特征空间中,能够使初始线性不可分的输入向量变得线性可分,同时在高维空间中利用风险最小化理论建立分隔超平面,以达到较小的分类误差[17]。

1.6.3极限学习机极限学习机(Extreme Learning Machine,ELM)是Huang等[18]针对单隐含层前馈神经网络(SLFN)提出的新算法,该算法具有学习速度快、泛化能力强等优点,在模式识别和非线性拟合方面具有明显优势。

1.7模型评判

以校正集样品的相关系数(Rc)、校正集样品的均方根误差(Root mean square of calibration set,RMSEC)、预测集样品的相关系数(Rp)和预测集样品的均方根误差(Root mean square error of predication set,RMSEP)作为评价模型预测性能的指标,模型的Rc和Rp越接近1,RMSEC和RMSEP越小,则模型精度越高。

2结果与分析

2.1光谱特征分析和预处理

采集到的原始反射光谱波长为900~1 700 nm,由于原始反射光谱的两端存在较大的噪声干扰,故本研究选取931.51~1 691.79 nm波长作为有效原始光谱。用SNV法对有效原始光谱进行预处理,SNV预处理后的光谱曲线如图 2所示,后续的研究将均基于SNV预处理后的漫反射光谱进行分析。

图 2 经SNV法预处理后的苹果反射光谱

图2表明,所有样品反射光谱曲线的变化规律基本一致,但各样品的相对反射率有所不同。反射率不同,说明样品的内部品质间存在一定差异,这种差异为利用光谱信息预测苹果内部品质提供了可能。图2中的曲线有3个明显的波谷,分别在964.71,1 193.79和1 452.75 nm处,意味着苹果在此范围内有3个强吸收峰, 其中964.71和 1 452.75 nm处为水的吸收峰,而1 193.79 nm处为果胶的吸收峰[19]。

2.2样本划分

按照校正集样品数相对于预测集样品数为3∶1的比例,运用SPXY法划分199个样品,得到校正集样品149个,预测集样品50个,表1为样本划分结果。由表1可知,校正集苹果样品的糖度为8.9~17.7 °Brix,预测集苹果样品的糖度为9.1~17.1 °Brix。校正集样品的糖度范围大于预测集样品,说明本研究对样本的划分是合理的。

表 1 苹果样本的划分结果

2.3数据降维及特征波长提取

2.3.1基于PCA降低数据的维数表2所示为前10个主成分的贡献率以及累积贡献率。由表2可知,前7个主成分的累积贡献率超过了99%,说明这7个主成分能够表达原始光谱99%的信息。由于大部分样品间的光谱差异较小,若选取的主成分较少,可能会丢失部分有效信息,进而影响模型的精度。在保证模型具有较小的计算量和计算时间的前提下,本研究以单个变量贡献率大于0.1%的前9个主成分,作为苹果糖度预测模型的输入变量,该9个主成分的累积贡献率为99.66%。

表 2 前10个主成分的贡献率和累积贡献率

2.3.2基于SPA提取特征波长用SPA提取特征波长数目时,常根据校正集的交叉验证均方根误差(RMSECV)来确定[20]。本研究中RMSECV的计算公式为:

(2)

式中:n为参与建模的样品个数,cei为交叉验证过程中第i个样品的测量值,ci为标准方法的测量值。

本研究中设定的特征波长数为1~20,所得RMSECV随特征波长数的变化规律如图3所示。由图3可知,RMSECV随特征波长数的增加而减小,当特征波长数量为13时, RMSECV达到最低,故选取的特征波长数为13个,这13个特征波长分别为931.51,971.35,1 004.55,1 057.67,1 127.39,1 173.87,1 230.31,1 303.35,1 356.47,1 389.67,1 532.43,1 585.55和1 691.79 nm。

2.4糖度预测模型建立

2.4.1PLS模型确定合理的主因子数是建立PLS模型的关键。主因子数过少,模型不能反映未知样品被测组分的光谱变化;而主因子数过多,会使一些无用信息加入到模型中,两者都会降低模型的预测精度[21]。本研究采用交叉验证方法,计算不同主成分下的RMSECV,根据最小的RMSECV确定基于全光谱(FS)下的230个波长、SPA提取的13个特征波长和PCA降维后的9个主成分建立的PLS模型的最佳主因子数见表3,建立的预测苹果糖度的PLS模型结果如表4所示。

图 3 SPA提取的不同特征波长下的RMSECV值

表 3 预测苹果糖度的PLS、SVM和ELM模型的参数设定结果

表 4 基于不同特征变量处理方法所建立模型对苹果糖度的预测结果

表4显示,FS-PLS具有最好的校正性能,其Rc和RMSEC分别为0.979和0.440 °Brix;而基于SPA建立的PLS(SPA-PLS)模型具有最好的预测性能,其Rp和RMSEP分别为0.945和0.628 °Brix;基于PCA建立的PLS模型(PLS-PCA)的校正和预测性能均最差。

2.4.2SVM模型本研究以逼近速度较快、效率较高的径向基函数作为SVM模型的核函数。根据经验设置交叉验证层数为5,并用K-fold Cross Validation(K-CV)方法确定SVM的惩罚因子(c)和松弛变量(g),首先将参数c、g的范围设为2×10-8~2×108,利用网格搜索法进一步确定精细范围为2×10-4~2×104,最终确定c和g的取值见表3。用所建立的SVM模型对苹果SSC进行预测,结果见表4。表4表明,FS-SVM模型具有最好的校正性能,其Rc=0.961,RMSEC=0.612 °Brix;SPA-SVM具有最好的预测性能,其Rp=0.880,RMSEP=1.211 °Brix。

2.4.3ELM模型ELM网络模型的输入层与隐含层间的连接权值和神经元间的阈值是随机设定的,只需要设置各层神经元的个数和激励函数便可经校正集训练后获得最优解。将激励函数设为sigmoidal函数,根据多次重复建模结果确定ELM的隐含层节点数,其结果如表3所示。由于ELM参数是随机选取的,因此结果有一定的波动,本研究重复建模1 000次,以1 000次重复建模结果的平均值作为最终结果(表4)。表4表明,SPA-ELM模型具有最高的Rc(0.942)和Rp(0.938),同时具有最低的RMESC(0.725 °Brix)和RMSEP(0.664 °Brix)。说明基于SPA所建立的ELM模型(SPA-ELM)具有最好的校正性能和预测性能。

综合比较PLS、SVM和ELM模型对成熟期苹果SSC的预测结果,可以发现,SPA提取的特征波长数为13个,而PCA将全光谱的数据压缩至9个主成分,二者均有效降低了模型的复杂程度。SPA在减少模型输入波长数的同时,还提高了模型的预测精度。基于SPA建立的所有模型的预测效果均最优,且校正效果也较好。但基于PCA建立的所有模型的校正和预测效果均最差,说明PCA的前9个主成分并不能很好地反映全光谱的信息,要提高PCA的预测精度,在计算量适当的情况下需要相应增加主成分的数量。3种模型中,SVM模型的RMSEP均较大,说明SVM模型的预测性能较差,不适宜用于生长发育后期苹果糖度的预测分析。所有模型中,预测性能最好的是SPA-PLS模型,其Rp=0.945,RMSEP=0.628 °Brix,具有良好的预测相关系数和较低的误差,说明预测生长发育后期“富士”苹果糖度的最佳模型是SPA-PLS,这也将为后续研究及相关模型的设计提供方法和技术支持。

3结论

本研究基于高光谱成像技术建立了生长发育后期“富士”苹果糖度的PLS、SVM和ELM预测模型,并分别比较了应用SPA和PCA提取特征波长或数据降维对简化模型、提高模型预测性能的影响,得到的结论如下:

1)SPA从230个波长的全光谱中提取出了13个特征波长,其波长数仅是全光谱波长数的 5.65%;采用PCA提取出了9个主成分,变量数是全光谱中230个变量的 3.91%。 2种方法均降低了模型的输入变量个数,使建立的模型更加简化。

2)对基于全光谱、SPA提取特征波长和PCA提取的主成分所建立模型的比较结果说明,在各种建模方法中,基于SPA提取特征波长建立的模型具有最好的预测性能,而基于PCA提取主成分建立模型的校正性能和预测性能最差,说明SPA能有效提高模型的预测能力。

3)预测生长发育后期“富士”苹果SSC的最佳模型是SPA-PLS,其较高的相关系数和较低的预测误差说明高光谱成像技术可用于生长发育后期苹果糖度的无损检测,这将为苹果的适时采收提供一种新的判断依据。

[参考文献]

[1]陈磊.苹果价格下滑,果农果商如何应对 [J].果农之家,2015,163(12):43-45.

Chen L.As the falling prices of apple,growers how to deal with [J].Fruit Grower’s Friend,2015,163(12):43-45.(in Chinese)

[2]孟宪军,公丽艳,毕金峰,等.中早熟苹果果实品质因子的选择 [J].食品科学,2013,34(23):72-76.

Meng X J,Gong L Y,Bi J F,et al.Selection of factors for evaluating fruit quality of mid-early ripening apple cultivars [J].Food Science,2013,34(23):72-76.(in Chinese)

[3]Dong J,Guo W.Nondestructive determination of apple internal qualities using near-infrared hyperspectral reflectance imaging [J].Food Analytical Methods,2015,8(10):2635-2646.

[4]Xing J,De Baerdemaeker J.Bruise detection on ‘Jonagold’ apples using hyperspectral imaging [J].Postharvest Biology and Technology,2005,37(2):152-162.

[5]Mendoza F,Lu R,Ariana D,et al.Integrated spectral and image analysis of hyperspectral scattering data for prediction of apple fruit firmness and soluble solids content [J].Postharvest Biology and Technology,2011,62(2):149-160.

[6]Zhao J,Chen Q,Vittayapadung S,et al.Determination of apple firmness using hyperspectral imaging technique and multivariate calibrations [J].Transactions of the Chinese Society of Agricultural Engineering,2009,25(11):226-231.

[7]马宝焜,徐继忠,袁小乱.红富士苹果不同采收期对品质的影响 [J].果树科学,1989,6(1):50-51.

Ma B K,Xu J Z,Yuan X L.The effect on quality of the ‘FUJI’ Apple in different picking period [J].Journal of Fruit Science,1989,6(1):50-51.(in Chinese)

[8]申曙光,马宝焜,陈四维.红富士苹果果实发育期间生理生化变化的研究 [J].果树科学,1991,8(1):1-6.

Shen S G,Ma B K,Chen S W.Studies on physiological and biochemical changes during the development of the “FUJI” apple fruit [J].Journal of Fruit Science,1991,8(1):1-6.(in Chinese)

[9]董金磊,郭文川.采后猕猴桃可溶性固形物含量的高光谱无损检测 [J].食品科学,2015,36(16):101-106.

Dong J L,Guo W C.Nondestructive detection of soluble solid content of postharvest kiwifruits based on hypersectral imaging technology [J].Food Science,2015,36(16):101-106.(in Chinese)

[11]Chen J,Ren X,Zhang Q,et al.Determination of protein,total carbohydrates and crude fat contents of foxtail millet using effective wavelengths in NIR spectroscopy [J].Journal of Cereal Science,2013,58(2):241-247.

[12]Feng Y,Sun D.Near-infrared hyperspectral imaging in tandem with partial least squares regression and genetic algorithm for non-destructive determination and visualization ofPseudomonasloads in chicken fillets [J].Talanta,2013,109(9):74-83.

[13]王铭海,郭文川,商亮,等.基于近红外漫反射光谱的多品种桃可溶性固形物的无损检测 [J].西北农林科技大学学报(自然科学版),2014,42(2):142-148.

Wang M H,Guo W C,Shang L,et al.Nondestructive detection of soluble solids content for multiple peach fruits using near-infrared diffuse reflectance spectra [J].Journal of Northwest A&F University(Natural Science Edition),2014,42(2):142-148.(in Chinese)

[14]Wu D,He Y,Nie P,et al.Hybrid variable selection in visible and near-infrared spectral analysis for non-invasive quality determination of grape juice [J].Analytica Chimica Acta,2010,659(1/2):229-237.

[15]Liu Y,Sun X,Ouyang A.Nondestructive measurement of soluble solid content of navel orange fruit by visible-NIR spectrometric technique with PLSR and PCA-BPNN [J].LWT-Food Science and Technology,2010,43(4):602-607.

[16]Vapnik V N.Statistical learning theory [M].New York:Wiley-Interscience,1998.

[17]Bassbasi M,Platikanov S,Tauler R,et al.FTIR-ATR determination of solid non fat (SNF) in raw milk using PLS and SVM chemometric methods [J].Food Chemistry,2014,146(3):250-254.

[18]Huang G,Zhu Q,Siew C.Extreme learning machine:theory and applications [J].Neurocomputing,2006,70(1/2/3):489-501.

[19]Kamruzzaman M,Elmasry G,Sun D,et al.Prediction of some quality attributes of lamb meat using near-infrared hyperspectral imaging and multivariate analysis [J].Analytica Chimica Acta,2012,714:57-67.

[20]Xu H,Qi B,Sun T,et al.Variable selection in visible and ne-ar-infrared spectra:application to on-line determination of sugar content in pears [J].Journal of Food Engineering,2012,109(1):142-147.

[21]Guo W,Zhao F,Dong J.Nondestructive measurement of soluble solids content of kiwifruits using near-infrared hyperspectral imaging [J].Food Analytical Methods,2015,9(1):1-10.

Hyperspectral imaging based non-destructive prediction of soluble solids content in apples at late development period

MENG Tian-yuan,WANG Zhuan-wei,CHI Qian,ZHAO Fan,WENG Xiao-feng

(CollegeofMechanicalandElectronicEngineering,NorthwestA&FUniversity,Yangling,Shaanxi712100,China)

Abstract:【Objective】 This study investigated the feasibility of using hyperspectral image technique to nondestructively predict soluble solids content (SSC) of apples at the late development period. 【Method】 ‘Fuji’ apples were used as samples to acquire hyperspectral images from 900 nm to 1 700 nm.Three prediction models,partial least squares (PLS),support vector machine (SVM) and extreme learning machine (ELM),were built.The effect of characteristic wavelength selection method of successive projections algorithm (SPA) and data compression method of principal component analysis (PCA) were compared according to model predication accuracy.【Result】 Nine principal components were compressed by PCA and 13 characteristic wavelengths were selected by SPA from the full spectra (230 wavelengths).SPA improved the prediction performance effectively.The best model for SSC prediction of apples at late development period was SPA-PLS,whose correlation coefficient and root mean square error of prediction were 0.945 and 0.628 °Brix,respectively.【Conclusion】 Hyperspectral imaging technique could be used as a noninvasive method for predicting SSC of apples at late development period.This technique is helpful to instruct apple planting and harvest timely.

Key words:hyperspectral imaging;soluble solids content in apple;non-destructive prediction

DOI:网络出版时间:2016-05-0314:0510.13207/j.cnki.jnwafu.2016.06.031

[收稿日期]2015-12-31

[基金项目]国家科技支撑计划项目(2015BAD19B03);国家级大学生创新创业训练计划项目(201410712021)

[作者简介]孟田源(1994-),男,河北衡水人,本科在读,主要从事农产品无损检测技术研究。E-mail:cs11361136@qq.com [通信作者]王转卫(1974-),女,陕西富平人,讲师,主要从事农产品和食品无损检测技术与应用研究。 E-mail:wzw630@126.com

[中图分类号]S123;S661.1

[文献标志码]A

[文章编号]1671-9387(2016)06-0228-07

网络出版地址:http://www.cnki.net/kcms/detail/61.1390.S.20160503.1405.062.html

猜你喜欢
无损检测
石油管道无损检测中的漏磁在线检验方法
浅析机械设备无损检测与安全
应力波反射法测锚索长度的数据处理软件设计与实现
中子照相技术及其在考古中的应用
核电设备检测中的网络无损检测集成技术探讨
不锈钢覆面焊缝脉冲涡流热成像检测技术研究
浅谈压力容器无损检测
浅谈无损检测的质量管理