基于模糊隶属度的近红外光谱模型鲁棒性分析

2015-06-15 17:08高珏李海森徐超朱培逸
哈尔滨工程大学学报 2015年3期
关键词:近红外光谱鲁棒性噪声

高珏,李海森,徐超,朱培逸

(1.哈尔滨工程大学水声工程学院,黑龙江哈尔滨150001;2.哈尔滨工程大学水声技术重点实验室,黑龙江哈尔滨150001;3.常熟理工学院电气与自动化工程学院,江苏常熟215500)

基于模糊隶属度的近红外光谱模型鲁棒性分析

高珏1,2,3,李海森1,2,徐超1,2,朱培逸3

(1.哈尔滨工程大学水声工程学院,黑龙江哈尔滨150001;2.哈尔滨工程大学水声技术重点实验室,黑龙江哈尔滨150001;3.常熟理工学院电气与自动化工程学院,江苏常熟215500)

针对近红外光谱模型存在的鲁棒性问题,在模型建立时引入模糊隶属度,提出了一种自动生成模糊隶属度的方法。建立光谱样本的数据域描述函数,引入信任因子和舍弃因子,通过映射关系得到模糊隶属度函数,参数寻优后自动生成每个样本的模糊隶属度。在此基础上建立了基于FSVM的苹果糖度回归模型。试验结果表明,对比常规的MLR、PLSR和SVM模型,FSVM模型在训练样本变化和高斯噪声、乘性噪声、基线漂移、基线倾斜和波长漂移这5种噪声的分别作用下表现出最佳的性能。模糊隶属度的引入提高了近红外光谱模型的泛化能力和抗噪能力,改善了模型的鲁棒性。关键词:鲁棒性;模糊隶属度;近红外光谱;建模;噪声;数据域描述

近红外光谱技术凭借其无损、快速等优点,广泛应用于农业工程[1]、食品分析[2]、环境监测[3]和水声探测[4⁃5]等领域。通过近红外光谱,可以建立不同的模型获取样本信息,国内外学者在提高模型的预测性能方面进行了大量研究[6⁃9],而对于模型鲁棒性的改善[10⁃11]给予的关注相对较少。鲁棒性是模型对光谱数据中不确定因素的适应性,主要表现为模型的抗噪能力和泛化能力。光谱建模时,仪器响应的漂移、样本包含噪声或奇异值、样本不充分等因素[12]都会影响模型的鲁棒性,鲁棒性不足会导致模型应用于不同条件或受噪声影响的光谱数据时预测误差成倍增长,严重限制了红外光谱技术的进一步推广和应用。

为了改善模型的鲁棒性,一种方法是对训练样本进行预处理,从而剔除异常样本[13],但由于缺乏足够的先验知识,这种方法很难执行;另一种方法是对训练样本引入模糊隶属度[14],依据样本包含不确定因素的大小、信息的重要性对样本赋予不同的模糊隶属度,通过较小的模糊隶属度赋值来限制异常样本对模型的影响。目前,尽管有多种隶属度函数构造方法[15⁃17],但还没有可遵循的一般性准则,在无法获悉样本分布信息的前提下,很难构造出符合客观实际的模糊隶属度。

本文提出了一种自动生成模糊隶属度的方法。建立光谱样本的数据域描述函数,引入信任因子和舍弃因子,通过映射关系得到模糊隶属度函数,参数寻优后自动生成每个样本的模糊隶属度。在此基础上建立苹果糖度回归模型,通过泛化试验和抗噪试验来检验模型的鲁棒性。

1 自动生成模糊隶属度

假如光谱样本的概率密度分布可知,可定义pi为训练样本xi的非异常概率,赋予xi的模糊隶属度为μi=pi。而在实际应用中,几乎无法获取这些信息,需要用某种方法来估计样本包含不确定信息的概率。可以构建光谱样本的数据域描述函数,通过映射关系建立其与概率密度函数的关联,由此得到样本的模糊隶属度函数。

1.1 光谱样本的数据域描述函数

给定光谱样本集X={x1,…xi,…,xl}(其中xi∈Rn为包含n维光谱样本),构建光谱样本的数据域描述函数[18],需要寻找样本的最小包含超球。当光谱样本为非球形分布时,引入映射φ:Rn→F将光谱样本映射到一个高维的特征空间F,最小化超球体体积可得规划:

式中:R为最小包含超球半径,a为球心,ξi为松弛变量,C为惩罚因子。求解该优化问题即可得到特征空间中的光谱样本数据域描述。

光谱样本xi在特征空间中映射φ(xi)到最小包含超球球心a的距离定义为

式中:βi和βj为拉格朗日系数;K(xi,xj)为核函数;特征空间中最小包含超球半径满足R=D(xk),其中xk为支持向量。由式(2)可以得到给定数据集的数据域描述:Dmax=maxD(xi),Dmin=minD(xi),Dmax和Dmin分别为样本到最小包含超球球心的最大和最小距离。对于光谱样本xi,当Dmin<D(xi)≤R时,表示xi满足数据域描述,意味着该光谱样本包含相对重要并确定的信息;当R<D(xi)≤Dmax时,表示样本xi偏离数据域描述,意味着该光谱样本包含相对次要且不确定的信息。

1.2 模糊隶属度函数

为了得到样本的模糊隶属度函数,要通过映射关系建立数据域描述D(xi)与概率密度px(xi)的关联。引入信任因子DC和舍弃因子DT将光谱的训练样本划分为3个区域:位于D(xi)<DC区域的光谱样本,D(xi)值小于信任因子DC,样本具有极高的可信度并且赋予模糊隶属度为1;与此相反,位于D(xi)>DT区域的光谱样本,D(xi)值小于舍弃因子DT,样本极有可能包含噪声或奇异点,对应的模糊隶属度为最小值σ;位于其他区域的光谱样本包含噪声或奇异值的概率各不相同,从而对所建模型所作的贡献也不同,模糊隶属度与包含噪声或奇异值的概率成正比关系。

可以通过如下的映射关系得到模糊隶属度函数:

式中:DC为信任因子,DT为舍弃因子。这2个因子控制着D(xi)和px(xi)的映射区域,d是控制映射度的参数,D(xi)和px(xi)映射关系如图1所示。

图1 D(xi)和px(xi)的映射Fig.1 The mapping between D(xi)and px(xi)

2 模型的鲁棒性验证试验设计

将自动生成模糊隶属度的方法结合模糊支持向量机(fuzzy support vector machines,FSVM),对苹果近红外光谱建立糖度回归模型,分析模型的鲁棒性。

2.1 试验材料和仪器装置

随机选取红富士和国光2种苹果各45个作为试验样品,把表皮清洗干净后,依次序作好标记。在2种苹果中各选30个作为训练样品建立模型,剩余30个作为预测样品。所有样品在室温(25~28)℃放置24 h。

选用海洋光学公司的USB2000光纤光谱仪和HL⁃2000卤钨光源构建检测平台,通过漫反射检测方式采集苹果近红外光谱,采集波长范围是400~1 000 nm,采样间隔为0.37 nm,取每个苹果赤道4个测试部位的平均光谱作为该苹果样本的原始光谱。使用上海光学仪器五厂生产的阿贝折射仪测量苹果样本的糖度,测量结果如表1所示。

表1 苹果糖度的统计信息Table1 Statistics of apple sugar content

2.2 试验方案

试验方案如图2所示。首先,通过近红外光谱仪获取苹果的近红外光谱xi,使用理化方法测量苹果糖度yi,完成原始数据的获取环节;其次,构建光谱样本的数据域描述函数,通过映射关系得到样本的模糊隶属度函数,参数寻优后自动生成每个样本的模糊隶属度μi;最后,对(xi,yi,μi)训练建立FSVM模型[14],与光谱分析中常用的多元线性回归(multivariate linear re⁃gression,MLR)、偏最小二乘回归(partial least square re⁃gression,PLSR),和支持向量机(support vector ma⁃chines,SVM)模型进行泛化能力和抗噪能力的对比试验。

2.3 模型性能评价

模型的预测性能的评价指标包括决定系数R2、交叉验证均方根误差(RMSECV)和预测均方根误差(RMSEP):

式中:yi和是样本测量值和预测值,n为样本个数。

模型的鲁棒性通过泛化试验和抗噪试验来验证,以RMSEP作为评价指标。泛化试验设计为以包含不同数目和不同果品的训练集分别建立模型,研究模型的推广能力。抗噪试验依据Roussel等[19]提出的在原始光谱上分别加入高斯、乘性、基线漂移、基线倾斜、波长漂移这5种噪声的方法来模拟光谱获取中各个环节可能引入的噪声,考察模型对噪声的敏感度。

3 试验结果与分析

3.1 模糊隶属度的确定

通过近红外光谱建立基于支持向量数据域描述函数,其中核函数选择径向基核函数。通过求解式(1)、(2)得到D(xi)和R,样本集中各个样本的D(xi)分布如图3所示,其中虚线为特征空间中最小包含超球半径R=0.88。

为了确定模糊隶属度函数的4个参数,首先固定信任因子DC=Dmin和舍弃因子DT=Dmax,对映射度d和模糊隶属度下限σ执行二维穷举搜索。σ的搜索范围是[0.1,0.9],步长0.1;d的搜索范围是[2-8,28],乘积为2。接着固定d和σ,对DC和DT实施两维穷举搜索,DC的值选择为使0、10%、20%、30%、40%、50%的样本模糊隶属度为1;DT的值选择为使0、10%、 20%、30%、40%、50%的样本模糊隶属度为σ。最终搜索结果为DC=20%、DT=10%、d=8和σ=0.3,将这些参数代入式(3),自动生成了每个样本的模糊隶属度。

图3 样本到最小包含超球球心距离Fig.3 Distances between the sample and the centre of the hypersphere

3.2 模型的预测性能

4种模型的苹果糖度预测结果如表2所示。试验结果可知SVM及FSVM模型的预测性能要优于线性的PLSR和MLR模型。其中FSVM表现最优,SVM与之接近,两者都优于PLSR和MLR。这是由于近红外光谱与苹果糖度之间并不是线性相关,SVM及FSVM模型对比线性模型更能适应这种非线性。

表2 模型的苹果糖度预测性能Table2 Performances of models for brix prediction in apple

3.3 模型的鲁棒性分析

3.3.1 模型的泛化试验

将分属2种苹果的样本集分为A子集(红富士)和B子集(国光)。设计4组训练集:第1组选择A子集共30个样本;第2组选择B子集共30个样本;第3组从A子集和B子集中随机各取15个样本;第4组选择A子集和B子集的所有样本共60个。建立模型对分属2种苹果的30个样本进行预测,RMSEP试验结果如表3所示。

表3 模型的泛化试验结果Table3 Experimental results of models for generalization

试验结果可知,第1组和第2组训练集都仅包含一种苹果,测试包含2种苹果的预测集时,FSVM模型性能最优,而SVM模型性能与之相比有较大差距,MLR和PLSR模型性能均较差。第3组和第4组训练集均包含2种苹果但样本数目存在差异,测试相同的预测集时,FSVM和SVM模型的性能受样本数目的影响较小,PLSR和MLR模型性能受样本数目的影响较大。试验表明,FSVM模型对比其他模型,学习能力更强,从光谱样本中获取的信息更充分,更能适应训练样本的变化。

3.3.2 模型的抗噪试验

在原始光谱上分别加入高斯噪声、乘性噪声、基线漂移、基线倾斜、波长漂移,考察模型对这5种噪声的敏感度。模型抗噪试验的结果如图4所示,其中半径0.2的实线代表较好的模型性能,半径0.8的实线代表较差的模型性能,半径越大意味着模型性能受该噪声影响越严重。

图4 模型抗噪试验结果Fig.4 Experimental results of models for anti⁃noise

试验结果可知,MLR模型易受高斯噪声和基线倾斜影响,尤其是高斯噪声下MLR模型的性能大幅下降;PLSR模型对基线漂移、基线倾斜和波长漂移均比较灵敏,其中波长漂移对PLSR模型的影响最大;SVM模型在高斯噪声和波长漂移作用下,性能有所下降,但总体优于线性模型;FSVM对基线倾斜的相对较为敏感度,但模型性能与无噪声情况下非常接近,受各种噪声的影响最小。试验表明,高斯噪声和基线倾斜对模型性能的影响最大,而乘性噪声对模型性能的影响最小,FSVM模型对各种噪声的敏感度最低,表现出最强的抗噪能力。

4 结论

1)试验结果可知,非线性模型比线性模型表现出了更好的预测性能,引入模糊隶属度的FSVM模型对比常用的MLR、PLSR和SVM模型,具有最强的鲁棒性。

2)提出了一种自动生成模糊隶属度的方法。构建光谱样本的数据域描述函数,引入信任因子和舍弃因子,通过映射关系得到模糊隶属度函数,最后由参数寻优自动生成每个样本的模糊隶属度。简化了模糊隶属度的获取,而得到的模糊隶属度更为客观的反映了光谱数据结构。

3)在应用近红外光谱技术建模时,训练样本不充分和测量过程中的各种噪声会引起模型无法稳定而正常的工作,引入自动生成的模糊隶属度是一种有效的解决方法。此外,提高模型的学习能力和扩展模型的适用对象,会使模型的性能得到提升,进一步推动近红外光谱技术的工业应用,这也是下一步研究的主要方向。

[1]COZZOLINO D.Recent trends on the use of infrared spec⁃troscopy to trace and authenticate natural and agricultural food products[J].Applied Spectroscopy Reviews,2012,47(7):518⁃530.

[2]CHEN L J,YAN Z L,HAN L J.A review on the use of near⁃infrared spectroscopy for analyzing feed protein materi⁃als[J].Applied Spectroscopy Reviews,2013,48(7):509⁃522.

[3]BELLON⁃MAUREL V,MCBRATNEY A.Near⁃infrared(NIR)and mid⁃infrared(MIR)spectroscopic techniques for assessing the amount of carbon stock in soils-Critical review and research perspectives[J].Soil Biology&Bio⁃chemistry,2011,43(7):1398⁃1410.

[4]陈中伟,张凌江,王虹斌,等.海洋颜色八通道多光谱成像测量研究[J].哈尔滨工程大学学报,2010,31(3):377⁃381.CHEN Zhongwei,ZHANG Lingjiang,WANG Hongbin,et al.Measuring sea color with eigh⁃channel spectral imaging[J].Journal of Harbin Engineering University,2010,31(3):377⁃381.

[5]程凯,侯华明,李德平,等.深海原位激光拉曼光谱系统释样设计与海试[J].哈尔滨工程大学学报,2011,32(8):1058⁃1062.CHENG Kai,HOU Huaming,LI Deping,et al.Design and sea trial on a sample releasing device used for deep⁃sea in⁃si⁃tu laser Raman spectroscopy system[J].Journal of Harbin Engineering University,2011,32(8):1058⁃1062.

[6]NICOLAI B M,BEULLENS K,BOBELYN E,et al.Nonde⁃structive measurement of fruit and vegetable quality by means of NIR spectroscopy:a review[J].Postharvest Biology and Technology,2007,46(2):99⁃118.

[7]傅霞萍,应义斌,陆辉山,等.应用多种近红外建模方法分析梨的坚实度[J].光谱学与光谱分析,2007,27(5):911⁃915.FU Xiaping,YING Yibin,LU Huishan,et al.Application of some different modeling algorithms to pear MT⁃firmness detection using NIR spectra[J].Spectroscopy and Spectral Analysis,2007,27(5):2079⁃2082.

[8]高珏,王从庆.基于LS⁃SVM的苹果近红外光谱回归模型的研究[J].计算机测量与控制,2011,19(1):176⁃178.GAO Jue,WANG Congqing.Regression model for apples' near infrared spectroscopy based on LS⁃SVM[J].Computer Measurement and Control,2011,19(1):176⁃178.

[9]介邓飞,谢丽娟,饶秀勤,等.近红外光谱变量筛选提高西瓜糖度预测模型精度[J].农业工程学报,2013,33(8):2079⁃2082.JIE Dengfei,XIE Lijuan,RAO Xiuqin,et al.Improving ac⁃curacy of prediction model for soluble solids content of water⁃melon by variable selection based on near⁃infrared spectros⁃copy[J].Transactions of the Chinese Society of Agricultural Engineering,2013,33(8):2079⁃2082.

[10]FERNÁNDEZ⁃PIERNA J A,CHAUCHARD F,PREYS S,et al.How to build a robust model against perturbation fac⁃tors with only a few reference values:a chemometric chal⁃lenge at‘Chimiométrie 2007'[J].Chemometrics and In⁃telligent Laboratory Systems,2011,106(2):152⁃159.

[11]ROTBART N,SCHMILOVITCH Z,COHEN Y,et al.Esti⁃mating olive leaf nitrogen concentration using visible and near⁃infrared spectral reflectance[J].Biosystems Engi⁃ neering,2013,114(4):426⁃434.

[12]BOBELYN E,SERBAN A⁃S,NICU M,et al.Postharvest quality of apple predicted by NIR⁃spectroscopy:study of the effect of biological variability on spectra and model per⁃formance[J].Postharvest Biology and Technology,2010,55(3):133⁃143.

[13]CAO L J,LEE H P,CHONG W K.Modified support vec⁃tor novelty detector using training data with outliers[J].Pattern Recognition Letters,2003,24(14):2479⁃2487.

[14]LIN C F,WANG S D.Fuzzy support vector machines[J].IEEE Transaction on Neural Networks,2002,13(2):466⁃471.

[15]朱坚民,雷静桃,翟东婷,等.基于灰关联分析和模糊隶属度匹配的球形水果自动识别方法[J].仪器仪表学报,2012,33(8):1826⁃1836.ZHU Jianmin,LEI Jingtao,ZHAI Dongting,et al.Spheri⁃cal fruit automatic recognition method based on grey rela⁃tional analysis and fuzzy membership degree matching[J].Chinese Journal of Scientific Instrument,2012,33(8):1826⁃1836.

[16]YANG C Y,CHOU J J,LIAN F L.Robust classifier learn⁃ing with fuzzy class labels for large⁃margin support vector machines[J].Neurocomputing,2013,99(1):1⁃14.

[17]AN W J,LIANG M G.Fuzzy support vector machine based on within⁃class scatter for classification problems with outli⁃ers or noises[J].Neurocomputing,2013,110(13):101⁃110.

[18]TAX D M J,DUIN R P W.Support vector data description[J].Machine Learning,2004,54(1):45⁃66.

[19]ROUSSEL S A,IGNE B,FUNK D B et al.Noise robust⁃ness comparison for near⁃infrared prediction models[J].Journal of Near Infrared Spectroscopy,2011,19(1):23⁃36.

Robustness analysis of near infrared spectroscopy model using fuzzy membership

GAO Jue1,2,3,LI Haisen1,2,XU Chao1,2,ZHU Peiyi3
(1.College of Underwater Acoustic Engineering,Harbin Engineering University,Harbin 150001,China;2.Science and Technology on Underwater Acoustic Laboratory,Harbin Engineering University,Harbin 150001,China;3.College of Electric and Automatic Engi⁃neering,Changshu Institute of Technology,Changshu 215500,China)

In order to analyze the robustness of the near infrared spectroscopy model,this paper proposes a method of automatically generating the fuzzy membership by introducing the fuzzy membership when building the model.This method constructs a description function in the data domain of spectrum samples,introduces two factors⁃confi⁃dent factor and trashy factor,and then obtains the fuzzy membership function of samples from a mapping function.It automatically generates the fuzzy membership of each sample after optimizing parameters.On that basis,the re⁃gression model of apple sugar content was built based on fuzzy support vector machines(FSVM).The experimental results revealed that comparing with regular multivariate linear regression(MLR),partial least squares regression(PLSR)and support vector machines(SVM),the FSVM model showed the best performance with the change of training samples,under the influence of five noises,i.e.Gaussian noise,multiplicative noise,baseline shift,base⁃line slope and wavelength shift.The model shows better performance in robustness,especially generalization ability and anti⁃noise ability,primarily due to the contribution of fuzzy membership.

robustness;fuzzy membership;near infrared spectroscopy;modelling;noise;data description

10.3969/j.issn.1006⁃7043.201312026

http://www.cnki.net/kcms/detail/23.1390.U.20150109.1504.005.html

TP273.4

A

1006⁃7043(2015)03⁃0312⁃05

2013⁃12⁃26.网络出版时间:2015⁃01⁃09.

苏州市科技计划资助项目(SYN201109).

高珏(1981⁃),男,博士研究生;李海森(1962⁃),男,教授,博士生导师.

李海森,E⁃mail:hsenli@126.com.

猜你喜欢
近红外光谱鲁棒性噪声
噪声可退化且依赖于状态和分布的平均场博弈
荒漠绿洲区潜在生态网络增边优化鲁棒性分析
基于确定性指标的弦支结构鲁棒性评价
控制噪声有妙法
基于近红外光谱法的藜麦脂肪含量快速检测
基于非支配解集的多模式装备项目群调度鲁棒性优化
非接触移动供电系统不同补偿拓扑下的鲁棒性分析
一种基于白噪声响应的随机载荷谱识别方法
车内噪声传递率建模及计算