木材红外光谱的树种识别研究

2015-12-16 08:12王学顺孙一丹黄安民
森林工程 2015年6期
关键词:木材遗传算法光谱

王学顺,孙一丹,黄安民

(1.北京林业大学理学院,北京100083;2.中国林业科学研究院木材工业研究所,北京100091)

木材是可持续发展的重要原材料,保护并适度开发利用木材资源是人类生存发展的必要基础与保障[1]。在木材交易中,普通树种与珍贵树种的价格差所带来的巨额利润导致家具买卖等行业存在许多假冒伪劣产品。此外,在文博研究、工业生产中,不同性质的木材具有不同的价值需求导向,从而导致市场定位的差异性明显[2-3]。因此,只有快速、准确的对木材的性质特征加以鉴定,区分各树种的属性与差别,才能真正做到木材资源的高效利用。

随着光谱解析学的发展,红外光谱的定性与定量分析技术被广泛应用于木材识别中。近年来主成分分析[4]、聚类分析[5]、贝叶斯判别[6]以及支持向量机[7]等智能算法的引入,为木材识别技术提供了新的发展空间。主成分分析(Principal Compo-nent Analysis,PCA)投影判别法的二维或三维得分图可以将同种物质聚成一簇,直观进行样品定性判别与分类处理[8-9]。聚类分析(Cluster analysis)是一组研究对象分为相对同质的群组的统计分析技术,在数理统计,生物信息和金融管理等多种领域广泛使用[10-11]。贝叶斯判别(Bayes discriminant)是一种传统的多元统计方法,它是根据最小风险代价判决或最大似然比判决,并结合贝叶斯准则来进行判别分析的[12-13]。

支持向量机(Support Vector Machine,SVM)方法建立在统计学习理论的VC维理论和结构风险最小原则基础上,根据有限的样本信息在模型中的复杂性和学习能力之间寻求最佳折衷,以求获得最好的推广能力[14-15]。在支持向量机的径向基核函数中,惩罚参数C和核参数γ对模型分类的性能优劣具有重要影响。我们要选择合适的C和γ,以提高模型的判别准确率[14]。

本研究以10种木材的红外光谱样本为研究对象,通过对其进行定性与定量分析,建立木材树种的识别模型,为木材识别提供一定的参考价值与科学依据。

1 实验部分

1.1 样品来源

本文以10种珍贵木材的中红外光谱为研究对象,鉴于木材样本的体积较小,这里随机进行取样而不再区分木材的心材或边材部分。每种木材选取3个样本,依次标记为样本Ⅰ、样本Ⅱ和样本Ⅲ,分别建立木材识别的定性分析与定量分析模型。研究所用的样本木材均由中国林业科学研究院木材工业研究所提供。10种木材的样本资料见表1。

1.2 仪器设备与样品制备

仪器设备:实验室的光谱采集设备为美国Perkin Elmer公司提供的Spectrum GX,DTGS检测器,分辨率4 cm-1,测量范围:4 000~400 cm-1,光谱分析软件的运行平台为Windows 7。

样品制备:将2~3 mg待测样品与200 mg溴化钾砕晶置于玛瑙研钵中,磨细,并使其混合均匀。将研细混匀的粉末倾入压片模具中,使用压片机将其压成圆形薄片,继而放入红外光谱仪样品支架进行测试。

表1 木材的样品资料Tab.1 The data of timber samples

1.3 数据预处理

在溴化钾压片制样中,由于研磨不细,锭片不透明,红外光发生散射,使光谱的高频端基线抬高;为使谱图美观,通常需要基线校正,即将光谱的基线人为的拉回到0基线上。因此首先将原光谱转换成吸光度光谱,对其基线校正后再进行标准化处理,从而得到可供实验所用的光谱。本研究针对每个样品共扫描3次,得到3组平行试验的光谱数据,为了保证谱图的清晰度,选取其中一组的5种木材样品绘制红外光谱图,光谱图如图1所示。从图中可以看出,红外光谱的特征吸收峰在1 800~800 cm-1的波数段区域展现较为集中,所含样本树种信息较为丰富,因此本研究选取1 800~800 cm-1的样本光谱数据,利用SPSS软件中的主成分分析进行数据降维,得到16个主成分,贡献率达99.684%,可满足实验要求。

图1 5种木材样品的红外光谱图Fig.1 The infrared spectra of 5 kinds of timber samples

2 结果与讨论

2.1 基于主成分分析投影判别法的木材定性分析模型

2.1.1 主成分二维得分图

利用SPSS对降维后的木材红外光谱的16个主成分数据绘制二维得分图,为了保证得分图的清晰度,这里选取同为苏木科的木材1至5即:爱里古夷苏木、古夷苏木、孪叶苏木、印茄木、甘巴豆的各3个样本进行分析,其中5种木材按类别(Type)依次标号为a1~a5,15个样本数据依次标为1~15。在所得的得分图中,样本在主成分空间中聚集成不同的类别,从而实现对木材的分类判别。以3个样本的第一主成分作为横坐标,第二主成分作为纵坐标,得到的二维主成分得分图如图2所示。

图2 二维PCA得分图Fig.2 The score plot of two-dimensional PCA

由图2可知,二维PCA得分图可以初步区分5种木材,且a4(印茄木)与其它四种木材差别较大,区分较为明显;a1(爱里古夷苏木)3个样本(1、6、11)的第一、第二主成分大致分布在1.0~1.5之间;a2(古夷苏木)3个样本(2、7、12)的第一、二主成分大致分布在0~0.5之间;a3(孪叶苏木)3个样本(3、8、13)的第一、二主成分大致分布在0点附近;a5(甘巴豆)3个样本(5、10、15)的第一主成分分布在0~0.5之间,第二主成分大致在1.5 ~2.0 之间,识别度不高。

2.1.2 主成分三维得分图

为了更为清晰的区分该5种木材,本文选取3个样本的前三个主成分绘制三维PCA得分图。以第一主成分、第二主成分、第三主成分分别作为坐标轴,得到的三维主成分得分图如图3所示。

由图3可知,三维PCA得分图比二维得分图更为直观地展现5种木材的区别,其中a4(印茄木)与其它四种木材差别更大,识别度较高;a1(爱里古夷苏木)3个样本的第一主成分大致分布在0.5~1.0之间,第二主成分大致分布在 0.0 ~1.0之间,第三主成分大致分布在 -1.0~0.5之间;a3(孪叶苏木)的第一主成分大致分布在0.5~0.0之间,第二主成分大致分布在 -1.0~0.0之间,第三主成分大致分布在-0.5~1.0之间;而a2(古夷苏木)和a5(甘巴豆)样本的主成分较为分散,难以区分。综上所述,三维PCA得分图对木材的辨识度更高,同种木材的3个样本投影更为紧密,便于识别,但识别准确度有待进一步提高。

图3 三维PCA得分图Fig.3 The score plot of three-dimensional PCA

2.2 基于聚类分析的木材定量分析模型

本文选取10种样品木材的3个样本,其中样品I中的10种木材依次标号为a1~a10,样品II依次标号为a11~a20,样品III依次标号为 a21~a30,利用SAS软件中的系统聚类法对降维后的16个主成分数据进行聚类分析。结果表明,判别准确率为83.33%;鉴于木材种类增多且样本量较少时识别谱系聚类图较为复杂,识别难度较大,具有一定的局限性。

2.3 基于贝叶斯判别的木材定量分析模型

本文选取10种木材红外光谱的3个样本所预处理后的主成分数据,建立了贝叶斯判别模型。其中3个样本依次(Obs)标号为1~30,每个样本中的10种木材按类别(TYPE)依次标号为1~10,判别结果如图4和图5所示。

从图4中可以看出,样本I中的第2类木材判错,样本II中的第10类木材判错,样本III中的第1类和第2类木材判错,由图5可知贝叶斯判别错误率为13.33%,即木材识别准确率为86.67%,相比聚类分析操作简便、结果直观,在木材红外光谱识别上具有一定的先进性,判别效果较好。

图4 交叉验证判别分类的样品及其相关信息Fig.4 Samples of cross validation discriminant classification and related information

图5 贝叶斯判别结果Fig.5 The result of Bayes discriminant

2.4 基于支持向量机的木材定量分析模型

2.4.1 网格搜索法优化SVM模型

本文选取10种木材的3个样本预处理后的红外光谱数据,依次调整支持向量机的训练集和测试集,建立了基于网格搜索法的支持向量机分类模型。选取径向基核函数,利用网格搜索法寻找惩罚参数C和核函数γ的最优值。搜索范围为2-7~27,支持向量的数目为20,10种木材的标签依次为1~10。

首先选取样本I和样本Ⅲ为训练集,样本II为测试集,图6为网格搜索法参数选择的3D视图,由图可知,最优的参数C和γ均为0.007 812 5,交叉验证的最高的判别准确率为65%,带入支持向量机模型的判别结果如图7所示。结果表明,训练集整体分类准确率为100%,测试集准确率为70%,其中第4、7和10类木材即印茄木、翅雌豆木、条纹乌木判错,历时3.09 s。

图6 网格搜索法参数选择的3D视图Fig.6 3D view of parameter selection with grid search method

图7 网格搜索法模型判别结果Fig.7 The discriminant result of grid search method

继而选取样本II和III为训练集,样本I为测试集,得到最优的参数C和γ均为0.0078125,交叉验证的最高的判别准确率为60%,带入支持向量机模型得到测试集的判别结果表明,训练集整体分类准确率为100%,测试集准确率为90%,只有第6类木材即紫心苏木判错,历时2.49 s。

最后选取样本I和II为训练集,样本III为测试集,得到最优的参数C为1,最优的γ为0.1,带入支持向量机模型得到判别结果表明,训练集整体分类准确率为100%,测试集准确率为100%,没有判错,历时2.54 s。

综上所述,网格搜索法在选取样本Ⅰ和Ⅱ为训练集,样本Ⅲ为测试集时判别准确率最高,达到100%,三次实验的平均判别准确率为(70%+90%+100%)/3=86.67%。

2.4.2 遗传算法优化SVM模型

本文选取10种木材的3个样本预处理后的红外光谱数据,依次调整支持向量机的训练集和测试集,建立了基于遗传算法的支持向量机分类模型。试验样本及数据预处理情况同2.4.1。选取径向基核函数,利用遗传算法寻找惩罚参数C和γ核函数的最优值。遗传算法采用随机遍历抽样(Stochastic universal selection)进行选择,种群大小为20,进化代数为200,交叉概率Px=0.7,变异概率Pm=0.7,惩罚参C的变化范围 [0,100],核参数γ的变化范围 [0,1000],和连接在一起可组成一个17位二进制数即个体的基因型。

首先选取样本ⅠI和样本Ⅲ为训练集,样本Ⅱ为测试集,根据进化代数与适应度值关系所做的曲线可知,最优的 C为 0.239 8,最优的 γ为153.796 3,交叉验证的最佳分类准确率为65%,遗传算法所用时间为61.02 s。带入支持向量机模型得到判别结果表明,训练集整体分类准确率为100%,测试集准确率为70%,其中第4、9和10类木材即印茄木、榄仁木、条纹乌木判错。

继而选取样本II和III为训练集,样本I为测试集,根据进化代数与适应度值关系所做的曲线如图8所示。由图可知,最优的C为0.341 5,最优的γ为477.457 5,交叉验证的最佳分类准确率为60%,遗传算法用时54.81s。带入支持向量机模型得到判别结果如图9所示。结果表明,训练集整体分类准确率为100%,测试集准确率为100%,没有判错。

图8 遗传算法的适应度曲线Fig.8 Fitness curve of GA method

图9 遗传算法模型判别结果Fig.9 The discriminant result of GA method

最后选取样本Ⅰ和Ⅱ为训练集,样本Ⅲ为测试集,由于搜索时间过长,没有明显优化效果,这里不再赘述。综上所述,遗传算法在选取样本II和III为训练集,样本I为测试集时判别准确率最高,达到100%,平均判别准确率为(70%+100%)/2=85%。

3 结论

结合红外光谱的定性分析与定量分析技术,建立了木材树种的识别模型。在定性分析中,绘制了红外光谱样本的二维和三维主成分得分图,对木材种类进行初步判别。在定量分析中,木材的聚类分析与贝叶斯判别模型的分类准确率分别为83.33%和86.67%,而在网格搜索法与遗传算法优化的支持向量机模型中,分类准确率均可达到100%,且平均判别准确率依次为86.67%和85%。结果表明,主成分投影判别法可用于小样本木材的分类研究中,三维得分图比二维得分图更为直观,易于区分;当木材种类增多时,相比聚类分析,贝叶斯判别操作较为简便;而智能算法优化的支持向量机模型更为成熟,一定程度上减少了样本量不足对实验结果的影响,其中网格搜索法学习过程较为迅速,分类效果与遗传算法相当,均适用于木材分类,可为木材识别研究提供科学的参考依据。

[1]汪杭军,张广群,祁亨年,等.木材识别方法研究综述[J].浙江林学院学报,2009,26(6):896-902.

[2]贾潇然,刘迎涛.树种识别技术的研究进展[J].林业机械与木工设备,2009,37(9):15-10.

[3]张 洁,袁鹏飞,李 君.木材识别与鉴定技术研究综述[J].湖北林业科技,2015,44(2):30-35.

[4]高 萌,王霓虹,李 丹,等.基于主成分、聚类与SVR组合算法的森林生物量估算方法研究[J].森林工程,2014,30(6):17-21.

[5]邵滢宇,丁柏群.基于聚类分析的地铁站点分类——以哈尔滨地铁1 号线为例[J].森林工程,2015,31(3):106-111.

[6]付殿敬,徐敬领,王贵文.基于Q型聚类分析和贝叶斯判别算法研究储层分类评价[J].科技导报,2011,29(3):29-33.

[7]范 宇,张冬妍,孙丽萍,等.基于SVM的木材干燥过程含水率软测量研究[J].森林工程,2008,24(4):27-29.

[8] Shen D,Shen H P,Marron J S.Consistency of sparse PCA in high dimension,low sample size contexts[J].Journal of Multivariate A-nalysis,2013,115:317-333.

[9] Li Z H,Zhou P F,Li L.Dalian high-tech SMEs growth evaluation based on catastrophe and principal component projection method[J].Journal of Service Science and Management,2009,2(4):282-288.

[10]杨佰娟,郑 立,韩笑天,等.红外光谱技术结合聚类分析用于海洋绿藻分类研究[J].海洋环境科学,2011,30(5):724-726.

[11] Ducinskas K,Drei iene L.Application of Bayes discriminant functions to classification of the spatial multivariate gaussian data[J].Procedia Environmental Sciences,2011,7:212-217.

[12] Massa A,Berman E,Boni A,et al.A classification approach based on SVM for electromagnetic subsurface sensing[J].IEEE T.Geoscience and Remote Sensing,2005,43(9):2084-2093.

[13]张 勇,赵 冰.灰度关联分析结合支持向量机用于近红外光谱研究[J].光谱学与光谱分析,2013,33(2):363-366.

[14]程志颖,孔浩辉,张 俊,等.粒子群算法结合支持向量机回归法用于近红外光谱建模[J].分析测试学报,2010,29(12):1215-1219.

[15]刘 胜,范雅婷.基于近红外光谱分析的多模型建模方法研究[J].林业科技,2014,39(2):20-24.

猜你喜欢
木材遗传算法光谱
基于三维Saab变换的高光谱图像压缩方法
橘子皮用来开发透明木材
数字说
木材在未来建筑设计中的应用分析
一种基于遗传算法的聚类分析方法在DNA序列比较中的应用
基于遗传算法和LS-SVM的财务危机预测
软件发布规划的遗传算法实现与解释
基于改进的遗传算法的模糊聚类算法
星载近红外高光谱CO2遥感进展
苦味酸与牛血清蛋白相互作用的光谱研究