高光谱数据降维对马铃薯分类的影响

2017-11-18 19:55王丽艳薛河儒王洪南
江苏农业科学 2017年18期
关键词:主成分分析马铃薯

王丽艳+薛河儒+王洪南

摘要:高光谱仪器采集光谱数据的波长范围大、波段数据多。如果将这些波段作为模型的输入,数据量大、计算太复杂,必然会影响建模的速度,因此有必要采取合适的算法对高光谱图像的光谱数据进行降维处理。采用主成分分析(principal component analysis,简称PCA)、逐步判别分析、连续投影(successive projections algorithm,简称SPA)方法对马铃薯的光谱数据进行降维处理。主成分分析选出8个特征波段,逐步判别分析选出8个特征波段,连续投影法选出6个特征波段。将降维后的特征波段作为输入,分别建立支持向量机(support vector machine,简称SVM)模型,这3种降维方法的识别准确率均为100%,由于连续投影法选择的波段数少,所以连续投影法是一种较好的降维方法。

关键词:高光谱数据降维;马铃薯;主成分分析;逐步判别;连续投影

中图分类号: TP391.4 文献标志码: A 文章编号:1002-1302(2017)18-0229-04

收稿日期:2016-04-06

基金项目:国家自然科学基金(编号:61461041)。

作者简介:王丽艳(1987—),女,内蒙古通辽人,硕士,主要从事模式识别与图像处理研究。E-mail:1515128328@qq.com。

通信作者:薛河儒,博士,教授,主要从事模式识别与图像处理研究。E-mail:xuehr@imau.edu.cn。 目前,高光谱成像技术广泛应用在无损检测领域,高光谱图像集合了图像信息和光谱信息,图像信息可以反映样本外部品质的一些特征[1];光谱信息则反映样品内部品质,根据内部不同成分对光谱的吸收不同来检测样本物理结构、化学成分,有一举两得的作用,但是光谱信息数据量大,影响建模速度[2]。本试验采用的光谱仪测量的波长范围为380~1 000 nm,光谱分辨率为4.8 nm,平均间隔0.8 nm,采集的马铃薯高光谱图片为388像素×1 004像素,总共有750个波段,即使将6个波段混在一起,也要125个波段。将125个数据作为模型的输入,数据量大、计算复杂,必然会影响建模的速度和精度。因此,有必要采取合适的算法对高维数据进行降维处理,将高维数据映射到低维数据,提取特征波段,对高光谱图像及数据进行快速处理具有重要意义[3-4]。

目前,光谱数据降维已成为高光谱研究领域的热点。丁玲等采用全局等距特征映射(isometric feature mapping,简称ISOMAP)算法[5],对高光谱遥感数据进行非线性降维,使数据具有较好的压缩性,具有良好的降维效果,提高了分类的精度;臧卓等利用主成分分析法对乔木树种进行高光谱数据降维,并使用不同的分类方法对降维后的数据进行分类发现,主成分的个数对分类结果影响比较明显[6-7]。近邻保持嵌入模型虽然可以实现简单、快速、非线性的降维,但是性能严重依赖于所选取的距离度测量度[8],陈新忠等提出一种加权近邻保持嵌入的一种降维方法,改进了这一算法[9]。目前,关于数据降维对马铃薯分类影响的研究较少,因此本研究采用主成分分析[7]、逐步判别、连续投影方法对马铃薯的光谱数据进行降维处理,将降维后的数据作为输入,建立支持向量机种类鉴别模型,实现对费乌瑞它、克新、大西洋等3种马铃薯的种类鉴别。

1 材料与方法

1.1 仪器设备

试验采用基于高光谱图像采集系统,由高光谱成像光谱仪[HyperSpec VNIR(380~1 000 nm)]、高精度扫描云台(Hyperspec Pan&Tilt)、光纤卤素灯系统(PHOTO LIGHT-1 000 W)等部件组成。光谱仪测量的光谱范围是380~1 000 nm,光谱分辨率为4.8 nm,平均间隔0.8 nm。光谱数據分析采用ENVI[国际电话电报公司(Internatinal Telephone and Telegraph Corporation,简称ITT,美国)]软件和Matlab 2011b(MathWorks,内蒂克,美国)来完成。

1.2 样本来源与图像获取

试验选用武川黄马铃薯的3个品种(图1):大西洋、费乌瑞它、克新,选取大小、形状均匀一致的马铃薯各50个,其中每个品种30个作为校正集,20个作为预测集。

高光谱图像在采集过程中,因摄像头传感器中存在暗电流以及各波段下的光源强度分布不均匀,会使高光谱图像数据存在较大噪声,不同波长下的图像亮度值也存在较大差异[10]。因此,在数据分析前,须对高光谱图像进行标定,标定过程为在设定的图像采集参数条件下,采集标准白色校正板的标定图像(W);随后盖上镜头盖,采集全黑的标定图像(B);再按公式(1)对高光谱图像数据进行标定校正,将采集的绝对图像(I)转换成相对图像(R)。

R=I-BW-B。

1.3 光谱数据提取及预处理

利用ENVI软件提取其中3个光线均匀的感兴趣区域,每个感兴趣区域要选择光线均匀的部位,并且越大越好,然后计算3个感兴趣区域的平均反射率,得到的马铃薯平均反射光谱(图2),采用Matlab 2011b软件,对3类马铃薯的光谱曲线进行多元散射校正(muliplicative scatter correction,简称MSC)预处理[11](图3)。

2 结果与分析

利用Matlab 2011b和SAS软件对光谱数据,采用主成分分析、逐步判别、连续投影3种方法进行降维处理。

2.1 主成分分析

通过主成分分析对高光谱数据进行降维[7],累计方差贡献率大于85%的作为主成分,每个主成分都是由原始的各个波长下的图像的线性组合[12]。

PCk表示第K个主成分;αi表示第i个波段的权重系数;Ii表示第i个波段的原始图像。第一主成分的贡献率已经达到85%以上,根据第一主成分各波段的权重系数,选出绝对值最大的权重系数所对应的波段作为特征波段。本试验发现8个特征波段(530.1、621.3、678.9、683.7、799.0、803.8、endprint

875.5、943.0 nm),各波段的主成分载荷如图4所示。

2.2 SAS逐步判别

利用SAS软件进行逐步判别,基本思想为每次引入1个

变量,将其视为“最重要”的变量,同时检测先前引入的变量,如果由于新变量引入使先前的变量的判别能力下降,则将其先前的变量从判别式中剔除,直到判别式中的变量都很显著,逐步筛选结束。逐步判别就是不断检验筛选进来的变量,找出显著变量,剔除不显著变量。利用SAS中STEPDISC过程筛选出对数据的判别具有显著影响的变量。STEPDISC过程的基本语法格式为(1)PROC STEPDISC选项;(2)CLASS分类变量;(3)VAR指标变量,其中PROC语句为必需语句,用于指定分析的过程为STEPDISC逐步判别分析过程。在选项中当引入变量显著水平P为0.000 1,剔除变量的显著水平P为0.01时引入的变量时,达到最大的降维限度。

图5中各变量为x2、x21、x78、x83、x96、x97、x112、x119,对应的波段分别为405.3、496.5、770.2、794.2、856.6、861.4、9334、967.0 mm。

2.3 连续投影

连续投影法能有效解决波长变量之间的共线性问题[13],选择出冗余信息较少的波长。本试验选择6个特征波段。由图6可知,选出的特征波段变量为x2、x11、x57、x62、x66、x86,它们所对应的波段为405.3、448.5、669.3、693.3、712.5、808.6 nm。

2.4 建立支持向量机种类鉴别模型

支持向量机在解决小样本、非线性识别中表现出许多特有的优势。将SVM引入到光谱分析中建立定量或定性模型时常采用径向基核函数(radial basis function,简称RBF),即某种沿径向对称的标量函数。通常定义为空间任意一点到中心之间的欧式距离的单调函数。径向基核函数能实现非线性映射,可以处理系统内难以解析的规律性,具有良好的泛化能力,有很快的学习收敛速度,而且参数较少、计算范围也较小[14]。目前已广泛应用在非线性函数逼近、时间序列分析、模式识别、图像处理、信息处理等[15]。

选用RBF作为核函数需要考虑2个重要参数:惩罚参数c、核参数g。SVM分类模型的精度取决于这2个参数的组合,通常采用交叉验证方法提高预测精度。采用网络搜索来找到较好的1组,先初步设定大的搜索范围,再减小搜索范围,减小步长,找到更优的参数组合,并且提高模型的推广能力。K重交叉验证是SVM中常用的交叉验证方法,因为参数的选择并没有一定的先验知识,必须做某种类型的模型选择(参数搜索)。目的是确定好的(c、g)使分类器能正确地预测未知数据,它是将原始数据随机分成K个模型,用这K个模型最终验证集的分类准确率的平均数作为K-CV下分类器的性能指标。K-CV可以有效避免过学习及欠学习状态的发生,最后得到的结果也具有说服力。

本试验采用K-交叉验证(cross-validation,简称CV)的办法得到最佳参数,初步搜索的范围c=[2-10,…,210],g=[2-10,…,210],K=3,CV=100。该搜索范围内的得到最佳参数c=1 024,g=1 024。SVM模型得到准确率为100%,鉴别结果如图7所示。由图7可知,3种降维方法都可以将3种马铃薯准确分类。

3 结论

高光谱仪器采集光谱数据的波长范围较大、波段数较多。如果将这些波段作为模型的输入,数据量太大、数据冗余、计算太复杂,必然会影响建模的速度和精度。本研究采用主成分分析、逐步判别分析、连续投影等方法对马铃薯的光谱数据进行降维处理,主成分分析选出8个特征波段,逐步判别分析选出8个特征波段,连续投影法选出6个特征波段。将降维后的数据分别作为输入,建立支持向量机数学模型,识别准确率为100%。3种降维方法中,连续投影法能有效解决波长变量之间的共线性问题,选择出冗余信息较少的波长,自由选择波段个数,并实现对马铃薯的准确分类,所以连续投影法可以作为光谱数据降维常用的一种方法。

由于本试验只是分别针对大西洋、费乌瑞它、克新等3种马铃薯进行的分类,并且3种马铃薯的光谱形状差距较大,使降维比较容易,因此今后要将更多的品种考虑进来,提高降维的准确度,使模型更加稳定。

参考文献:

[1]臧 卓,林 辉,孙 华,等. 南方主要针叶树种高光谱数据降维分类研究[J]. 中南林业科技大学学报,2010,30(11):20-25.

[2]朱 艳,刘晓莉,杨哲海. 高光谱数据的降维及Tabu搜索算法的应用[J]. 测绘科学技术学报,2007,24(1):22-25,29.

[3]高 阳. 高光谱数据降维算法研究[D]. 徐州:中国矿业大学,2013.

[4]柳萍萍,林 辉,孙 华,等. 高光谱数据的降维处理方法研究[J]. 中南林业科技大学学报,2011,31(11):34-38.

[5]丁 玲,唐 娉,李宏益. 基于ISOMAP的高光谱遥感数据的降维与分类[J]. 红外与激光工程,2013,42(10):2707-2711.

[6]臧 卓. 南方主要乔木树种高光谱数据降维组合分类算法研究[D]. 长沙:中南大学,2013.

[7]臧 卓,林 辉,杨敏华. 利用PCA算法进行乔木树种高光谱数据降维与分类[J]. 测绘科学,2014,39(2):146-149.

[8]李 娜,赵慧洁,贾国瑞. 因子分析模型的高光譜数据降维方法[J]. 中国图象图形学报,2011,16(11):2030-2035.

[9]陈新忠,胡汇涓,王雪松. 基于加权近邻保持嵌入的高光谱数据降维方法[J]. 中国矿业大学学报,2013,42(6):1066-1072.

[10]孙墨寒. 高光谱数据误差估计及降维方法研究[D]. 北京:中国地质大学,2013.

[11]杨珺雯,张锦水,朱秀芳,等. 随机森林在高光谱遥感数据中降维与分类的应用[J]. 北京师范大学学报(自然科学版),2015,51(增刊1):82-88.

[12]臧 卓,林 辉,杨敏华. ICA与PCA在高光谱数据降维分类中的对比研究[J]. 中南林业科技大学学报,2011,31(11):18-22.

[13]高 阳,王雪松,程玉虎,等. 基于非负稀疏嵌入投影的高光谱数据降维方法[J]. 中国矿业大学学报,2012,41(6):1010-1017.

[14]臧 卓,林 辉,杨敏华. 基于PSO-SVM的高光谱数据降维的可靠性研究[J]. 中国农学通报,2011,27(31):47-52.

[15]金鹏磊. 空谱联合高光谱数据降维与分类方法研究[D]. 西安:西安电子科技大学,2014.付焕森,王郭全,夏华凤,等. 农产品保鲜冷库的PLC控制与关键技术研究[J]. 江苏农业科学,2017,45(18):233-236.endprint

猜你喜欢
主成分分析马铃薯
马铃薯有功劳
马铃薯种植中常见不良现象的发生原因及预防
春栽马铃薯种植技术
定边马铃薯
基于NAR模型的上海市房产税规模预测
主成分分析法在大学英语写作评价中的应用
江苏省客源市场影响因素研究
SPSS在环境地球化学中的应用
胖胖的马铃薯
秋马铃薯栽培技术