基于SVC的苎麻褐斑病叶片高光谱识别

2020-03-26 12:05汪佩佩崔国贤曹晓兰
激光生物学报 2020年1期
关键词:褐斑病个数波段

汪佩佩,崔国贤,李 运,曹晓兰*

(湖南农业大学 a.信息与智能科学技术学院; b.苎麻研究所, 长沙 410128)

苎麻(BoehmeirianiveaL.)是我国的特产,作为一种传统的纤维作物,我国苎麻种植面积和原料产量占世界的95%以上[1],有着较高的经济地位。褐斑病是苎麻常见的病种,染病时叶面能形成大小不一的不规则形病斑,并产生大量生孢子进行再侵染,导致病害迅速蔓延,严重影响苎麻产量和品质。以往对苎麻褐斑病的监测和诊断主要基于肉眼观测结合实验室进行病原分析,过程复杂,而且受各种主客观因素的影响,时效性差。随着高光谱技术的发展,以高光谱技术为基础,以计算机数据分析处理为辅助手段的无损光学检测和诊断技术使得农作物精准生产成为可能。当前,基于高光谱的作物病害识别在水稻纹枯病和叶瘟病[2,3]、柑橘黄龙病[4,5]、小麦条锈病和赤霉病[6,7]、苹果Marssonina斑病[8]等上均有研究,其研究内容一般包括作物健康和病害高光谱差异分析、病害敏感光谱区域确定、高光谱数据降维和病害识别模型建立:

1)作物健康和病害高光谱差异分析。叶片对光谱的吸收和反射受色素、水分、细胞结构等因素影响,因此不同生长和健康状况的作物,其光谱曲线也会不同,特别是在绿色植物高光谱曲线上特有的绿峰、红谷和红边等位置及其反射率上,更容易发生改变。因此很多研究对二者差异的比较主要在这几个位置:如,刘燕德等[5]发现柑橘黄龙病叶片在绿峰的反射峰高于正常叶片,而在720 nm左右正常叶片反射率高于病害叶;黄旭影等[9]发现在刚竹毒蛾危害下的毛竹叶片原始光谱的绿峰和红谷逐渐消失,红边区域斜率明显减小,近红外波段反射率较高;杨兴川等[10]发现银木的健康叶片绿峰比烟煤病叶片要明显,且烟煤病叶片红边有红移现象。

2)确定病害敏感光谱区域是为了去掉冗余和干扰信息,提高准确性,同时光谱范围缩小能减少后续计算量。敏感区域确定一般建立在上一步对健康和病害叶片光谱曲线差异分析基础之上,如王利民等[11]通过分析光谱一阶微分特征确定红边区域(680~780 nm)是春玉米大斑病敏感区域。但该方式不足之处是主观性比较强,而有研究则采用了更为客观的标准,如采用单因素方差分析原始光谱和一阶光谱,选择差异达极显著水平(P<0.01)的波长为敏感区域[9];或通过相关性分析,取相关系数绝对值较大区域为敏感区域[10]。

3)高光谱数据降维是指利用特定方法,提取特征变量,作为后续建立识别模型的输入变量,方法有主成分分析(principal components analysis,PCA)、连续投影算法(successive projections algorithm,SPA)、竞争性自适应重加权算法(competitive adaptive reweighted sampling,CARS)等;而建立基于高光谱的作物病害识别模型是利用模式识别方法建立定性模型,常用的模式识别方法有支持向量分类(support vector classification,SVC)、判别分析(discriminant analysis,DA)、误差反向传播神经网络(back propagation neural network,BPNN)、决策树、极限学习机等。

对于不同作物和病害,确定了病害敏感区域之后,采取何种“降维方法”+“模式识别方法”组合效果最佳需要多次尝试和比较:李志伟等[2]建立水稻纹枯病识别模型采用基于最小噪声分离变换算法提取特征信息,分别于DA和BPNN组合,发现BPNN建模效果更佳,预测集正确率达98.4%;Yao等[6]在建立小麦白粉病、条锈病识别模型时,采用PCA-载荷法、连续投影算法和竞争性自适应重加权算法等方法降维,用最小二乘-支持向量机和极限学习机分类,各组合的识别模型准确率均在94.58%以上,其中以PCA-载荷法+极限学习机组合建模型最优,识别率可达100%;梁琨等[7]建立小麦赤霉病识别模型时,分别用SPA和CARS降维,组合SVC和BP神经网络,发现SPA+SVM效果最优。

本研究在了解苎麻褐斑病叶片和健康叶片高光谱响应特性异同的基础上,基于离散系数筛选敏感子波段,然后采用PCA方法对各子波段进行数据降维,选择不同个数的主成分作为特征变量,分别建立各子波段的SVC苎麻褐斑病识别模型,对比各模型的效果,获得最佳建模方案,为利用高光谱开展苎麻叶片褐斑病诊断探索一种快速高效的新方法。

1 材料与方法

1.1 仪器设备

高光谱数据采集设备选用美国ASD公司生产的FieldSpec3便携式地物光谱仪和配套的手持叶片夹持器,光谱仪波段范围为350~2 500 nm,叶夹器具有内置石英卤化灯,光源稳定。采用的光谱数据分析处理软件有Excel、Spss Statistics和Umscrambler。

1.2 样本采集与划分

样本采集于2018年5月和7月苎麻旺长期,在湖南农业大学国家麻类长期定位试验点(28°10′N,113°4′E)进行,采集样本时,选择中等危害程度的褐斑病叶片,健康叶片则选择同株、位于中层的旺盛叶片。测量叶片高光谱时,避开叶脉,将叶夹器夹紧叶片所测部位,沿主叶脉左右各采集2个点,共4个采样点,取平均值代表该叶片的高光谱数据,本研究均以叶片光谱数据做为分析对象。同时,为消除光谱数据在采集时首端与末端产生的噪音,选择420~2 450 nm之间的光谱数据进行分析。

健康叶片和褐斑病叶片高光谱数据各采集了215个,一共430个样本,每种样本按2∶1比例随机分成训练集和预测集。训练集用于建立褐斑病识别模型;预测集不参与建模,仅用于评测模型的准确率。

1.3 数据处理与分析

1.3.1 数据降维方法

全波段的高光谱数据虽然信息全面,但维度高,数据量大,其中存在大量无效、冗余和干扰信息,这不仅会增加建模计算量,并且会降低模型的稳定性、可靠性。因此在满足一定精度要求的前提下,通过特定方法对全波段数据降维,筛选、提取出更有代表性的特征参数建模,不仅可以节约计算成本,还能提高模型的质量。本文对数据的降维分为两个步骤,先基于离散系数筛选敏感子波段,然后对子波段采用PCA方法提取特征参数。

1.3.1.1 基于离散系数的敏感子波段筛选

离散系数是一组数据的标准差s与其相应的平均数x之比,标准差s的计算公式为:

s=i=1n(xi-x)2n-1

其中,x1,x2,……xn为样本数据;n为样本量;x为样本平均数。

离散系数能够反映样本数据的差异,离散系数大的数据,差异程度大,反之则差异程度小。本研究提出一种基于离散系数筛选敏感子波段的方法:先求褐斑病叶片和健康叶片高光谱反射率均值,再计算二者在各波长的离散系数,设置合理阈值,筛选出离散系数较大,即数据差异大的波段,选择这些波段作为褐斑病敏感子波段进行下一步处理。

1.3.1.2 子波段主成分分析PCA

PCA方法通过线性变换,将原始变量映射到一个新的坐标系统中,使得任何数据投影的最大方差在第一个坐标(第一主成分P1),第二大方差在第二个坐标(第一主成分P2)上,……,依此类推。经转换得到的新变量相互正交,互不相关,消除了众多共存信息中相互重叠的部分,同时这些新变量要尽可能多地表达原变量的数据特征而不丢失信息[12]。PCA的主要统计量包括3个:特征值λ,它反映的是原始变量的总方差在各成分上重新分配的结果;各成分的贡献率,即各成分所包含的信息占总信息的百分比;前k个成分的方差累积贡献率[13]。由于转化后得到的主成分保留了原始变量的绝大多数信息,因此可以代替原始变量用于建模,所得结果多半优于利用原始变量直接建模。

主成分个数的选择标准有几种:1)取所有特征值λ大于1的成分;2)根据方差累积贡献率达到的百分比值(如85%)的前l个主成分;3)依据所建模型的结果而定[14]。本文对上一步筛选出来的敏感子波段进行PCA二次降维,选择合适的主成分个数作为建模的特征变量。

1.3.2 支持向量分类SVC

和很多传统分类方法相比,SVC能有效降低噪声、提高学习效率,广泛应用于模式识别[15],在解决小样本、非线性和高维的二分类和回归问题上有许多优势[16],在高光谱分类上也有比较好的效果。SVC的基本思路是:找到两个相互平行且间距最大,并能将属于不同类别的样本点正确分开的边界,位于两边界中间位置并与之平行的超平面称为最大边界超平面,即为最终解。

对于线性不可分的问题,SVC采用映射的方法将其转化为高维空间中的线性可分问题,并且通过核函数计算出转换处理后的内积结果来解决从低维空间转换到高维空间产生的维灾难问题。本研究中采用径向基核函数(radical basic function kernel,RBF)。

1.3.3 定性模型的评价

定性模型的评价以预测集准确率结合建模特征变量个数为主:准确率越高,模型效果越好;参与建模的特征变量个数越少,计算量越小越好,但个数太少,可能会导致失去一部分有效信息,使得建模准确率降低,因此二者需要权衡考虑。

2 结果与分析

2.1 褐斑病与健康叶片高光谱特性

分别对样本中的褐斑病和健康叶片高光谱反射率取均值,其均值曲线如图1所示,从图1中可知褐斑病叶片高光谱反射率整体高于健康叶片;在550 nm左右的绿峰区域差异比较明显;从红谷区域陡然上升到高平台区之后,在700~1 400 nm区域,二者反射率差异较小;但在1 400 nm之后的两个波峰区域,健康叶片反射率明显又低于褐斑病叶片。

图1 褐斑病和健康叶片高光谱波形Fig.1 The hyperspectral waveformsof brown spot leaves and healthy leaves

求二者离散系数,其曲线如图2所示。由图2可知,离散系数反映出来的二者差异特性与图1基本吻合:在550 nm左右的绿峰区域、1 430 nm左右和1 920 nm之后区域离散系数较高;而在在700~1 400 nm区域离散系数较小。表明这几个区域是敏感波段区域。

图2 褐斑病和健康叶片高光谱数据离散系数Fig.2 The variation coefficient of the hyperspectral data of both the brown spot leaves and the healthy leaves

2.2 波段选择

根据所求得的离散系数值,以0.1为阈值,选择离散系数≥0.1的波段作为后续PCA的子波段,共筛选出4个波段,各子波段情况如表1所示。

表1 子波段情况Tab.1 The sub bands

2.3 PCA结果及主成分个数确定

为了对比不同波段对建模结果的影响,分别对全波段、全部子波段(即波段A+B+C+D)、波段A、波段B、波段C和波段D作PCA分析。各波段参与PCA的波长个数分别为2 013个、838个、126个、25个、106个和581个,各波段PCA结果的前10个主成分特征值λi和累积方差贡献率如表2所示。

根据表2中结果可知,若按照特征值λ>1或累积贡献率>85%为主成分个数选择标准,两个标准得到的主成分个数差别较大。因此,为了确定最佳主成分个数,本研究选择1~10个主成分作为特征变量,分别建立各个波段的SVC(RBF)模型并进行预测,比较不同主成分个数对模型正确率的影响,再根据模型预测集正确率拐点决定主成分个数。

2.4 SVC建模结果

各波段选择1~10个主成分,以训练集数据,分别建立不同主成分个数的SVC(RBF)识别模型,然后将预测集数据代入模型,统计其各模型的预测正确率,正确率曲线如图3所示,训练集和预测集详细正确率如表3所示。

图3 预测集正确率Fig.3 Predictive set accuracy

从图3可知,所有波段正确率均是先随着主成分个数增加而增大,但当个数增至某点时,正确率均会减少,说明该点之后有过拟合的情况,这是需要避免的[14]。因此本研究以预测集正确率的拐点作为最佳主成分个数的选择标准。由表3可知,全波段、全部子波段、波段A、波段B、波段C和波段D的拐点分别为第2、第4、第3、第4、第5和第5个主成分,其对应的正确率分别为83.8%、91.6%、85.2%、88.0%、93.0%和92.3%。

所有波段拐点的正确率中,以波段C最高(93.0%),全波段最低(83.8%)。而波段C参与PCA的波长个数比较少(106个),仅多于波段B(25个),最佳主成分个数为5个,没有明显高于其他波段,因此综合权衡,本文认为用波段C建模正确率和计算量最佳。

表2 主成分分析结果Tab.2 The result of PCA

表3 训练集和预测集正确率(%)Tab.3 Accuracy of train set and predictive set(%)

3 讨论

3.1 健康与褐斑病叶片高光谱差异原因

在350~2 500 nm光谱区域内,健康的绿色植物光谱反射率曲线变化特性非常相似,且有明显的规律[17]:380~780 nm可见光波段,光谱特性主要受各种叶色素的支配,特别是在550 nm左右的绿峰区,是叶绿素的强反射区;而在1 350 nm之后的波段,其反射率与水分、二氧化碳和植物本身的生物学特性有关。

褐斑病叶片颜色偏黄,表明其叶绿素含量低于健康叶片,因此对绿色波长的光吸收较少,在光谱曲线上表现为绿峰的峰值明显高于健康叶片,相对应的离散系数也较高;1 430 nm左右和1 920 nm之后区域离散系数较高,本文推测也许与褐斑病叶片水分明显减少导致叶片在该区域对光的吸收减少,反射增加有关,这需要做进一步研究证实。

3.2 敏感波段的筛选

本文提出的利用离散系数筛选敏感波段的方法,从预测集正确率可知,未经筛选的全波段模型拐点正确率最低(83.8%),而其他各子波段模型(包括全部子波段)拐点的正确率均高于全波段模型,可见,该方法在阈值设置合理的情况下,不仅降维效果十分明显,而且能准确获取最具有识别能力的子波段,为敏感波段的筛选提供了一个新的方法。

各子波段中,波段C波长个数为106个,为全波段(2 013个)1/20左右;模型拐点正确率达到93.0%,主成分个数为5个,综合权衡,波段C为最敏感波段。

3.3 PCA主成分个数选择

PCA主成分个数选择时,若主因子太少,将会丢失原始光谱较多的有用信息,拟合不充分;但选择的主成分太多,将测量噪声过多地包括进来,会出现过拟合现象,所建模型预测误差会显著增大[12]。

由表2可知,波段C仅用1个主成分就能代表99.71%的原始数据信息,但由图3曲线走势可知,适当增加主成分个数可以较大幅度提高模型正确率,但当主成分个数超过某个值之后,所有正确率曲线均呈现下降或者趋于平缓的走势,这说明正确率与主成分个数并不完全成正比,这一点与前人研究结果吻合[18,19]。

综上所述,采用离散系数筛选子波段,各子波段参与PCA的波长个数有较大幅度减少,且子波段模型的正确率明显高于全波段模型。可见基于离散系数筛选子波段不仅能较大幅度降低PCA计算量,还能有效地减少冗余和噪声,提高模型准确率。综合考虑波长个数、正确率和最佳主成分个数等因素,波段C(1 406~1 511 nm)不仅波长个数较少(106个),而且建模效果最佳,主成分个数为5个时,其预测集准确率达到93.0%。因此,应用分波段PCA结合SVC方法建立基于高光谱的苎麻叶片褐斑病识别模型是可行的,选择1 406~1 511 nm区域进行PCA分析,然后选取5个主成分作为特征变量建立SVC(RBF)的识别模型是最优方案。

猜你喜欢
褐斑病个数波段
苹果园褐斑病防治正当时
最佳波段组合的典型地物信息提取
怎样数出小正方体的个数
高温多雨 注意防治苹果褐斑病
楚雄州桑树褐斑病发生规律研究
等腰三角形个数探索
怎样数出小木块的个数
苹果褐斑病的发生与综合防治
怎样数出小正方体的个数
基于PLL的Ku波段频率源设计与测试