基于改进鲁棒多分类SVM的烟叶颜色分级分类方法研究

2021-02-22 06:47王天旺解立明刘文王欣
机电信息 2021年5期
关键词:鲁棒性支持向量机

王天旺 解立明 刘文 王欣

摘要:提出了一种基于改进鲁棒多分类SVM的烟叶颜色等级分类方法,将烟叶图像颜色转为HSV空间。该方法提取烟叶上、中、下三个区域一、二、三阶颜色矩作为分类特征,改进SVM分类器对各色组离群训练样本的约束,减少依赖,提高分类模型对样本分类的精确度。在改善SVM二分类器的基础上采用一对多的多分类策略,实现烟叶颜色6个等级的识别判断。试验结果表明,改进鲁棒性SVM方法下所训练模型对未来烟叶颜色等级的识别率比HL-SVM方法的识别率高6.29%。

关键词:烟叶颜色分级;支持向量机;分类模型;鲁棒性

0 引言

近年来,基于煙叶图像特征分级的研究已经有大量文献报道[1-3],在图像特征基础上,提取烟叶颜色特征,运用神经网络[1]、支持向量机(SVM)[2-3]等分类方法对烟叶进行分级,取得了一定的效果。研究结果显示,SVM模型相较神经网络模型,表现出了更好的泛化能力。然而SVM模型也存在问题,如SVM模型易受训练样本的影响,对离群训练样本数据比较敏感,存在分类性能不稳定的问题。鉴于此,有学者提出了一种基于Hinge代价函数的鲁棒SVM方法(即HL-SVM)[4],改善离群样本对SVM分类模型的影响。但此方法只对训练样本中离群程度轻的影响约束有效,而约束离群程度大的训练样本则会导致所得分类模型的泛化能力降低。

烟叶各颜色等级的颜色特征存在相关性,特别是杂色组(即K色组)与其他色组的颜色特征的相关性极高,导致在颜色特征空间存在样本远离其K色组群,分布到其他色组群区域的情况。

因此,在烟叶颜色等级分类中,不可避免地存在离群程度大的训练样本点。为此,本文在提取烟叶颜色三阶矩作为颜色特征的基础上,基于改进SVM方法,提出一种烟叶颜色等级分类方法,有效提高分类模型对未来样本的识别正确率。

1 烟叶分割与特征提取

根据我国发布的42级烤烟国家分级标准[5],烟叶颜色是烟叶分级的重要指标,表征烟叶的成熟度和品质。目前,42级标准中依据成熟程度将烟叶分为柠檬黄色组(L)、橘黄色组(F)、红棕色组(R)、微带青组(V)、黄青色组(GY)、杂色组(K)6个等级。

使用CCD摄像机采集到的烟叶图像是RGB颜色图像,R、G、B三个分量是带有亮度信息的颜色分量,它们之间存在很高的相关性,且亮度容易受到采集环境影响,不利于用作分级参数。HSV颜色模型用色度(H)、饱和度(S)、明度(V)三个分量表示颜色,它符合人类观察颜色的视觉和心理特点,与人工判断颜色的角度一致。此外,明度(V)单独表示亮度信息,与色度和饱和度不具有相关性。因此,本文在获取烟叶RGB图像后,将烟叶图像的颜色空间转换为HSV空间,并分别在其分量中提取之后用作分类特征。

本文先利用GrabCut算法[6]提取图像中的烟叶区域,再计算烟叶区域的颜色矩作为分类特征。颜色矩[7]是由Stricker和Orengo提出的一种非常简单而有效的颜色特征。此颜色矩可表征图像中任何颜色的分布状况。此外,由于颜色分布信息主要集中在低阶矩中,采用颜色的一阶矩、二阶矩和三阶矩就足以表达图像颜色分布。

一阶颜色矩采用一阶原点矩,反映图像整体颜色程度,其具体计算如下:

式中:N为图像烟叶区域像素总数量;j为颜色空间分量(如HVS中,j=1,2,3,分别表示H、V、S分量);pij表示第j个像素的第i个颜色分量。

二阶颜色矩采用二阶中心距平方根,反映图像颜色分布范围,其具体计算如下:

三阶颜色矩采用三阶中心距立方根,反映图像颜色分布对称性,其具体计算如下:

与颜色直方图相比,该方法另一个好处在于无须对特征进行向量化。因此,图像颜色矩一共只需要6个分量(色度和饱和度2个颜色分量,每个分量上3个低阶矩),与其他颜色特征相比,非常简洁。该方法的优点在于不需要颜色空间向量化,特征向量维数低,在后续分类中可以避免数据“分类灾难”[8]问题。

根据42级烤烟国家分级标准,不同颜色等级烟叶上部、中部和下部具有不同颜色特征,因此颜色特征提取时将其分为上、中、下三个区域,并针对三个区域的H分量和S分量计算其一、二、三阶颜色矩,构成{e上H  σ上H  s上H  e上S  σ上S

s上S  e中H  σ中H  s中H  e中S  σ中S  s中S  e下H  σ下H  s下H  e下S  σ下S  s下S}特征向量。

2 基于改进鲁棒性SVM的烟叶颜色等级分类模型

支持向量机(SVM)是一种机器学习的分类技术,通过选择和函数将输入特征向量映射到高维空间,并在该空间构造最优分类超平面,达到分类目的。

相对大数据领域中普遍应用的神经网络方法,SVM在训练样本较少的情况下,其所得分类模型(即分类超平面)具有较好的泛化能力,未来样品测试正确率高。但是,SVM也存在缺点,如SVM存在分类性能不稳定、对训练样本数据比较敏感的问题[9]。

在研究中,烟叶各颜色组的颜色特征具有一定相关性。其中,烟叶K色组的颜色特征与其他色组(F组、L组、R组、V组、GY组)的颜色特征相关性极高,导致各色组训练样本在颜色特征空间分布的相对关系会随训练样本的不同而改变,使得SVM分类超平面较为敏感、不够稳定,从而影响分类的准确性。

在通过如上方法获得烟叶颜色特征的基础上,可改善SVM的鲁棒性能,提高分类模型稳定性和分类准确度,其整个分类模型训练和测试流程如图1所示。

2.1    改进鲁棒性SVM

为了改善SVM的敏感性,文献[4]中的HL-SVM方法引入正则化项,对分类超平面敏感性样本点进行约束,其基本原理如下:假设烟叶训练样本的集合为{xm,ym}M m=1,其中,ym∈{-1,1}表示类别标号,xm表示颜色特征向量。依据HL-SVM的优化方程如下:

其中,wTxi+b=0表示分类超平面,λ>0为正则化参数,函数[]+=max[0,1-yi(wTxi+b)]在优化方程中用以惩罚如图2中(b)(c)和(d)位置的影响分类超平面稳定性和准确性较大的样本,提高分类模型(即分类超平面)训练样本的分类准确度,效果如图2(3)所示。但是,由于(c)和(d)位置样本离其群较远,通过此方法惩罚则会导致分类超平面发生较大变化,降低其对未来样本分类的准确性,效果如图3(3)所示。

鉴于烟叶各色组的颜色特征存在相关性,特别是K色组与其他色组存在较大相关性,在颜色特征空间不仅存在如(b)位置的样本,还必然存在(c)和(d)位置的樣本。

因此,本文采用改进的分类模型的优化方程如下:

ηi判断样本是否为(c)和(d)位置离群样本。如果是,则ηi=0,去除其对应样本参与分类超平面的计算,从而确保分类超平面稳定性和准确性;如果不是,对剩余样本进一步进行计算。0<μ<1,用于决定不参与获得超平面样本的概率。基于此,可提高所得分类超平面的稳定性和对未来样本测试的准确性,效果如图2(2)和图3(2)所示。

2.2    鲁棒性多分类SVM

SVM和相关的鲁棒性SVM都是二分类器,颜色等级具有6个类别。因此,需要选择合适的多分类策略来实现烟叶颜色的多级分类功能。目前,存在一对一(OAO)[10]和一对多(OAA)[11]两种多分类策略。在OAO中,待训练样本要遍历所有二分类器,会产生一部分无效投票,从而降低识别精度;而OAA在训练时依次把某个类别样本归为一类,其他剩余样本归为另一类,可实现更有效的分类。因此,在二分类基础上采用OAA多分类策略实现烟叶颜色等级6级分类。

3 试验结果与分析

试验采集了2019年云南玉溪烟叶,分别为上部B1F、B1K、B1R、…、B3V、B4F、B4L,中部C1F、CIL、C1F、C2L、…、CX1K、CX2K,下部X1F、X2L、…、X4F、X4L,共分柠檬黄色组(L)、橘黄色组(F)、红棕色组(R)、微带青组(V)、黄青色组(GY)、杂色组(K)6个颜色等级,并采集到颜色图像459张。各色组中共选300张作为测试样本,剩余的159张作为未来的测试样本。依据图4的流程,先利用GrabCut算法将图像中烟叶区域提取出来,以减少非烟叶区域对其颜色特征提取产生的影响;再提取烟叶上、中、下三部的9个颜色特征:

{e上H  σ上H  s上H  e上S  σ上S  s上S  e中H  σ中H  s中H  e中S  σ中S  s中S  e下H  σ下H  s下H  e下S  σ下S  s下S}

首先,对9个特征分别作归一化处理,作为训练分类模型输入参数;之后,设定式(5)中参数为0.5,并利用训练样本和式(5)获得其分类模型(即分类超平面);最后,依据分类模型判断159个未来样本所属颜色等级,其结果如图4所示。

为了验证本文方法所得分类模型对烟叶颜色等级分类的适用性,以上述9个颜色特征作为训练分类模型输入,并用HL-SVM方法[4]和本文方法的训练样本与未来测试样本结果进行比较,结果如表1所示。

表1结果显示,本文方法所得分类模型对训练样本的识别率89.33%略微低于HL-SVM方法的结果90.33%,但对未来测试样本,其识别率要比HL-SVM方法的识别率高6.29%。此结果表明本文方法所得分类模型的泛化能力较为优越,对未来样本分类的正确性相对较高,更适合实际使用。同时,其结果还表明本文方法在抗击离群样本对分类模型的影响方面具有一定的优越性。依据上述公式可判断,训练样本识别率降低是由于离群样本没有参与获取分类模型但参与了识别率统计导致,但未来测试样本识别率提高,说明本文方法有效降低了离群训练样本的影响,提高了分类模型的准确性。

4 结语

基于改进鲁棒性SVM的烟叶颜色等级分类方法研究表明,在HSV颜色空间中烟叶颜色一阶矩、二阶矩和三阶矩能很好地体现烟叶颜色特征,并有利于颜色等级分类。本文改进的SVM分类方法能有效降低离群样本影响,提高未来样本识别率。总而言之,本文依据构建改进SVM分类方法以及采用颜色特征,得出烟叶颜色等级分类模型,相较其他SVM分类器所得模型,其能得到较为准确的烟叶颜色等级识别判断,为实现基于计算机视觉烟叶智能化、自动化分级提供了科学依据。

[参考文献]

[1] 顾金梅,吴雪梅,龙曾宇,等.基于BP神经网络的烟叶颜色自动分级研究[J].中国农机化学报,2016,37(4):110-114.

[2] 杨帆,申金媛.基于BPSO和SVM的烤烟烟叶图像特征选择方法研究[J].湖北农业科学,2015,54(2):449-452.

[3] 姚学练,贺福强,平安,等.基于PCA-GA-SVM的烟叶分级方法[J].烟草科技,2018,51(12):98-105.

[4] CHRISTMANN A,STEINWART I.On Robustness Properties of Convex Risk Minimization Methods for Pattern Recognition[J].Journal of Machine Learning Research,2004(5):1007-1034.

[5] 聂和平,李锐.烤烟分级国家标准培训教材[M].北京:中国标准出版社,2004.

[6] KOHLI P,TORR P H S.Dynamic Graph Cuts for Efficient Inference in Markov Random Fields[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(12):2079-2088.

[7] NAVABI M S,BROOGHANI Z A.Content-Based Image Retrieval through Combined Data of Color Moment and Texture[J].International Journal of Computer Science and Network Security(IJCSNS),2017,17(1):94-104.

[8] MYAKALWAR A K,SPEGAZZINI N,ZHANG C,et al.Less is More:Avoiding the LIBS Dimensionality Curse through Judicious Feature Selection for Explosive detection[J].Scientific Reports, 2015,5(1):13169.

[9] DEMIDOVA L,KLYUEVA I,SOKOLOVA Y,et al.Intellectual Approaches to Improvement of the Classification Decisions Quality on the Base of the SVM Classifier[J].Procedia Computer Science,2017,103:222-230.

[10] HUANG J,HU X G,GENG X.An Intelligent Fault Diagnosis Method of High Voltage Circuit Breaker Based on Improved EMD Energy Entropy and Multi-class Support Vector Machine[J].Electric Power Systems Research,2011,81(2):400-407.

[11] XU J H.An Extended One-versus-rest Support Vector Machine for Multi-label Classification[J].Neurocomputing,2011,74(17):3114-3124.

收稿日期:2020-11-27

作者簡介:王天旺(1971—),男,云南玉溪人,工程师,研究方向:电气自动化、软件开发。

猜你喜欢
鲁棒性支持向量机
火电厂烟气脱硝控制系统中的喷氨量优化建模与仿真
武汉轨道交通重点车站识别及网络鲁棒性研究
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
一种基于三维小波变换的鲁棒视频水印方案
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
电子节气门非线性控制策略
基于熵技术的公共事业费最优组合预测
一种基于奇异值分解的鲁棒水印算法