基于多特征融合的植物叶片识别研究

2017-04-26 02:38良,闫民,赵方,*
浙江农业学报 2017年4期
关键词:角点多边形识别率

高 良,闫 民,赵 方,*

(1.北京林业大学 信息学院,北京 100083; 2.北京林业大学 工学院,北京 100083)

基于多特征融合的植物叶片识别研究

高 良1,闫 民2,赵 方1,*

(1.北京林业大学 信息学院,北京 100083; 2.北京林业大学 工学院,北京 100083)

植物叶片识别作为植物自动分类识别的重要分支,有着很高的实际应用价值。针对当前叶片特征描述存在的局限和叶片识别准确率较低的实际,以叶片图像为研究对象,首先对图像进行预处理,在提取叶片几何特征和纹理特征的基础上,设计描述叶片轮廓的距离矩阵和角点矩阵,通过计算基于几何特征、纹理特征和角点距离矩阵的综合相似度对叶片进行精确识别。对Flavia数据集中的32类共计960幅叶片图像进行训练和测试,结果表明,基于叶片图像多特征融合的识别方法对叶片特征描述能力更强,识别准确率更高,对Flavia数据集的识别率可达97.50%,具有较好的识别效果。

叶片识别;几何特征;纹理特征;角点距离矩阵;综合相似度

植物识别是指根据植物特征对植物种类进行判断的过程[1]。传统的植物识别方法有形态学分类法、解剖学分类法、植物化学分类法、细胞分类法等[2],费时且低效,如何利用现代技术手段进行快速准确识别,对满足相关爱好者的植物种类认知需求意义重大[3]。

植物叶片具有多样性,并且比花和果实有更长的生存期,在计算机辅助植物识别中经常使用叶片图像作为研究对象。在国内外研究中,提取的叶片特征主要有上下文特征[4]、颜色特征、形状特征和纹理特征[5-6]等。例如:Wang等[7]提出一种基于叶片形状特征的叶片检索方法;Du等[8]提出一种基于叶片形状的物种识别方法;恩德等[9]提出一种结合叶片几何特征和纹理特征的叶片识别方法。针对叶片的傅里叶功率谱分析[10]、小波分析[11]、分形维数分析[12]等方法也被应用于植物叶片识别。Novotn等[13]通过提取傅里叶描述子、叶片几何参数等特征,对ICL数据集的识别率为79.68%;Nguyen等[14]通过提取SURF特征进行叶片识别,对Flavia数据集的识别率为95.94%;Sumathi等[15]通过提取叶片轮廓参数以及Gabor特征,对197个自收集样本数据集的识别率达95.89%;刘念等[16]通过提取LBP、灰度共生矩阵、Hu不变矩等特征,使用深度信念网络,对植物叶片进行识别。在实际应用中,受光照、成像聚焦程度等因素的影响,叶片的几何特征和纹理特征会有较大浮动,因此有必要寻找一种对叶片特点表征能力更强的特征来对叶片进行描述。

基于以上分析,本研究拟在提取叶片几何特征和纹理特征共计21维特征的基础上,设计描述叶片轮廓的距离矩阵和角点矩阵,通过计算基于叶片几何特征、纹理特征和角点距离矩阵的综合相似度对叶片进行精确识别,为相关研究提供参考。

1 材料与方法

1.1 图像预处理

叶片纹理特征和叶片轮廓对图像的方向敏感,需要对图像进行预处理。由于本研究中提取的特征与颜色无关,可以首先将彩色图像转换为灰度图像。经中值滤波和高斯滤波去掉噪声点后,用大津阈值法将灰度图像转化为二值图像。使用二值图像是为方便提取边缘,并且二值图像的前景部分可作为提取叶片区域的标识。然后使用形态学方法对二值图像进行腐蚀处理,腐蚀后的图像与原二值图像进行与运算,得到叶片边缘图像。然后找到边缘上相距最远的两点,计算最远两点所在的直线与图像横轴的夹角,以这个夹角作为旋转的角度,分别对二值图像和灰度图像进行旋转。二值图像的前景部分为叶片所在的区域,在灰度图的旋转图像中只保留这个区域,得到去掉多余部分的预处理图像结果,预处理的步骤如图1所示。

1.2 植物叶片特征提取

1.2.1 几何特征提取

不同植物物种的叶片形状各有特点,是进行种类识别的重要依据。本文采用10个常用的叶片几何特征和7个不变矩特征对叶片的几何特征进行描述。

(1)

图1 图像预处理步骤Fig.1 Preprocessing steps of leaf images

(2)

(3)

(4)

(5)

(6)

(7)

(8)

(9)

(10)

Hu不变矩具有旋转、缩放、平移不变性,在图像识别领域应用广泛[17]。Hu不变矩依据统计矩原理计算得到,对函数f(x,y)上Hu不变矩p+q阶统计量定义如式(11),式中p,q为非负整数。

(11)

考虑质心(xc,yc)时,式(11)变为式(12):

(12)

(13)

利用归一化的中心统计量推导出7个Hu氏不变量用来描述叶片图像几何特征。

F11:φ1=η20+η02;

(14)

(15)

F13:φ3=(η30-3η12)2+(η03-3η21)2;

(16)

F14:φ4=(η30+η12)2+(η21+η03)2;

(17)

F15:φ5=(η30-3η12)2(η30+η12)[(η30+η12)2-3(η21+η03)2]+(3η21-η03)(η21+3η03)[3(η21+η30)2-(η21+η03)2];

(18)

F16:φ6=(η20-η02)[(η30+η12)2-(η21+η03)2]+4η11(η30+η12)(η21+η03);

(19)

F17:φ7=(3η21-η03)(η30+η12)[(η30+η12)2-3(η03+η12)2]+(3η21-η30)(η12+η03)[3(η12+η30)2-(η03+η21)2];

(20)

至此叶片的几何特征提取完毕,表达式如下:

(21)

1.2.2 纹理特征提取

图2为不同叶片的纹理细节图,可以看出,不同植物的叶片纹理特征不同,纹理特征兼具叶片的全局和局部结构信息。本文采用目前常用的灰度共生矩阵(GLCM)对叶片纹理特征进行提取。

灰度共生矩阵建立在图像的二阶组合条件概率密度基础上,通过计算相邻像素不同灰度值组合出现的次数,反映图像相邻像素关于方向和灰度梯度的信息[18]。在灰度共生矩阵的基础上,可以提取对比度、能量、熵、相关性4个特征来定量描述纹理特征。

(1)对比度。反映图像的对比度,也就是纹理的清晰度。在叶片图像中,纹理的沟纹越深,其对比度越大,图像的视觉效果也就越清晰。

(22)

(2)能量。是对图像灰度分布均匀性的度量。

图2 叶片局部图Fig.2 Local part of leaf

当灰度共生矩阵的元素集中分布于主对角线时,图像的灰度分布比较均匀。从图像的整体来看,纹理越粗,能量越大,即粗纹含有较多的能量,细纹含有较少的能量。

(23)

(3)熵。熵值是图像包含信息量的度量。若图像没有任何纹理,则灰度共生矩阵几乎为0,熵值几乎为0。

(24)

(4)相关性。表征灰度共生矩阵元素在行的方向或列的方向的相似程度。

(25)

至此,叶片的纹理特征提取完毕,表达式如下:

(26)

1.3 基于角点距离矩阵的叶片轮廓描述

在实际应用中,叶片的视觉特征会受光照、成像聚焦程度等影响而发生变化,因此有必要寻找一种对叶片特点表征能力更强的特征来对叶片进行描述。本研究以平面几何中相似多边形定义为理论基础,提出了基于距离矩阵以及角点矩阵的叶片轮廓描述方法,通过计算角点距离矩阵的相似度来实现叶片精确识别。

1.3.1 叶片轮廓多边形序列提取

由于原始叶片轮廓点序列太多,严重影响计算性能,不适合直接用于轮廓匹配,故利用Douglas-Peucker算法[19]将叶片轮廓用多边形进行拟合。图3为三角枫与多边形的拟合效果,当多边形边数取46时,多边形基本与原叶片拟合;当多边形边数取21时,虽然拟合误差相对较大,但泛化程度较高。

1.3.2 距离矩阵与角点矩阵定义

距离矩阵是由1.3.1节中多边形序列之间

图3 多边形拟合效果图Fig.3 Polygon fitting effect

的欧氏距离所建立的N维方阵,其行是当前点与其余序列点之间的相对欧氏距离[20]。为方便下步计算矩阵间的相似度,将矩阵循环左移1列,确保主对角线不全为0。以叶片长轴左端点为多边形的起始顶点,假设多边形有n条边,则归一化的距离矩阵的数学描述如式(27)所示。

(27)

式(27)中d=max(d1,1,d1,2,d1,3,…,dn,n),di,j表示多边形第i个顶点到第j个顶点的距离。

角点矩阵由多边形中相邻两条边的夹角组成,元素值为夹角度数,起点与距离矩阵相同,式(28)为与距离矩阵D一一对应的角点矩阵C。

(28)

距离矩阵与角点矩阵具有平移不变性,距离矩阵通过归一化处理还具有缩放不变性。

1.3.3 角点距离矩阵相似度计算

设DA和DB分别表示待匹配距离矩阵和目标距离矩阵,CA和CB分别表示待匹配角点矩阵和目标角点矩阵,约定0/0=1,那么2个矩阵中元素间的相似度可以通过以下公式得出。

(1)距离矩阵中元素间相似度

(29)

(2)角点矩阵中元素间相似度

(30)

(3)矩阵中元素间综合相似度

Si,j=ω0×SC+ω1×SD。

(31)

式(31)中,ω0表示角点矩阵中元素间相似度权重值,ω1表示距离矩阵中元素间相似度权重值。

(4)最大子匹配长度计算

设ε表示矩阵元素间相似度阈值,sigm(i,j)表示距离矩阵DA主对角线第i位、角点矩阵CA第i位与距离矩阵DB主角线第j位、角点矩阵CB第j位的相似度,大于等于阈值时为1,否则等于0。

(32)

设距离矩阵DA主对角线和角点矩阵CA第a位与距离矩阵DB主角线和角点矩阵CB第b位之前的最大子匹配长度为f(a,b)。采用动态规划算法通过对f(a,b)进行回溯,可找到最长子匹配矩阵序列。

f(a,b)=max[f(a-1,b-1)+sigm(a,b),f(a-1,b),f(a,b-1)]。

(33)

设p与q分别表示2个距离矩阵的匹配起点,u表示最大匹配长度,根据相似多边形定义可知,相似多边形对应角相等,对应边成比例,通过式(34)计算角点距离矩阵沿主对角线的相似度:

(34)

1.4 基于多特征融合的叶片种类识别模型

将传统的基于几何特征和纹理特征的相似度与基于角点距离矩阵的相似度相融合,通过计算综合相似度对叶片进行精确识别,具体流程如图4。

(1)基于几何特征和纹理特征的相似度。在叶片识别中,由于植物种类繁多,每一类的样本量不会太大,因此首先提取训练样本的几何特征和纹理特征。在训练阶段使用支持向量机(SVM)算法对提取到的几何特征和纹理特征进行训练学习;在分类阶段,提取分类样本的几何特征和纹理特征,计算得到分类样本基于几何特征和纹理特征的相似度。

图4 基于多特征融合的叶片种类识别模型Fig.4 Leaf image recognition model based on fusion of multiple features

(2)基于角点距离矩阵的相似度。在训练阶段构建训练样本的角点距离矩阵特征库;在分类阶段首先构建待分类样本的叶片轮廓角点矩阵与距离矩阵,然后与角点距离矩阵特征库做比对,计算得到分类样本基于角点距离矩阵的相似度。

(3)综合相似度。利用式(35)进行计算,其中,TA,B为基于几何特征和纹理特征的相似度,SA,B为基于角点距离矩阵的相似度。

F=TA,B+SA,B。

(35)

最后,对综合相似度进行排序,相似度最高的即为识别结果。

1.5 实验数据来源

为验证本研究方法的有效性,选取Flavia数据集进行实验。Flavia数据集是叶片图像库,涵盖32个植物物种,其图像背景均为白色,叶片为自然色。实验中采用了图5中32类共计960幅叶片图像作为训练及测试样本,每类叶片总样本图像的2/3作为训练样本,其余作为测试样本。

图5 实验用32类叶片图像样本Fig.5 Thirty-two classes of leaf samples used in experiments

2 结果与分析

为比对本研究所用叶片种类识别方法与其他方法的识别效果,对实验样本分别采用不同特征组合进行识别,统计不同特征组合下的识别率,结果如表1所示。

从表1数据可知:在叶片种类识别中,叶片几何特征对识别率贡献最大;组合特征的识别率高于单一特征的识别率;在利用几何特征和纹理特征的基础上,加入基于角点距离矩阵方法后,识别率有了较大程度的提高。单独基于几何特征和纹理特征与基于多特征融合2种方法对每类叶片的识别率如表2所示。

表1 基于不同特征的叶片识别率

Table 1 Recognition rate based on different features

采用特征Features识别率Recognitionrate/%几何特征Geometricfeatures82.50纹理特征Texturefeatures74.17角点距离矩阵Cornerdistancematrix80.63几何特征+纹理特征Geometricfeaturesandtexturefea-tures90.63几何特征+纹理特征+角点距离矩阵Geometricfeatures,texturefeaturesandcornerdistancematrix97.50

表2 不同方法对每类叶片的识别率

Table 2 Recognition rate for each class of leaf based on different methods

类别Leafspecies识别率1Recognitionrate1/%识别率2Recognitionrate2/%类别Leafspecies识别率1Recognitionrate1/%识别率2Recognitionrate2/%19010017100100250100181001003100100199010041009020809051001002110010061001002280907901002310010081001002490100990100251001001070100269090118090271001001210010028100100138090299010014901003080901590100311001001680903290100

识别率1,基于几何特征与纹理特征的识别率;识别率2,基于多特征融合的识别率。

Recognition rate 1, Recognition rate based on geometric features and texture features. Recognition rate 2, Recognition rate based on geometric features, texture features and corner distance matrix.

从表2数据可知,本研究所提出的基于多特征融合的识别方法比基于几何特征和纹理特征的识别方法识别率要高。在实验中发现,加入基于角点距离矩阵方法前错分率较高的是七叶树(种类2)和栾树(种类10),两类叶的对比图如图6所示。两类叶片的几何特征和纹理特征相似,只使用21维特征进行识别相对困难,正确率不高;但利用基于多特征融合的方法计算综合相似度,测试样本识别率达到100%。

将本研究所提出的方法与已有文献方法的识别率进行比较,结果如表3所示。与其他文献所用方法比较,本研究提出的基于多特征融合的方法能够更好地表征叶片特征,叶片种类识别率比较高。

图6 种类2与种类10对比图Fig.6 Comparison of class 2 and class 10

表3 基于不同方法的叶片识别率

Table 3 Recognition rate based on different methods

采用方法Methods识别率Recognitionrate/%本文方法Methodproposed97.50a文献[14]Nguyenetal.[14]95.94ab文献[16]Liuetal.[16]95.63b文献[9]Enetal.[9]89.17c

表中同列数据后无相同小写字母的表示差异显著(P<0.05)。

Data followed by no same letters indicated significant difference atP<0.05.

3 讨论

受光照、成像聚焦程度等因素影响,叶片的几何特征和纹理特征值会有较大浮动,容易使叶片识别精度变低。为进一步提高植物叶片识别精度,本研究在提取叶片几何特征和纹理特征共计21维特征的基础上,设计描述叶片轮廓的距离矩阵和角点矩阵,并通过计算基于几何特征、纹理特征和角点距离矩阵多特征的综合相似度对叶片进行精确识别。实验结果表明,本研究提出的方法对叶片特征的表述更加准确,对给定数据集的识别率为97.50%,取得了较好的识别效果。虽然多特征融合方法提高了叶片识别的准确率,但算法更加复杂,识别时间有所增加。下一步将重点对算法进行优化,进一步提高识别效率,缩短识别时间。另外,本研究所用数据集为白色背景且均为完整叶片,叶片特征提取相对简单,如何提取复杂背景下的有用信息,进行复杂环境下的植物叶片识别,以及对“缺叶”“残叶”的识别也将是下一步研究的重点。

[1] 董红霞, 郭斯羽. 一种结合形状与纹理特征的植物叶片分类方法[J]. 计算机工程与应用, 2014, 50(23):185-188. DONG H X, GUO S Y. Plant leaf classification method combining shape and texture features[J].ComputerEngineeringandApplications, 2014, 50(23): 185-188. (in Chinese with English abstract)

[2] 肖雪洋. 植物叶片图像识别特征的研究和在线识别系统实现[D]. 合肥:中国科学技术大学, 2011. XIAO X Y. Study on features of plant leaf image recognition and realization of online recognition system[D]. Hefei: University of Science and Technology of China, 2011. (in Chinese with English abstract)

[3] COPE J S, CORNEY D, CLARK J Y, et al. Plant species identification using digital morphometrics: A review[J].ExpertSystemswithApplications, 2012, 39(8):7562-7573.

[4] MOUINE S, YAHIAOUI I, VERROUST-BLONDET A, et al. An android application for leaf-based plant identification[EB/OL]. (2013-04-21) [2016-11-21]. https://who.rocq.inria.fr/Anne.Verroust/demo_icmr2013last.pdf.

[5] KEBAPCI H, YANIKOGLU B, UNAL G. Plant image retrieval using color, shape and texture features[J].ComputerJournal, 2011, 54(9):1475-1490.

[6] BAMA B S, VALLI S M, RAJU S, et al. Content based leaf image retrieval (cblir) using shape, color and texture features[J].IndianJournalofComputerScience&Engineering, 2011, 2(2): 202-211.

[7] WANG Z, CHI Z, FENG D, et al. Leaf image retrieval with shape features[J].LectureNotesinComputerScience, 2000, 1929:477-487.

[8] DU J X, WANG X F, ZHANG G J. Leaf shape based plant species recognition[J].AppliedMathematics&Computation, 2007, 185(2):883-893.

[9] 恩德, 忽胜强. 基于集成神经网络的植物叶片识别方法[J]. 浙江农业学报, 2015, 27(12):2225-2233. EN D, HU S Q. Plant leaf recognition based on artificial neural network ensemble[J].ActaAgriculturaeZhejiangensis, 2015, 27(12):2225-2233. (in Chinese with English abstract)

[10] YANG L W, WANG X F. Leaf image recognition using Fourier transform based on ordered sequence[J].IntelligentComputingTechnology, 2012, 7389: 393-400.

[11] WANG Q P, DU J X, ZHAI C M. Recognition of leaf image based on ring projection wavelet fractal feature[J].LectureNotesinComputerScience, 2010, 6216: 240-246.

[12] DU J X, ZHAI C M, WANG Q P. Recognition of plant leaf image based on fractal dimension features[J].Neurocomputing, 2013, 116(10):150-156.

P, SUK T. Leaf recognition of woody species in Central Europe[J].BiosystemsEngineering, 2013, 115(4):444-452.

[14] NGUYEN Q K, LE T L, PHAM N H. Leaf based plant identification system for Android using SURF features in combination with Bag of Words model and supervised learning[EB/OL]. (2013-10-30) [2016-11-21].https://www.researchgate.net/profile/Thi_Le3/publication/259644407_Leaf_based_plant_identification_system_for_Android_using_SURF_features_in_combination_with_Bag_of_Words_model_and_supervised_learning/links/5419583f0cf25ebee9884c6e.

[15] SUMATHI C S, SENTHIL KUMAR A V. Neural network based plant identification using leaf characteristics fusion[J].InternationalJournalofComputerApplications, 2014, 89(5):31-35.

[16] 刘念, 阚江明. 基于多特征融合和深度信念网络的植物叶片识别[J]. 北京林业大学学报, 2016, 38(3):110-119. LIU N, KAN J M. Plant leaf identification based on the multi-feature fusion and deep belief networks method[J].JournalofBeijingForestryUniversity, 2016, 38 (3): 110-119. (in Chinese with English abstract)

[17] WANG X F, HUANG D S, DU J X. Classification of plant leaf images with complicated background[J].AppliedMathematics&Computation, 2008, 205(2): 916-926.

[18] 陈美龙, 戴声奎. 基于GLCM算法的图像纹理特征分析[J]. 通信技术, 2012, 45(2):108-111. CHEN M L, DAI S K. Analysis on image texture based on gray-level co-occurrence matrix[J].CommunicationsTechnology, 2012, 45(2):108-111. (in Chinese with English abstract)

[19] VISVALINGAM M, WHYATT J D. Line generalisation by repeated elimination of points[J].TheCartographicJournal, 1993, 30(1):46-51.

[20] 曾接贤, 刘秀朋, 符祥. 角点距离矩阵和同心圆划分的曲线描述与匹配[J]. 中国图象图形学报, 2012, 17(8):122-131. ZENG J X, LIU X P, FU X. Representation and matching for planar curve based on corner distance matrix and concentric circles[J].JournalofImageandGraphics, 2012, 17(8): 122-131. (in Chinese with English abstract)

(责任编辑 高 峻)

Plant leaf recognition based on fusion of multiple features

GAO Liang1,YAN Min2, ZHAO Fang1,*

(1.SchoolofInformationScienceandTechnology,BeijingForestryUniversity,Beijing100083,China; 2.SchoolofTechnology,BeijingForestryUniversity,Beijing100083,China)

As an important branch of plant automatic classification and recognition, plant leaf recognition is of great value in practical application. In view of the limitation of description methods for leaf features and the problem of low accuracy of plant leaf recognition, leaf images were used as recognition objects in this paper. An image preprocessing algorithm was proposed to ensure getting the features of leaf images accurately. In addition to the geometric features and texture features, the leaf profile was described by distance matrix and corner matrix, and the leaf could be identified more precisely by calculating the comprehensive similarity of geometric features, texture features and corner distance matrix. Experiments were performed on Flavia dataset of 960 images divided into 32 classes. Compared with other recognition methods, the method proposed in this paper achieved better recognition effect. The experimental results showed that the recognition accuracy reached 97.50% with high practicability.

leaf recognition; geometric features; texture features; corner distance matrix; comprehensive similarity

http://www.zjnyxb.cn

10.3969/j.issn.1004-1524.2017.04.22

2016-11-30

国家自然科学基金项目(11272061)

高良(1989—),男,山东潍坊人,硕士研究生,主要研究方向为图像处理与模式识别。E-mail: gaoliang_2008@163.com

*通信作者,赵方,E-mail: fangzhao@bjfu.edu.cn

S126

A

1004-1524(2017)04-0668-08

浙江农业学报ActaAgriculturaeZhejiangensis, 2017,29(4): 668-675

高良,闫民,赵方. 基于多特征融合的植物叶片识别研究[J]. 浙江农业学报,2017,29(4): 668-675.

猜你喜欢
角点多边形识别率
多边形中的“一个角”问题
多支撑区域模式化融合角点检测算法仿真
多边形的艺术
角点检测技术综述①
解多边形题的转化思想
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
听力正常青年人的低通滤波言语测试研究*
多边形的镶嵌
基于FAST角点检测算法上对Y型与X型角点的检测
提升高速公路MTC二次抓拍车牌识别率方案研究