基于叶片图像处理和稀疏表示的植物识别方法

2016-11-28 16:16李萍张波张善文

江苏农业科学 2016年9期

李萍+张波+张善文

摘要：基于植物叶片图像的植物识别方法研究在保护生态环境方面具有十分重要的意义。针对植物叶片的复杂、多样性而导致很多基于特征提取的植物识别方法识别率不高的问题，提出了一种基于改进稀疏表示的植物识别方法。该方法利用最近邻准则实现稀疏表示，通过稀疏表示系数实现植物识别。该方法的创新点是将叶片图像识别问题转化为求解待识别样本关于训练样本的稀疏表示问题，是直接对原始叶片图像进行操作，而不需要进行特征提取和选择过程，由此提高了算法的识别效率。在6种叶片图像数据集上的试验结果显示，该方法对叶片图像识别是可行的，识别率高达94%以上。该方法为非线性、复杂叶片图像识别提供了一种途径。

关键词：植物叶片图像；植物识别；稀疏表示分类；改进的稀疏表示

中图分类号： TP391.41；S126 文献标志码： A

文章编号：1002-1302（2016）09-0364-04

植物是人类赖以生存、生产和发展所必需的物质资源。同时，植物在水土保持、抑制荒漠和改善气候等很多方面起着至关重要的作用。近年来随着人类生产活动的日益增加，生态环境不断遭到破坏，使得很多物种灭绝或濒临灭绝。随着生物多样性的消失，人类赖以生存的自然环境受到很大威胁。因此，保护植物物种刻不容缓。要保护植物，就必须识别植物。利用植物叶片图像进行植物识别方法研究是目前的一个重要研究方向，已经出现了很多较有效的植物识别方法。现有的植物识别方法可以分为两大类：基于特征提取和选择的识别方法[1-4]和基于维数约简的识别方法[5]。这些方法的一个共有的不足是，在植物识别的过程中，都把同类中的不同的叶片或从同类中不同的叶片中提取的特征对于识别算法的贡献同样看待。也就是说，训练集中同类植物的不同的叶片及其不同的特征，对识别的重要性是同等对待的。为了提高识别率，很多学者选择较好的叶片作为训练集。但由于叶片的复杂多样性，甚至同一植物上的叶片之间可能差别很大，使得很多现有的植物识别方法实际识别率不高。图1为同一棵树上的叶片图像，由图1可以看出，各个叶片之间存在明显差异，特别是构树叶。

近年来，稀疏表示作为信号处理、图像处理和模式识别强有力的工具，受到了广大学者的广泛关注[6-8]。所谓样本的稀疏表示，就是将给定的样本表示为字典的相对较少数目的几个基的线性组合。l0最小化问题可以用来求解最优的稀疏表示，但它是一个NP难问题。很多实例证实了稀疏或近似稀疏的样本可由求解凸优化问题（即l1最小化问题），使得这个最优问题得到了有效解决。由于稀疏表示具有判别性和鲁棒性，它已经被成功地应用于模式识别中。与传统的模式识别方法相比，稀疏表示在识别精度上有较大的改进。尽管稀疏表示在人脸识别、手势识别和信号分析等领域取得了较好的效果，但鲜有应用于植物识别领域。本研究在稀疏表示的基础上提出了一种植物识别方法[9]。在该方法中，字典直接由训练样本组成。如果每一类植物有足够的训练叶片图像样本，那么1个测试样本的线性表示自然是稀疏的。

1 稀疏表示

根据得到的稀疏表示系数A或B，可以计算测试样本与各类训练样本的残差；根据残差的大小可以确定测试样本的类别。该分类方法被称为基于稀疏表示的分类（SRC）算法。该算法在没有光照变化、遮挡腐蚀、方位变化等的理想情况下，若有多幅训练图像输入时能够得到较高的识别率。所以该算法适用于某些特定的场景，如秘密地点或门禁系统。在非理想情况下，如实际拍摄的植物叶片图像，可能出现在图像局部空间的镜面反射、阴影、遮挡、方位不正和叶片残缺不全等时，若直接利用SRC算法得到的识别率较低。实际上，叶片图像的这些非理想情况一般只限于图像的一部分，对于整个图像的像素而言是稀疏的，所以在式（6）中可以利用1个附加的误差e来表示非理想情况下输入图像与训练图像之间的误差。则式（6）的优化问题可以转化为式（7）的最优解问题：

2 基于近邻稀疏表示的植物识别

虽然SRC算法有很多令人满意的优点，但也存在一些缺陷。该算法根据基元素所属的类别对测试样本y进行分类，若基元素属于第i类，则y也属于第i类。其中，基元素为那些可以最好地稀疏表示y的那一类训练样本。在植物叶片图像分类中，由于同一棵树上的叶片之间差异可能较大，所以这一条件不容易满足。也就是说，由y确定的这组基元素中很可能包括距离y较远的样本，即这组基元素并不一定是y的局部近邻。在这种情况下，根据SRC算法，y将被分到某一类中，其中该类基元素所张成的子空间距离y最近，即使该类样本离y较远。然而，若这一结论成立，SRC算法需要一个前提假设：每一类的基元素之间的距离较远，由各类基元素张成的子空间仍然是线性。因此，SRC算法不能有效解决植物叶片图像等非线性数据分类问题。为此，在SRC的基础上本研究提出一种改进的SRC算法（MSRC）[9]。

3 试验结果与分析

本节试验验证本研究提出的植物识别方法的有效性。在试验中，选择6种植物（海棠、五角枫、龙抓槐、枇杷、银杏和樱花）叶片图像（图2）；图3为训练集中50幅枇杷和五角枫叶片图像。

在试验之前，需要对所有叶片图像进行剪切、对齐、平滑滤波、消除叶柄和灰度化等预处理。为了便于计算，将每幅图像裁剪成32×32的图像。然后把每幅灰度图像（即矩阵）变成维数大小相同的向量，作为植物识别算法的输入数据。获取的叶片图像是RGB彩色图像。叶片在不同季节颜色会有不同，而且同一张叶片图像因光照角度不同颜色也会存在很大的差别，所以对其进行灰度图转换，将彩色图像转换为灰度图像，消除颜色对分类的干扰。由彩色图像转化为灰度图像的公式如下：

图4为基于SR的植物叶片图像分类的投影系数和残差。图4-A为1幅五角枫叶片在训练集中6种植物、每种植物50幅叶片图像对于待识别叶片图像的投影系数，其中横轴为6种植物共300幅叶片图像的编号，纵轴为基于最小化l1范数得到的y在训练样本上的投影系数x。可以看出，y在其所属植物类别的训练样本上的投影系数较大，而在其他类别上仅有少数投影系数不为0，而且系数值都比较小，由此表明x的稀疏性。利用x在每个类别上的投影系数近似表示y，得到重建残差，如图4-B所示。可以看出，该训练样本的投影残差最小，由此可判定其所属的类别，得到识别结果。

为了说明所提出的方法的有效性，与基于神经网络（BPNN）[1]、支持向量机（SVM）[2]和流形学习（ML）[6]的植物识别方法以及SRC方法[7]进行比较。所有试验在Matlab 7.0开发环境下编程实现基于5种方法的植物叶片图像处理和识别程序代码。其中，计算机配置是Pentium CPU E5300 2.60 GHz，内存2GB。本研究SR算法的求解最小化l1范数采用Matlab的K-SVD字典学习的工具包和求解优化问题的SPGL1工具包；BPNN采用Matlab的NN toolbox中提供的train和newff等函数；SVM采用提供的LIBSVM；最近邻分类器采用ClusteringToolbox中的1-NN函数[10-11]。

对于每种植物，随机选取50幅叶片图像作为训练集，其余的10幅图像用于测试。即训练样样本集由6×50=300幅图像组成，而测试样本集则由剩余的60幅图像组成。对于每种算法，这样的划分试验重复进行50次。算法中涉及到的参数选择都是根据试验结果的最大值得到。在试验中，为了得到较高的识别率，BPNN和SVM中的多个参数经过若干次优化才能确定。记录每次试验每种植物的最高识别率和运行时间，再计算50次结果的平均值和方差。将本研究提出的算法与其他4种算法进行比较。表1显示了5种算法的试验结果。

由于MSRC添加了1个加权矢量，可以使最近邻的样本在分类中的作用最强，而近邻中相对较远的样本的作用减弱，由此保留了样本的局部特性，从而使样本的分类性能优于其他4种算法。试验结果表明，该方法的识别率最高、识别效果最好，平均识别率高达94%以上（表1），而且由于不需要从每幅叶片图像中提取和选择特征，所以提高了算法的运行时间。试验结果表明，该方法能够满足植物识别系统的实时性要求。

4 结论

本研究探讨了样本的稀疏表示理论在植物识别中的应用，测试样本的稀疏表示可通过求解l1最小化问题而有效获得。最稀疏的系数可以解释为在重构测试样本的过程中每个训练样本所贡献的权重。在此基础上，提出了一种基于改进的稀疏表示的植物识别方法，该方法比基于特征提取和选择的分类方法具有更好的识别性能。由于植物识别的复杂性，还没有将本研究提出的方法应用于可行的植物识别系统，现有的研究可以克服叶片图像的光照变化、不完整及未对准等方面。尽管基于稀疏表示的人脸识别方法具有在没有特征提取的前提下也能获得较高识别率的优势，并且在遮挡和噪声情况下有出色表现，但在植物识别方面还有待于进行研究，如何在大数据的情况下，保证精确的识别率及快速的识别能力也是将来要探究的方向之一。

参考文献：

[1]王丽君，淮永建，彭月橙. 基于叶片图像多特征融合的观叶植物种类识别[J]. 北京林业大学学报，2015，37（1）：55-61.

[2]陈寅，周平. 植物叶形状与纹理特征提取研究[J]. 浙江理工大学学报，2013，30（3）：394-399.

[3]Du J X，Huang D S，Wang X F，et al. Leaf shape based plant species recognition[J]. Applied Mathematics and Computation，2007，185（2）：883-893.

[4]Du J X，Huang D S，Wang X F，et al. Shape recognition based onneural networks trained by differential evolution algorithm[J].Neurocomputing，2007，70（4）：896-903.

[5]张善文，张传雷，程雷. 基于监督正交局部保持映射的植物叶片图像分类方法[J]. 农业工程学报，2013，29（5）：125-131.

[6]朱明旱，李树涛，叶华. 基于稀疏表示的遮挡人脸表情识别方法[J]. 模式识别与人工智能，2014，27（8）：708-712.

[7]Qiao L S，Chen S C，Tan X Y. Sparsity preserving projections withapplications to face recognition [J]. Pattern Recognition，2010，43（1）：331-341.

[8]肖玲，李仁发，曾凡仔. 基于自学习稀疏表示的动态手势识别方法[J]. 通信学报，2013，34（6）：128-135.

[9]王琦，惠康华. 基于稀疏近邻表示的分类方法[J]. 计算机工程与设计，2013，34（4）：1425-1431.

[10]Chang C C，Lin C J. LIBSVM-A library for support vector machines [EB/OL]. [2015-11-20]. http：//www.csie.ntu.edu. tw/cjlin/libsvm.

[11]Koh K，K S J. Stephen Boyd. Simple matlab solver for l1-regularized least squares problems [EB/OL]. [2015-11-20]. http：//www.stanford.edu/boyd/l1_ls/.

江苏农业科学2016年9期

江苏农业科学的其它文章: 锦鲤人工雌核发育早期胚胎观察; 中国龙虾生物学特征及浅海筏式笼养技术; 郑州市奶牛隐性乳腺炎病原菌的分离与鉴定; 长江四大家鱼原种筛选、培育及种质鉴定; 利用分子标记建立杂交小麦亲本分子指纹图谱; 宁夏水稻品种抗稻瘟病基因Pi—ta、Pi—b和Pi9的检测分析