随机森林在棉蚜虫害等级预测中的应用

2017-02-15 17:49李磊牟少敏林中琦
安徽农学通报 2017年1期
关键词:气象因子随机森林棉蚜

李磊+牟少敏+林中琦

摘 要:棉蚜是棉区的主要农业害虫之一,对于棉花的产量和质量影响较大。为了准确地对棉蚜虫害的等级进行分类预测,以便采取科学的防治措施,该研究对山东省滨州地区1990—2009年的20年中5—9月的平均气温、降水量、相对湿度、日照时数等气象数据、棉蚜天敌数据与棉蚜虫害数据进行了相关性分析,筛选后保留的影响因子数据构建随机森林棉蚜虫害等级预测模型。结果表明:随机森林模型的OOB为5.7%,等级的误分率为0.09和0.019,经测试集检验,模型预测的准确率为82.2%。模型泛化性好,等级的误分率低。

关键词:随机森林;棉蚜;气象因子;等级预测

中图分类号 TP391;S431 文献标识码 A 文章编号 1007-7731(2017)01-0018-03

Abstract:Cotton aphid is one of the main agricultural pests of cotton,for greater effects on the yield and quality of cotton. In order to accurately classify the level of cotton aphid pest forecast,through the acquisition of Binzhou area of Shandong Province region from May to September in 1990-2009,average temperature,precipitation,relative humidity,sunshine hours and other meteorological data and cotton aphid enemies and Aphis gossypii pest data correlation analysis,screening of meteorological data to build a random forest pests and Aphis gossypii level prediction model.Experimental results show that the random forest model of OOB was 5.7%,the level of point error rate was 0.09 and 0.019,have examined the test set and model prediction accuracy is 82.2%.The generalization of the model is good,and the rate of misclassification is low.

Key words:Random forest;Cotton aphid;Meteorological factors;level Prediction

棉花是我国重要的经济作物之一,山东省滨州地区棉花种植面积广泛。棉蚜是造成棉花减产的主要害虫之一,由于其发生时间长,繁殖速度快,危害严重且防治困难,在一定程度上制约了滨州地区棉花的优质和高产。而气象条件和天敌数量均对棉蚜产生直接的影响,为有效防治棉蚜的危害,学者们对棉蚜虫害的预测进行了大量的研究。如张金[1]等采用逐步判別分析法分析了气候条件和棉蚜虫害等级的关系,构建了新疆石河子地区棉蚜多元线性回归预测模型。吴昊[2]等对九江鄱阳湖地区棉蚜发生规律和预报方法进行了研究,以丰富该地区的棉蚜预报方法。慕彩云[3]等对东疆地区的棉蚜预测构建了日预测、月预测及旬预测的线性回归模型。目前,在棉蚜预测模型的构建中多运用线性回归,但是在线性回归分析中采用何种因子进行表达只是一种推测,从而影响了因子的多样性和不可测性,使得回归分析在某些情况下的使用受到限制。

随机森林在运算量没有显著提高的前提下提高了预测精度,并且对于多元共线性不敏感,对缺失数据和非平衡数据比较稳健[4],而且模型训练速度快,样本选择具有随机性,不易产生过拟合。为此,本实验将随机森林用于棉蚜虫害等级的短期预测中,提高了棉蚜预测的效率和准确率,从而可以及时地为农业生产者提供准确的预警信息,提前采取防治措施,降低棉蚜对棉花的危害。

1 随机森林算法

随机森林算法[5]是2001年加利福尼亚大学的Leo Breiman提出的,是一种由多个决策树组成的集成分类算法。集成学习现已成为国际机器学习界研究的热点机器学习范式[6]。随机森林中引入了2个随机化过程,使得不同的分类树具有不同的分类能力,当输入待分类样本时,随机森林输出的结果由每个决策树的分类结果进行投票决定[7-8]。

随机森林是一个树型分类器的集合。该算法中的元分类器是由CART算法组成但没有剪枝的分类回归树。参数X是输入向量;是独立分布的随机向量,决定单棵决策树的生长过程。随机森林中最重要的是如何构造一个随机森林。随机森林的算法步骤如下:

(1)假设数据的样本数为N,那么每棵决策树采样的样本数就是N。在这N个样本中有放回的随机选择n(n

(2)每个样本有M个属性,每棵决策树的节点需要分裂时,从这M个属性中随机的选取m(m

(3)每棵决策树的每个节点分裂都是按照步骤(2)进行,使每个节点的不纯度达到最小,直到节点不能分裂为止,不对树进行剪枝。

(4)根据生成的多个树分类器对新的测试数据进行测试,分类结果按每个树分类器的投票而决定,即分类公式为:

公式(1)中用majority vote表示多数投票,Ntree表示随机森林树的个数。随机森林的随机性体现在样本的随机选择和属性的随机选择,有了这两个因素,即使每棵树没有进行剪枝也不会出现过拟合。随机森林中两个参数n和m的设置:随机森林树的数量n一般取值比较大,m值一般选取M的平方根。在训练过程中每次抽样生成了自助样本集,全样本集中约有37%的样本不会出现在每一份自助样本集中,我们称这37%的样本为袋外数据(Out Of Bag,OOB)。OOB可以用来估计组合分类器的泛化误差和预测分类的正确率。

2 实验对象及数据来源

2.1 棉蚜数据 棉蚜是棉区的主要害虫之一,本实验中棉蚜的数据来源于滨州市植保站对1990—2009年20年棉蚜百株蚜量动态监测的统计。棉蚜的动态监测从每年的5月开始进行,直到棉田的棉蚜完全消失。棉田调查为随机取样,通过对取样点每株棉花上棉蚜记数,最后换算为百株蚜量,为棉蚜虫害等级分类提供划分依据。棉蚜的发生程度分级标准按照2010中国农业出版社出版的《主要农作物病虫害测报技术规范应用手册》进行划分等级。棉蚜发生程度分级标准见表1。

2.2 气象和天敌数据 滨州市位于山东省北部、黄河三角洲腹地、渤海湾西南岸,属暖温带亚湿润季风气候。棉蚜发育繁殖所需要的适宜温度逐步的提高,因此发生时间为每年的5—9月份,所以实验所用的气象数据为5—9月份采集到的数据。采集到的气象数据包括平均气温、平均相对湿度、平均水汽压、日最高气温、日最低气温、日照时数等因子。棉蚜天敌数据来源于滨州市测报站5—9月份的动态监测数据。

3 棉蚜等级预测随机森林模型

3.1 影响因子的相关性分析 从滨州市采集到的数据中,包含了15个影响因子数据:20-20时降水量(X1),极大风速(X2),平均本站气压(X3),平均风速(X4),平均气温(X5),平均水汽压(X6),平均相对湿度(X7),日照时数(X8),日最低本站气压(X9),日最低气温(X10),日最高本站气压(X11),日最高气温(X12),最大风速(X13),最小相对湿度(X14),天敌数据(X15)。为了减少变量的冗余,提高因子的独立性,对这15个影响因子用R进行皮尔逊相关性分析,求得影响因子与等级的相关系数。用R语言进行因子相关性分析后得到的相关系数如表2。通过表2中的相关系数可以看出,因子中的20-20时的降水量,平均风速,日照时数,最大风速这4个气象因子的相关系数偏小,说明这4个气象因子对于等级的分类预测影响较弱。棉蚜的增长受相对湿度影响较大,雨量会影响相对湿度,对20-20时降水量因子进行了保留。筛选后的部分数据集如表3所示,表中的一条记录表示5—9月份采集到的1d的数据。

3.2 棉蚜等级预测随机森林模型 基于随机森林的棉蚜短期预测模型如下:(1)有放回的随机抽样。随机森林对训练集中的样本有放回的随机选择,选择的样本数小于训练集总的样本数。(2)设置模型参数。随机森林预测模型中树的个数n取100[9],通过计算得出节点m为4。(3)模型训练。通过训练集中选取的样本对模型进行训练,得到模型的OOB和模型内分类的误差率。(4)预测。使用构建的随机森林预测模型对测试集进行分类预测,结合表1得到棉蚜的发生程度。

3.3 实验结果与分析 用在滨州市采集到的样本数据(表3)构建随机森林模型,使用OOB和分类准确率对模型进行评价。实验得到模型的OOB为5.7%。模型的泛化误差不大,说明随机森林预测模型的泛化性比较好。随机森林的混淆矩阵显示等级分类误差如表4所示。从表4可以看出,对于等级1的分类错误率为0.095,对于等级2的分类错误率为0.019。模型中每一类的分类错误率都比較小,说明棉蚜虫害等级判别的准确率比较高。

测试样本的分类准确率为82.2%,实验结果的混淆矩阵如表5所示。随机森林的结果内含有判别函数,输入采集到的样本数据可以判别棉蚜的等级,部分棉蚜等级预测结果如表6所示。结合表1得到棉蚜的发生程度,可以提前对棉区采取相应的防治措施。

4 结论

将随机森林用于分类预测中,几乎不需要输入准备,模型训练速度快,样本选择具有随机性,而且随机森林不易产生过拟合,从而有更好的效率和准确率。本次实验将随机森林用于棉蚜等级的短期预测中,结果表明,该模型泛化性好,误分类率低。随机森林为棉蚜虫害等级预测提供了一种新的方法。

通过采集更多的影响棉蚜生长的影响因子数据以及棉蚜数据训练模型,提高随机森林模型的预测准确率,从而准确及时地对棉蚜等级作出预测,降低棉蚜的危害,实现棉花生产的高产和优产。

参考文献

[1]张金,王佩玲.新疆石河子地区棉蚜发生程度预测模型研究[J].新疆农业科学,2008,45(3):438-441.

[2]吴昊,徐梅珍,刘定忠.九江鄱阳湖区棉蚜发生规律与预报方法研究[J].安徽农业科学,2013,41(1):113-116.

[3]慕彩芸,车罡,道然·加帕依,朱晓华.新疆东疆棉蚜发生发展气象等级预报模型[J].干旱气象,2010,28(4):489-493.

[4]Iverson L R,Prasad A M,Matthews S N,et al.Estimating potential habitat for 134 eastern US tree species under six climate scenarios[J].Forest Ecology & Management,2008,254(3):390–406.

[5]Breiman L.Random forests[J].Machine Learning,2001,45(1):5-32.

[6]温廷新,张波,邵良杉.煤与瓦斯突出预测的随机森林模型[J].计算机工程与应用,2014,50(10):233-237.

[7]董师师,黄哲学.随机森林理论浅析[J].集成技术,2013,2(1):1-7.

[8]杨帆,林琛,周绮凤,等.基于随机森林的潜在 k 近邻算法其在基因表达数据分类中的应用[J].系统工程理论与实践,2012,32(4):815-825.

[9]刘敏,郎荣玲,曹永斌.随机森林中树的数量[J].计算机工程与应用,2015,51(5):126-131.

(责编:张宏民)

猜你喜欢
气象因子随机森林棉蚜
Hap1型棉蚜在5种春季杂草上的生长发育情况
低剂量啶虫脒和双丙环虫酯对棉蚜茧蜂寄生功能的影响
棉蚜取食被棉长管蚜危害棉花后其相关酶的活性
橡胶产量与气象因子的灰色关联性及逐步回归分析研究
拱坝变形监测预报的随机森林模型及应用
棉蚜田间药效试验筛选
基于多视角特征融合与随机森林的蛋白质结晶预测