基于堆栈稀疏自编码的K-均值聚类算法的种质评价

2018-05-22 07:19王儒敬贾秀芳
计算机应用与软件 2018年5期
关键词:堆栈编码器种质

李 伟 王儒敬 贾秀芳 黄 河

1(中国科学院合肥智能机械研究所 安徽 合肥 230031)2(中国科学技术大学自动化系 安徽 合肥 230026)

0 引 言

随着我国种业改革持续开展,育种技术的发展大势所趋。与其把扩大种植规模作为提升国家农业竞争力的抓手,不如加快高效新品种的培育。诸多国家和地区已经将快速高效地培育新品种作为一种提升农业方面竞争力的关键技术。目前,育种的趋势向着多元化方向发展[1],追求材料品质筛选成为新品种培育的主题。

我国的种质评价方式大多依赖于专家的经验知识,因此缺乏客观性,同时也限制了其规模与范围的扩大。大规模种质资源数据库的建设将有效地提升育种专家的效率。在本文中将利用深度学习和数据挖掘相关算法自动进行作物育种资源的评价工作,构建种质资源数据库,用于辅助育种工作者进行优质品种的选育。本文以水稻育种材料为例提出聚类算法来进行大量种质材料数据品质自动分类。由于历年来水稻育种数据量较大,所以提出一种基于深度学习中堆栈稀疏自编码网络的K-均值聚类算法评价方法。

本文方法表明可以极大加速种质资源数据库的建设,提供高质量的种质资源材料品质评价数据。方便育种家精准地进行新品种的选育,同时提高了育种领域中的信息化管理水平。

1 深度学习

深度学习[4-7]是神经网络学习的进一步发展,通过建立多个层次结构的神经网络,实现对输入的大数据进行深层次表达,从而达到更好地分类与特征提取效果。深度学习方法通过多层次学习机制,使得计算机能够自动学习处理人工方法难以发现的重要特征。深度学习在机器学习和人工智能方面已经进行了大量的研究,在不同领域也得到了广泛应用。深度学习方法主要有自编码网络[8]、堆栈自编码网络[9]、深度置信神经网络[10]和卷积神经网络[11]等。

1.1 稀疏自编码器[2]

自动编码器AE(autoencoder)是利用三层的神经网络AE对用户输入的数据进行编码,再通过解码得到输出,通过利用反向传播算法来对网络进行训练,使得输出等于输入,最终得到编码的结果。稀疏自编码器学习过程[12]如图1所示。

图1 稀疏自编码器学习过程

若原始数据为X={x1,x2,…,xm},xi∈Rn×1作为自动编码器的第i个输入向量,输入到具有d个神经元的编码层(encoder),通过非线性激活函数f(x)=1/(1+exp(-x))。由式(1)得到编码zi∈Rd×1。

zi=sf(Wxi+b1)

(1)

式中:W∈Rd×n为权重矩阵,b1∈Rd×1为编码层偏置向量。

(2)

(3)

式中:KL(p‖pj)表示两个变量p、pj之间的相对熵;p是稀疏参数,通常设定为最小的值,可以取p=0.07。

在本文中,稀疏自编码重构误差函数为:

(4)

式中:α是超函数,决定了稀疏项的相对重要性。

1.2 堆栈稀疏自编码器

初始种质资源材料数据来源广泛,数据质量参差不齐,需要构建堆栈稀疏自编码器SSAE(stacked sparse autoencoder)[13],即在堆栈式自编码器SAE(stacked autoencoder)模型[9]加入稀疏表示的限定条件,以提高模型的泛化能力。图2为堆栈稀疏自编码器的学习过程。

图2 堆栈稀疏自编码器学习过程

本文基于堆栈稀疏自编码器,实现对输入数据的特征提取。首先,设置堆栈稀疏自动编码器结构,包括每层的节点数{d(1),,d(2),…,d(T)},其中,d(1)=m=|X|,X(1)=X∈Rm×D作为第一层输入到有d(2)=S个节点的自动编码器,训练的结果为X(2)=Z(1)∈RS×D,如此类推,将X(2)输入到有d(3)个节点的自动编码器,训练结果为X(3)=Z(2)∈RS×D;循环下去,直到得到所需要的编码层结果X(T)∈Rm×D。

1.3 K-均值聚类算法

聚类算法是基于群体共性与特异性特征为表达的机器学习方法。衍生出多种不同的聚类算法,包括层次聚类、密度聚类、网格聚类、基于模型的聚类和划分的聚类等。诸多的聚类算法中,K-均值聚类是最为经典的聚类粒化分析算法。

其基本思想是:从m个数据样本中随机选取k个样本作为初始聚类中心,其他样本根据其与已得到的聚类中心的相似度来进行最优匹配而归类;其次,不断地计算聚类中心,同时调整各个样本的类别,最终使得各个数据样本到其所属类别中心的均方差达到最小值,即聚类结果中同一类中样本尽可能紧凑,不同类间尽可能地分开。

算法步骤说明如下[3]:

算法1K-均值聚类算法

输入:m个数据对象X={x1,x2,…,xm},xi∈Rn×1,聚类个数为k;

输出:k个聚类。

Step1从研究对象中任意选取k个样本作为初始聚类中心(c1,c2,…,ck)。

Step2计算每一个对象xi同每一个聚类中心cj之间的相似度,将每一个研究对象归属于最相似的类别中。具体相似公式计算如下:

Step3计算每个聚类中所有对象的均值作为新的聚类中心,具体计算步骤如下:

Step4重复迭代Step2和Step3,一直使得标准函数E收敛为止。

其中,k表示聚类个数,xij表示第i个类中的第j个样本,ci表示第i个聚类的中心,m表示需要聚类的样本数。

典型的K-means聚类每次都需要对更新后的整个数据重新聚类,其复杂度为O(mkl), 其中,m为数据中所需聚类的样本数,k为聚类个数,l为迭代次数。

2 种质资源数据品质聚类算法

针对K-均值聚类算法的一个特征是聚类结果严重依赖于初始分类,即对初始中心的选取问题比较敏感。为了克服此不足,我们利用堆叠稀疏自编码网络进行关键数据特征提取,逐步降低样本维度,构建混合特征数据,将其作为K-均值聚类算法的初始中心;利用K-均值聚类算法进行水稻种质资源的品质数据聚类;最后在此基础上利用已有的水稻种质资源品质数据对聚类结果进行标注,得到大规模种质资源品质数据库。算法流程图如图3所示。

图3 种质资源数据品质数据标识过程

算法2种质资源数据品质聚类算法

输入:国家农作物种质资源平台m个水稻种质资源数据对象X={x1,x2,…,xm},xi∈Rn×1;

输出:经过聚类并进行类别标注的水稻种质资源品质数据库。

Step1对输入数据进行转置XT={x1,x2,…,xm}T。

Step2利用堆栈稀疏自编码器对XT转置进行编码解码,最终输出具有代表性的特征数据。

Step3将特征数据作为K-均值聚类的中心点,利用K-均值聚类算法对输入数据进行聚类。

Step4利用国家水稻数据中心优异种质数据库选取各级别品质种质资源,对其取平均值作为标准值Ei其中i为国家水稻数据中心优异种质数据库中第i个类别。将聚类结果中的中心分别与标准值Ei进行匹配,具体是计算聚类中心点和标准Ei之间的马氏距离DEi。马氏距离:DEi=d(xi,xj) = (xi,xj)′∑-1(xi,xj),其中∑-1是向量间协方差矩阵的逆矩阵。

Step5将最小马氏距离min(DEi)标记作为聚类中类别的标记。

Step6输出经过聚类并进行类别标注的水稻种质资源品质。

3 算法应用与结果分析

为验证深度稀疏自编码网络中心选择支持下的K-均值聚类算法的可行性以及实验划分的准确性,文中选择经典Wine-Quality数据集和自建的育种品质数据集进行算法验证,并将此算法用于育种材料数据的筛选与比对工作。

3.1 Wine-Quality数据集

Wine-Quality是常用的聚类实验数据集。通过两个文件分别记录红、白两种葡萄酒的各类成分度量数据,数据集包含红葡萄酒数据1 599条,白葡萄酒数据4 898条。可通过固定酸度、挥发性酸度、柠檬酸等11个指标预测葡萄酒品质。

红葡萄酒和白葡萄酒在化学成分上有差异,在本实验中,将红葡萄酒数据文件与白葡萄酒数据文件合并生成聚类数据集,测试算法对于葡萄酒类型的聚类效果。

合并后生成的数据集有6 479条记录,增加一个类型字段type,1代表红葡萄酒,2代表白葡萄酒。数据集多维标度分析(MDS)后数据分布图见图4。

3.2 水稻种质品质数据集

对于育种专业数据,为验证算法的准确性,我们通过以中国水稻研究所国家水稻数据中心,优异种质数据库(http://www.ricedata.cn/rsres/mix.asp)作为验证测试数据集。数据库中包含部颁标准一级品种数据328条,去除重复后为278条;二级品种数据735条,去除重复后为733条。将二者合并以后数据量1 011条,部分数据有缺失,作为验证测试集合。

3.3 实验验证与应用

文中选用R语言K-均值聚类工具包运行于Windows7操作系统平台,算法执行代码都由R语言设计完成。表1给出两种不同中心选择模式下实验结果。

模式1:利用上述给定的数据集进行聚类,聚类中心选取规则为随机选择。

模式2:首先利用堆栈稀疏自动编码网络算法进行数据集处理,得到关键数据特征,将特征数据作为初始聚类中心,利用K-均值算法进行聚类。算法中使用的优化算法为BFGS牛顿优化算法。

其中:Wine-Quality数据集中红、白两种葡萄酒进行聚类,验证其聚类的结果。种质数据集中对于品种的等级进行聚类分为两个等级。

经典K-均值聚类算法对于初始聚类中心的选择较为敏感,不同初始聚类中心选择对结果的影响也不尽相同。通过实验验证Wine-Quality数据集下利用模式1得到的正确率为78.54%,而通过模式2得到的正确率为98.58%。如图5所示。

图5 Wine-Quality聚类结果

自建的育种品质数据集通过模式2算法验证下得到的正确率也得到大幅度的提升。由此可见,本文提出的基于深度学习稀疏自动编码初始聚类中心选择算法可以明显地提高聚类分析的准确率。

4 结 语

本文针对国家农作物种质资源平台(http://www.cgris.net/)13 942个水稻材料数据源缺少等级分类的问题。提出基于堆栈稀疏自编码网络的K-均值聚类算法。选取与材料品质相关的属性(糙米率、精米率、蛋白质、赖氨酸、总淀粉、直链淀粉、胶稠度)作为分类特征,对数据进行分类,取得较好的结果。

由于条件限制,本文只采用了两个稀疏层进行特

征数据提取,对于给出研究数据进行适当增加层数是否能够更进一步提高聚类效果有待进一步研究。同时,对堆栈自编码网络中的参数进行不断调整优化,从而缩短训练时间等问题需要做更深入研究。

参考文献

[1] 樊龙江,王为娣,王斌,等.作物育种相关数据及大数据技术育种利用[J].浙江大学学报(农业与生命科学版),2016,42(1):30-39.

[2] Bengio Y, Lamblin P, Popovici D, et al. Greedy layer-wise training of deep networks[J]. Advances in Neural Information Processing Systems, 2007, 19:153-160.

[3] 孙即祥.现代模式识别[M].长沙:国防科技大学出版社,2002.

[4] Schmidhuber J. Deep Learning in neural networks: An overview[J]. Neural Netw, 2014, 61:85-117.

[5] Bengio Y, Courville A, Vincent P. Representation Learning: A Review and New Perspectives[J]. IEEE Trans Pattern Anal Mach Intell, 2012, 35(8):1798-1828.

[6] Li D. A tutorial survey of architectures, algorithms, and applications for deep learning[J]. Apsipa Transactions on Signal & Information Processing, 2014, 3(3):1-30.

[7] Zhang X, Gao Y. Face recognition across pose: A review[J]. Pattern Recognition, 2009, 42(11):2876-2896.

[8] Le Q V,Ngiam J, Coates A,et al. On optimization methods for deep learning[C]//Proceedings of the 28th International Conference on Machine Learning, ICML 2011, Bellevue, Washington, USA, June 28-July 2, 2011:265-272.

[9] Vincent P,Larochelle H,Lajoie I,et al. Stacked denoising autoencoders[J]. Journal of Machine Learning Research, 2010,11(12):3371-3408.

[10] Ranzato M A, Boureau Y L, Lecun Y. Sparse feature learning for deep belief networks[C]//International Conference on Neural Information Processing Systems. Curran Associates Inc. 2007:1185-1192.

[11] Matsugu M, Mori K Y, Kaneda Y. Subject independent facial expression recognition with robust face detection using a convolutional neural network[J]. Neural Networks, 2003, 16(6):555-559.

[12] Shin H C, Orton M R, Collins D J, et al. Stacked autoencoders for unsupervised feature learning and multiple organ detection in a pilot study using 4D patient data[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013,35(8):1930-1943.

[13] Ranzato M, Poultney C, Chopra S, et al. Efficient learning of sparse representations with an energy-based model[C]//Advances in Neural Information Processing Systems,NIPS 2006.2006:1137-1134.

猜你喜欢
堆栈编码器种质
华南地区最大农作物种质资源保护库建成
华南地区最大农作物种质资源保护库建成
融合CNN和Transformer编码器的变声语音鉴别与还原
吉林省省级作物种质资源保护单位名单(第一批)
设定多圈绝对值编码器当前圈数的方法
转炉系统常用编码器选型及调试
舞台机械技术与设备系列谈(二)
——编码器
四川省桑树种质资源保存与应用
应用EDAC容错技术的星载软件堆栈溢出实时检测方法
缓冲区溢出安全编程教与学