非线性流形降维方法结合近红外光谱技术快速鉴别不同海拔的茶叶

2019-12-25 11:58刘鹏艾施荣杨普香李文金熊爱华童阳胡潇吴瑞梅
茶叶科学 2019年6期
关键词:流形降维海拔

刘鹏,艾施荣,杨普香,李文金,熊爱华,童阳,胡潇,吴瑞梅*

非线性流形降维方法结合近红外光谱技术快速鉴别不同海拔的茶叶

刘鹏1,艾施荣3,杨普香2,李文金2,熊爱华1,童阳3,胡潇3,吴瑞梅1*

1. 江西农业大学工学院,江西 南昌 330045;2. 江西省蚕桑茶叶研究所,江西 南昌 330203;3. 江西农业大学软件学院,江西 南昌 330045

为提高不同海拔茶叶品质近红外光谱技术鉴别方法的精度,提出采用局部线性嵌入法(LLE)和拉普拉斯特征映射法(LE)非线性流形学习方法对近红外光谱数据进行降维处理,并与基于核函数的非线性(KPCA)及线性(PCA)降维方法比较,建立不同海拔茶叶品质的近红外光谱LSSVM鉴别模型。不同降维方法可视化结果表明,KPCA和PCA方法的数据点离散性较大,400~800 m和800~1 200 m的样本点重叠较多,而非线性流形学习方法能将同一类样本点在三维空间很好地聚集在一起,不同海拔的茶叶能较好地区分开,且聚集效果方面LE方法好于LLE方法。模型性能表明,LE_LSSVM模型性能最佳,预测集总体判别率、Kappa系数分别为100%和1.00;相比于PCA_LSSVM、KPCA_LSSVM和LLE_LSSVM,模型预测集总体判别率分别提高1.7%、1.7%、3.3%;Kappa系数分别提高0.025、0.03、0.05。研究表明,LE等非线性流形学习降维方法在近红外光谱数据降维、简化模型复杂度、提高模型精度方面效果很好,为茶叶品质快速检测方法研究提供了一种新思路。

茶叶;近红外光谱;非线性流形降维方法;拉普拉斯特征映射

鲜茶叶中茶多酚、氨基酸、咖啡碱等主要生化物质含量直接影响成品茶叶品质。然而,茶鲜叶中主要生化物质含量除与品种自身的遗传特性有关外,还与茶树生长海拔等环境因素密切相关[1]。一般来说,高海拔地区茶叶内含物质丰富,茶叶品质优于低海拔地区的。而目前茶叶品质主要依赖于人工感官审评,审评结果主观性强、时效性差,难以用于市场上茶叶品质好坏和等级的快速鉴别。因此,发展一种快速可靠的茶叶品质鉴别方法,用于不同海拔茶叶品质的快速判别,对于规范茶叶市场、保障消费者利益有着重要意义。

近红外光谱(Near infrared spectroscopy,NIRS)技术是一种快速、绿色检测技术,广泛用于茶叶产地鉴定[2]、茶叶内含物检测[3]、茶叶品质评价[4]等。近红外光谱数据量大,包含了丰富的待测物信息,同时也存在大量与待测物无关的信息及冗余信息,易导致模型复杂度增大且性能降低。Ouyang等[5]利用遗传算法优选可见-近红外光谱的特征波长,建立了红茶感官品质的BP神经网络评价模型。Jiang等[6]采用联合区间偏最小二乘算法优选近红外光谱的特征区间,建立碧螺春茶感官品质评价模型。王胜鹏等[7]利用主成分分析(Principal component analysis,PCA)方法提取恩施玉露茶近红外光谱前3个主成分,建立了茶叶年份的快速鉴别模型。然而,这些方法所建模型复杂,参数多且耗时长,拓扑稳定性差。近红外光谱变量之间的信息较复杂,待测物质成分与光谱数据之间可能形成非线性关系。研究者将非线性流形学习降维方法用于近红外光谱特征提取与降维中,该方法把一组在高维空间中的样本点拓扑分布结构在低维空间中重新表示,从而实现数据压缩。常用的流形学习算法有局部线性嵌入(Locally linear embedding,LLE)、等距离映射及拉普拉斯特征映射(Laplacian eigenmaps,LE)等。Shan等[8]采用LLE方法筛选近红外光谱变量,建立玉米水分、药用片剂中活性药物成分和烟草总糖含量检测模型,3种数据所建预测模型精度分别达到0.89、0.98、0.88,证明了方法的高效性。林萍等[9]采用等距离映射方法对大米近红外光谱数据进行降维处理,建立大米贮藏期的快速判别模型,相对于PCA线性降维方法和多维尺度降维方法,模型识别率分别提高了0.253和0.26。李庆波等[10]将改进的等距离映射方法引入绿萝近红外光谱数据处理,检测绿萝叶片中叶绿素及水分含量,所建模型变量减少了近50%,而模型精度却提高了56%。

本文采用非线性流形学习降维方法(局部线性嵌入—LLE、拉普拉斯特征映射—LE),对不同海拔茶叶的近红外光谱数据进行非线性降维处理,采用最小二乘支持向量机(Least squares support vector machine,LSSVM)方法建立不同海拔茶叶的判别模型,并与非线性的核主成分分析(Kernel principal component analysis,KPCA)及线性(PCA)降维方法比较,探讨提高模型精度和稳定性的快速判别方法。

1 材料与方法

1.1 样本制备

茶鲜叶来源于江西省婺源县(北纬29°01′至29°35′,东经117°22′至118°11′)不同海拔茶园中的相同茶树品种,图1为茶叶样本采集地理分布图。茶鲜叶样品立即转移至特定的茶叶加工厂以相同加工工艺进行成品茶样制备,并选取210个合格茶样,其中海拔400 m以下、400~800 m和800~1 200 m茶样各70个,分别标记为3级、2级、1级,采集时间为2017年4月。从每个海拔等级中随机抽取50个样本组成训练集,剩余20个样本组成预测集,即训练集150个样本,预测集60个样本。取足量茶样粉碎,过40目筛,每个茶样粉末称取(30±0.5)g,用于采集茶样的近红外光谱。

1.2 近红外光谱采集

使用傅里叶变换近红外光谱仪(Antaris II型,美国Thermo Fisher公司)采用InGaAs检测器进行光谱数据采集。光谱扫描范围为10 000~4 000 cm-1,扫描次数32次,分辨率为8 cm-1,采样间隔为3.865 cm-1,每条光谱1 557个数据;采用漫反射方式采集茶叶的近红外光谱图,环境温度25℃。将30 g茶叶粉末装于玻璃样品杯中并压紧,采集杯中样品的3个不同位置光谱,取其平均值作为该茶样的最终光谱。

采用Savitzky-Golay一阶导数方法消除原始光谱的基线漂移和其他噪音影响,采用3次多项式,移动窗口宽度为9。

1.3 非线性流形降维方法

流形(Manifold)是对一般几何对象的总称,包括各种维度的曲面、曲线。非线性流形降维方法通过找到样本点嵌入在高维空间中的低维拓扑结构,并求出相应的嵌入映射,以实现维数约简或数据可视化,从观测数据结构中找到其内在规律性[11]。其中,局部线性嵌入算法(LLE)、拉普拉斯特征映射算法(LE)等经典非线性流形学习在机械故障诊断[12]、农作物检测[13]、地理测绘学[14]等领域得到广泛应用。局部线性嵌入(LLE)算法[15]是PCA算法的扩展,通过局部线性嵌入,实现非线性降维。该方法假设每个数据点有个近邻点的线性组合,映射到低维目标空间后,仍能保持原始数据的本质。其算法思想[12]如下:建立每个数据点的个最近邻点;计算出最小化残差,并找到每个样本点邻近点的线性重构权重;根据权重矩阵及近邻点值,得到数据点在低维空间的坐标值。每个数据点的值对映射结果影响很大,邻域值设置过小,算法无法很好地反映高维数据中的全局属性;值过大,则会消除高维数据中的小尺度结构,从而失去其非线性特性[8]。

注:高湖山区域、五龙山区域、江湾镇、赋春镇、太白镇的海拔分别在800~1 200 m、800~1 200 m、200~800 m、200~500 m、80~300 m

拉普拉斯特征映射(LE)算法是一种基于图谱理论的非线性流形学习降维方法,具有计算速度快、鲁棒性好和低维拓扑稳定性强等优势[16],广泛用于大数据的学习处理[17-18]。该方法考虑每个样本点的局部近邻信息,在高维特征空间为邻近点的数据点投影到低维目标空间后仍保持是邻近的。算法步骤[11]如下:

(1)构建近邻图,采用K-NN近邻或ζ-近邻法,使每个样本点与个近邻点用边相连接。

1.4 模型性能评价

采用LSSVM算法建立不同海拔茶叶品质的判别模型,根据模型识别正确率和Kappa系数评价模型性能。Kappa系数可用来度量所建模型的稳定性和分类结果的一致性,系数取值范围为0~1,Kappa值越大,表明结果一致性越好,模型稳定性能越好。Kappa系数计算公式[19]如下:

其中,p为总体分类精度,假设每类的真实样本个数为n(n=1, 2, ···, c),而预测出的每类样本个数为n(n=1, 2,···, c),样本总数为n,则:

2 结果与分析

2.1 光谱特性分析

图2为不同海拔茶叶样本的反射光谱图,其中图2-a为所有茶叶样本光谱图,图2-b为3个海拔等级的平均光谱图。由图可知,不同海拔茶叶样本光谱反射率变化趋势一致,但反射率有差异,海拔400 m以下(3级)茶叶样本光谱反射率较低,而800~1 200 m(1级)的光谱反射率较高。在6 500~4 000 cm-1的谱带范围内信息量大,光谱合频及一级倍频吸收峰与光谱特征信息显著,其中4 331 cm-1处吸收峰为茶叶中氨基酸等物质中脂肪族C-H的合频吸收峰,4 642 cm-1处吸收峰为茶叶中氨基酸、芳香物质等物质苯环上C-H的合频吸收峰,5 200 cm-1附近为H2O中O-H的一级倍频吸收峰[20]。

2.2 非线性流形降维算法参数优化

非线性流形学习降维方法中近邻数值的选择对降维效果影响较大,需优选近邻数的值。通过预试验分析,选择三维嵌入,采用逐步搜索法对值在区间[4,16]上进行选优,以获得更好的降维效果。

图3为采用LLE及LE降维方法时,不同值所建立LSSVM模型的判别结果。由图可知,LE方法最佳值为5,LLE方法最佳值为7;当大于最佳值,算法引入较多的噪音信息并失去非线性,数据在低维特征空间的可分性变差。因此,后续建模过程中,LE的值取5,LLE的值取7。

图2 不同海拔高度茶叶近红外光谱(a)和平均光谱图(b)

图3 不同近邻数k值所建LSSVM模型识别结果

2.3 不同降维方法的可视化结果分析

分别采用传统线性降维方法(PCA)、以高斯函数为核函数的非线性降维方法(KPCA)、非线性流形学习降维方法LLE和LE对不同海拔茶叶的近红外光谱矩阵进行学习,将高维光谱特征向量进行融合,获取前三维特征变量,进行可视化分析。

图4是所有样本在三维空间分布的可视化结果,其中图4-a是传统线性降维方法PCA的结果,图4-b是以高斯函数为核函数的非线性降维方法KPCA的结果,图4-c是非线性流形学习降维方法LLE的结果,图4-d是非线性流形学习降维方法LE的结果。由图可知,不同海拔茶叶样本在三维空间均有较好的聚集效果,其中海拔在400 m以下茶叶样本与其他两个海拔的样本类间距较大,能很好地区分开,说明400 m以下区域的茶叶品质与高海拔区域的茶叶品质相关较大,而海拔在400~800 m和800~1 200 m之间的样本类间距较小,甚至有少部分样本相互重叠,说明此2区域的茶叶品质差异相对较小,较难区分。但在图4-a和4-b中,数据点的离散性较大,400~800 m和800~1 200 m样本间的数据点重叠较多,而在图4-c和4-d中,样本点在三维空间中聚集度很好,同一类样本基本聚集在一起,对于LLE降维方法,400~800m和800~1 200 m的样本只有少数几个点在边缘相交,区分度好于PCA和KPCA的,而LE降维方法,400~800 m和800~1 200 m的样本在边缘相交,基本能区分开。说明由流形学习降维方法将茶叶高维光谱数据嵌入到低维空间后,数据在低维空间的可分性优于线性降维方法PCA和以高斯函数为核函数的非线性降维方法KPCA。这是由于非线性流形降维方法是基于图谱理论,将高维数据流形结构信息保存下来,使得在高维空间邻近的样本点映射到低维空间后仍保持邻近[16]。

注:(a)PCA三维可视化,(b)KPCA三维可视化,(c)LLE三维可视化,(d)LE三维可视化

2.4 LSSVM判别模型建立

采用不同降维方法取得特征变量,建立不同海拔茶叶的LSSVM判别模型,以径向基函数为核函数,利用网格搜索和十折交叉验证法优选惩罚因子和核参数2,以10次试验结果的平均值作为模型最终识别率。图5为不同降维方法取得的不同特征变量数所建模型总体识别结果。由图可知,传统降维方法PCA和KPCA结合LSSVM所建判别模型性能相当,当变量数为4时,总体判别率最优,为97.93%;基于LLE降维方法所建模型,当变量数为5时,总体判别率最优为97.9%;而基于LE降维方法,当所选变量数为3时,模型总体最优判别率达到99.67%。

2.5 模型性能比较

表1为基于4种降维方法所建LSSVM模型结果。由表可知,非线性流形学习降维方法(LLE、LE)性能明显优于传统PCA、KPCA降维方法,其中,LE_LSSVM模型所需变量数最少,模型复杂程度最低,但模型精度最高,训练集总体识别率为99.33%,Kappa系数为0.99;预测集总体识别率为100%,Kappa系数为1.00,说明模型稳定性高;相比于PCA_LSSVM、KPCA_LSSVM和LLE_LSSVM,预测集中总体识别率分别提高了1.7%、1.7%、3.3%;Kappa系数分别提高了0.025、0.03、0.05。上述研究表明,采用非线性流形学习LE降维方法能很好地将不同海拔的茶叶聚集在一起,所建模型的预测精度很高,模型的稳定性和分类结果的一致性都优于其他降维方法。

图5 不同变量所建模型的总体识别率

表1 不同模型性能比较结果

3 讨论

近年来,随着近红外光谱分析技术在各领域中应用不断深入,光谱特征提取及降维方法成为研究的热点与难点。本文研究表明,非线性流形学习LE的降维方法在低维目标空间数据点的流形保持明显好于PCA、KPCA和LLE的,在三维空间中,LE降维方法的类内聚集效果较好,并且能很好的区分开不同海拔的茶叶数据,利用该降维方法提取的特征所建LSSVM判别模型的识别精度明显高于其他方法,其模型复杂性、预测精度及稳定性均优于其他方法。研究结果为解决近红外光谱中的维度灾难、降低特征位数提供了一种新思想,为茶叶品质近红外光谱快速检测方法建立提供了新的研究思路。

[1] Han W, Huang J G, Li X, et al. Altitudinal effects on the quality of green tea in east China: a climate change perspective [J]. European Food Research and Technology, 2017, 243(2): 323-330.

[2] Zhuang X G, Wang L L, Chen Q, et al. Identification of green tea origins by near-infrared (NIR) spectroscopy and different regression tools [J]. Science China Technological Sciences, 2017, 60(1): 84-90.

[3] 陈美丽, 张俊, 龚淑英, 等. 茉莉花茶主要品质成分定量近红外光谱分析模型的建立[J]. 茶叶科学, 2013, 33(1): 21-26.

[4] 刘洋, 余天星, 李明玺, 等. 基于近红外光谱技术的信阳毛尖品质判别研究[J]. 现代食品科技, 2018, 34(8): 1-7.

[5] Ouyang Q, Liu Y, Chen Q S, et al. Intelligent evaluation of color sensory quality of black tea by visible-near infrared spectroscopy technology: A comparison of spectra and color data information [J]. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2017, 180: 91-96. DOI: 10.1016/j.saa.2017.03.009.

[6] Jiang H, Chen Q S. Chemometric models for the quantitative descriptive sensory properties of green tea (L.) using fourier transform near infrared (FT-NIR) spectroscopy [J]. Food Analytical Methods, 2015, 8(4): 954-962.

[7] 王胜鹏, 龚自明, 高士伟, 等. 基于近红外光谱技术的恩施玉露茶保存年份的快速无损鉴别[J]. 华中农业大学学报, 2015, 34(5): 111-114.

[8] Shan R F, Cai W S, Shao X G. Variable selection based on locally linear embedding mapping for near-infrared spectral analysis [J]. Chemometrics and Intelligent Laboratory Systems, 2014, 131: 31-36. DOI: 10.1016/j.chemolab.2013.12.002.

[9] 林萍, 陈永明, 邹志勇. 非线性流形降维与近红外光谱分析技术的大米贮藏期快速判别[J]. 光谱学与光谱分析, 2016, 36(10): 3169-3173.

[10] 李庆波, 贾召会. 一种光谱分析中的降维方法[J]. 光谱学与光谱分析, 2013, 33(3): 780-784.

[11] 黄宏臣, 张倩倩, 韩振南, 等. 拉普拉斯特征映射算法在滚动轴承故障识别中的应用[J]. 中国测试, 2015, 41(5): 94-98.

[12] Zhang Y, Ye D, Liu Y. Robust locally linear embedding algorithm for machinery fault diagnosis [J]. Neurocomputing, 2018, 273: 323-332.

[13] 金瑞, 李小昱, 颜伊芸, 等. 基于高光谱图像和光谱信息融合的马铃薯多指标检测方法[J]. 农业工程学报, 2015, 31(16): 258-263.

[14] 孙伟伟, 刘春, 李巍岳. 联合改进拉普拉斯特征映射和-近邻分类器的高光谱影像分类[J]. 武汉大学学报(信息科学版), 2015, 40(9): 1151-1156.

[15] 张赟, 杨栋, 斯彦刚, 等. 基于监督流形学习的航空发动机振动故障诊断方法[J]. 推进技术, 2017, 38(5): 1147-1154.

[16] 钱进, 邓喀中, 范洪冬. 基于拉普拉斯特征映射高光谱遥感影像降维及其分类[J]. 遥感信息, 2012, 27(5): 3-7.

[17] Mantziou E, Papadopoulos S, Kompatsiaris Y. Learning to detect concepts with approximate laplacian eigenmaps in large-scale and online settings [J]. International Journal of Multimedia Information Retrieval, 2015, 4(2): 95-111.

[18] Singer A, Wu H. Spectral convergence of the connection Laplacian from random samples [J]. Information and Inference: A Journal of the IMA, 2016, 6(1): 58-123.

[19] 吴尚蓉, 陈仲新, 任建强, 等. 定位尺度和像元空间关系对GF-1亚像元定位精度影响分析[J]. 农业工程学报, 2016, 32(5): 163-171.

[20] 王冰玉, 孙威江, 黄艳, 等. 基于遗传算法的安溪铁观音品质快速评价研究[J]. 光谱学与光谱分析, 2017, 37(4): 1100-1104.

Nonlinear Manifold Dimensionality Reduction Methods for Quick Discrimination of Tea at Different Altitude by Near Infrared Spectroscopy

LIU Peng1, AI Shirong3, YANG Puxiang2, LI Wenjin2, XIONG Aihua1,TONG Yang3, HU Xiao3, WU Ruimei1*

1. College of Engineering, Jiangxi Agricultural University, Nanchang 330045, China; 2. Sericulture and Tea Research Institute of Jiangxi Province, Nanchang 330203, China; 3. College of Software, Jiangxi Agricultural University, Nanchang 330045, China

In order to improve the accuracy of near infrared (NIR) spectroscopy identification methods for tea at different altitude, the non-linear manifold dimensionality reduction methods of locally linear embedding (LLE) and laplacian eigenmaps (LE) were used to reduce the dimension of NIR spectral data, and compared with non-linear (KPCA) and linear (PCA) dimensional reduction methods. Discrimination models were establishedfor tea atdifferent altitude based on different dimensional reduction methods and least squares support vector machine (LSSVM) algorithm. Visualization of different dimensionality reduction results show that data processed by KPCA and PCA methods were more discrete. In particular, there were more overlaps between 400-800 m and 800-1 200 m samples. However, the same kind of sample points could be gathered well in three-dimensional space by the nonlinear manifold dimensionality reduction methods can. Tea at different altitude could be easily separated and the aggregation effect of the LE was better than that of the LLE. The results of models indicate the LE_LSSVM model had the best performance, with the prediction set accuracy and Kappa value of 100% and 1.00 respectively. Compared with PCA_LSSVM, KPCA_LSSVM and LLE_LSSVM models, the accuracy of prediction set was improved by 1.7%, 1.7%, 3.3% and Kappa values increased by 0.025, 0.03, and 0.05. The results show that LE and other nonlinear manifold dimensionality reduction methods were effective in reducing dimension of near infrared spectral data, simplifying model complexity, and improving model precision. The study provides a new means for rapid detecting for tea quality research.

tea, near infrared spectroscopy, nonlinear manifold dimensionality reduction methods, laplacian eigenmaps

S517.1

A

1000-369X(2019)06-715-08

2018-10-19

2019-06-12

国家自然科学基金项目(31460315)、江西省重点研发计划项目(20171ACF60004)、江西省现代农业产业技术体系专项资金(JXARS-02)

刘鹏,男,硕士研究生,主要从事农产品质量安全检测与模式识别方面的研究。

aisrong@163.com

猜你喜欢
流形降维海拔
混动成为降维打击的实力 东风风神皓极
我国在珠穆朗玛峰架设世界最高海拔气象站
多重卷积流形上的梯度近Ricci孤立子
高海拔的甘南
Helicobacter pylori-induced inflammation masks the underlying presence of low-grade dysplasia on gastric lesions
降维打击
局部对称伪黎曼流形中的伪脐类空子流形
南美三大高海拔球场
对乘积开子流形的探讨
一种改进的稀疏保持投影算法在高光谱数据降维中的应用