近红外漫反射光谱的茉莉花产地溯源

2023-11-03 11:36张淑芳雷顺新谭学才刘绍刚
光谱学与光谱分析 2023年11期
关键词:积分球产地光纤

张淑芳, 雷 蕾, 雷顺新, 谭学才, 刘绍刚, 严 军*

1. 广西民族大学化学化工学院, 林产化学与工程国家民委重点实验室, 广西林产化学与工程重点实验室,广西林产化学与工程协同创新中心, 广西高校食品安全与药物分析化学重点实验室, 广西 南宁 530006

2. 横州市综合检验检测中心, 广西 横州 530300

引 言

茉莉(Jasminumsambac(L.) Ait)为常绿灌木, 属木犀科(Oleaceae)素馨属(Jasminum), 茉莉花广泛应用于茶叶、 医药、 精油、 园林等领域, 具有较高的药用、 经济和美学价值[1]。 我国的茉莉花主产地集中在广西、 福建、 云南、 四川等南部地区, 其中广西横州的茉莉花种植量居全国首位, 约占全国产量的80%和世界产量的60%。 茉莉花芳香化学成分主要有: 乙酸苯甲酯、 茉莉酮、 茉莉内脂、 苯甲酸顺-3-己烯酯、 苯甲醇、 吲哚等; 风味物质之外, 茉莉花蕾还含有丰富的黄酮、 多糖、 萜类、 粗蛋白、 氨基酸等非挥发性成分[2]。 茉莉花产地的土壤环境、 气候等自然因素对茉莉花的次生代谢过程有重要影响, 进而影响其在营养、 药用、 风味等方面的质量品质。 因此, 对茉莉花进行产地溯源对于保证茉莉花产地特征的真实性, 实现“从农田到消费者”全过程追溯, 保护地理标志产品的品牌价值, 保护消费者合法权益, 促进茉莉花产业的健康发展具有意义。

农产品溯源的常用分析技术有矿物元素指纹谱、 稳定同位素、 DNA条形码、 色谱指纹图谱、 电子鼻、 分子光谱等[3-8]。 其中, 近红外光谱技术因操作简便、 分析速度快、 易于或无需样品前处理、 环境友好、 能够实现原位在线检测等优势而在农产品溯源领域受到了越来越多的关注[9]。 例如, 夏珍珍等利用近红外漫反射光谱结合偏最小二乘判别分析对吉林、 湖北、 福建3个省份的栽培香菇进行产地识别, 经波长选择后得到的判别模型预测准确率达到了93.94%[10]; 吴习宇等利用近红外光谱结合不同的光谱预处理技术建立了四川、 重庆、 云南、 贵州、 陕西五个省市8个产地的花椒样品近红外判别模型, 总体分类准确率在85.37%~97.56%之间[11]。 张勇等综述了近红外光谱技术在农产品、 药材等样本的产地溯源领域中的研究与应用[12-14]。

目前, 对于茉莉花产地识别的报道较少, 王吉平等研究了广西横州不同地域的茉莉花香气特征, 发现香气成分及含量均存在较大差异[15]; 王淑燕等利用电子鼻和气相色谱质谱联用技术分析茉莉花茶香气成分, 结合多元统计分析技术实现了对广西横州和福建福州茉莉花茶的产地区分[16]。 本研究通过积分球和光纤探头两种方式采集了广西、 福建、 四川、 云南四个省份茉莉花样品的近红外漫反射光谱, 然后利用化学计量学方法建立了不同产地的茉莉花识别模型, 为茉莉花产地溯源提供了一种快速、 准确、 绿色的新方法。

1 实验部分

1.1 材料与试剂

茉莉花样品分别采自广西横州、 四川犍为、 福建福州、 云南元江四个产地(产地分布图见图1), 均在当地种植基地现场采购, 每个产地收集样品25批次, 共有茉莉花样品100批次, 采摘时间为2021年盛花期。 茉莉花鲜花自然风干后粉碎过60目筛, 得到浅黄色干燥粉末, 装透明塑料密封袋置于干燥器中待用。

图1 茉莉花样本产地地理分布图

1.2 仪器与设备

i-Spec型便携式近红外光谱仪(美国必达泰克公司), 光谱采集附件: 积分球采集模块、 光纤探头采集模块, 配置InGaAs检测器; 中药粉碎机(宝利, 中国江阴); Agilent 1260高效液相色谱仪(美国安捷伦公司), 色谱柱: Gemini-NX C18(4.6×250 mm, 5 μm); 所用化学计量学算法均通过Matlab R2020a(Mathworks Inc., 美国)编程实现, 在64位Windows 7.0系统下运行。

1.3 方法

近红外光谱分析: 移取适量干燥的茉莉花花蕾粉末样品装入透明密封袋(3 cm×4 cm), 压平样品, 厚度约5 mm, 提前将样品放置于实验室1~2 h。 实验前检查近红外分析仪器与电脑连接良好并打开光源预热30 min。 测样时先关闭光源测得暗电流作为背景信号, 再以聚四氟乙烯材质的白色底板测得参比光谱, 通过积分球(光源直径2 cm)和光纤探头测得茉莉花粉末样品的近红外漫反射光谱。 实验参数: 扫描波段900~1 700 nm, 分辨率1.5 nm, 单个样本光谱采集数据点511个, 积分球采样积分时间25 ms, 光纤探头采样积分时间2 000 ms, 扫描次数20次, 每个样本采集3次光谱, 取3次光谱信息的平均值用于数据分析。

色谱分析条件: 柱温35 ℃; 检测波长255 nm; 流动相: 0.1%甲酸水溶液和乙腈; 梯度洗脱程序: 0~3 min(5%乙腈), 3~48 min(5%~30%乙腈), 48~50 min, (30%~95%乙腈); 50~55 min(95%乙腈), 55~60 min(95%~5%乙腈); 流速1.0 mL·min-1; 进样量10 μL, 每个样本平行测定三次, 取3次结果的平均值用于数据分析。

1.4 光谱数据处理

近红外漫反射光谱信号容易受到背景杂散光、 样本颗粒不均匀、 仪器噪声、 基线漂移等因素的影响, 从而在光谱信息中产生部分冗余信息和干扰信息, 影响建模效果。 因此, 在建模过程中通常需要对漫反射光谱信息进行光谱预处理和波长选择, 以获取有效的光谱信息, 提高模型性能。 在本工作中, 采用Savitzky-Golay (SG)光谱平滑[17]和多元散射校正(multivariate scatter correction, MSC)[18]相结合进行光谱预处理。 SG平滑能有效降低噪声对光谱信号的影响, 提高信噪比, MSC能够修正漫反射光谱因粉末样品不均匀所导致的光谱信息线性变化。

1.5 数据分析

主成分分析(principal component analysis, PCA)[19]是一种常用的无监督分析技术, 通过对高维数据降维来实现数据结构可视化、 去噪等功能, 能够直观地反映出不同类别的样本之间的关系。 通过对100个茉莉花样本的近红外光谱数据(X100×511)进行奇异值分解, 并对第一主成分(PC1)和第二主成分(PC2)进行投影分析。

线性判别分析(linear discriminant analysis, LDA)[20]又称为fisher判别分析, 该方法借助于方差分析的思想将高维空间的样本投影到低维空间上, 从而使得投影后的样本数据在新的子空间上有最小的类内距离以及最大的类间距离, 通过线性判别函数和分类原则可以对新样本的类别归属进行预测。 K近邻法(k-nearest neighbor, KNN)[21]是一种常用的机器学习算法, 属于有监督模式识别分析。 KNN的核心思想是对于一个给定的训练集, 当需要对新样本进行预测时, 在训练集中找到与待预测样本最邻近的k个样本, 并根据这k个样本的多数类别标签对带预测样本进行分类。 本工作中, 首先利用PCA对近红外光谱数据矩阵进行主成分分解, 再取若干主成分作为LDA和KNN的输入变量。

2 结果与讨论

2.1 近红外漫反射光谱

不同产地茉莉花样品的近红外漫反射原始光谱如图2(a)和(b)所示, 光谱轮廓呈现一致性, 均在1 050、 1 200、 1 450和1 550 nm附近有明显的吸收峰, 主要为茉莉花蕾中有机物的C—H, N—H, O—H等含氢基团的倍频峰, 包括O—H二级倍频(950 nm)、 C—H二级倍频(1 200 nm)、 O—H一级倍频(1 450 nm)、 —CH3与—CH2合频(1 360~1 390 nm)等。 比较发现, 积分球和光纤探头所采集的光谱在整体上呈现相似的光谱特征, 但积分球采集信号的信噪比较高, 光谱更加平滑, 光纤探头采集信号的信噪比较低, 光谱呈现明显的噪音信号干扰, 在光谱两端尤为严重。 结合SG和MSC两种光谱预处理方法对近红外光谱进行处理可以有效地降低噪音及颗粒散射引起的背景干扰, 预处理后的光谱图如图2(c)和(d)所示。 由于近红外光谱是弱信号, 同时峰宽较大, 谱峰重叠严重, 因此不同产地茉莉花的光谱信息差异较小, 无法直接从漫反射光谱图中找出特异性信息来实现产地识别, 必须借助化学计量学技术来解析不同产地茉莉花的近红外光谱信息间的区别。

图2 茉莉花粉末样品的近红外光谱图

2.2 主成分分析

为揭示不同产地茉莉花在近红外漫反射光谱信息上的潜在差异, 首先对茉莉花样本的近红外漫反射光谱数据进行主成分分析, 并在PC1和PC2上进行投影分析, 结果如图3所示。 由图3(a)可见, 通过积分球采样得到的近红外光谱数据能够对四个不同产地的茉莉花进行较好的组内聚集和组间分散, 聚类效果良好。 方差分析结果表明, PC1能解释63.50%的信息量, PC2能解释33.48%的信息量。 但是, 当采用光纤探头进行信号采集时, 所得光谱数据的聚类效果显著下降, 尤其是福建和云南两地的茉莉花样本存在严重重叠, 无法区分[图3(b)]。 方差分析结果表明, PC1能解释82.67%的信息量, PC2能解释14.92%的信息量。 其原因在于光纤探头采样所得光谱的信噪比较低, 光谱信息量不如积分球采样, 从而需要进行进一步的光谱预处理以提高信噪比。 因此, 采用了SG平滑技术结合MSC校正方法对原始光谱数据进行预处理, 对预处理后的光谱数据进行主成分分析的结果如图3(c)和(d)所示。 由图可见, 经过预处理后, 积分球采样数据和光纤探头采样数据的主成分分析聚类效果都有明显提升, 尤其是对于光纤探头采样数据, 福建和云南两地的茉莉花样本从严重重叠到完全区分。 结果表明, SG平滑技术结合MSC校正方法能够有效地提高光谱信噪比, 后续建模数据均采用SG-MSC预处理后的光谱数据。

图3 主成分分析投影图

2.3 产地识别模型建立

主成分分析是一种无监督分析方法, 没有利用到样本的标记信息。 为建立准确的产地识别模型, 下面采取两种有监督分析方法: K近邻法和偏最小二乘判别分析。 在建立模型之前, 从每个产地的茉莉花样本中随机选取17个样本, 共得到68个样本作为训练集, 剩余的32个作为测试集。 训练集用于建立模型, 测试集用于评估模型的预测能力。 在利用训练集建立模型的过程中, 通过交互检验进行参数优化以获得最优的模型性能。

2.3.1 线性判别分析

采用Fisher线性判别分析法对训练集中的68个样本建立判别模型, 由于近红外光谱数据存在的共线性问题会导致极大的计算误差, 因此首先对近红外光谱数据矩阵进行主成分分解, 再取若干主成分作为线性判别分析的输入变量。 结果表明, 对于积分球采集的近红外数据,F1和F2解释的累积方差达到总方差的98.71%, 当主成分数大于3时线性判别分析即可获得100%的分类预测准确率。 如图4(a)所示, 当训练集和测试集中的样本投影到前2个判别函数(F1和F2)构成的二维空间时, 训练集中的68个样本呈现明显的分类聚集特征, 测试集中的32个样本也均能投影在相同产地的训练样本区域。 对于光纤探头采集的近红外数据,F1和F2解释的累积方差达到总方差的89.69%, PCA-LDA投影分析如图4(b)所示。 由图4(a)和(b)对比可见, 由于光纤探头采集的光谱数据信噪比(S/N)比积分球低, 在相同参数下建立得到的判别模型分类效果有所降低, 样本更加分散。 尽管如此, 基于光纤探头数据建立的PCA-LDA模型仍然对测试集中的32个样本有100%的预测准确率。

2.3.2 K近邻法

在K近邻法中, 同样以经主成分分解后的光谱数据的若干个主成分作为输入数据进行建模, 以标准欧氏距离作为距离参数。 通过留一法交互检验对主成分数(PCs)和近邻数(k)进行参数优化, 结果如图5所示。 结果表明, 在3~5个主成分数以及1~9个近邻数的模型空间中均能获得高预测准确率, 从模型简洁性和计算效率考虑, 设定主成分个数为3, 近邻数为1。 利用建立的KNN模型对测试集中的32个样本进行预测, 积分球光谱数据的预测准确率为100%, 光纤探头光谱数据的预测准确率为93.75%。

图5 留一法交互检验参数(PCs和k)优化结果示意图

2.4 不同产地茉莉花样本液相色谱分析对比

近红外光谱反映的是样本中所有有机化合物含氢基团的分子振动信息, 尽管通过整个光谱的差异能够实现样本的识别, 但无法直观反映样本的组分差异。 为进一步揭示不同产地茉莉花样本的化学组成差异, 本研究通过测定了不同产地茉莉花花蕾样本的液相色谱(图6)。 通过总离子流图对比分析可以看出不同产地的茉莉花样本具有相同的整体相似特性, 这是由其固有的植物种属特征决定的, 但是由于生长环境的影响, 其色谱指纹图谱依然在含量分布及局部特征物质方面呈现出差异性, 相似度评价结果表明四个产地的茉莉花样本相似性在0.868 6~0.969 4之间。 这种化学组成定性定量的差异进一步影响了样本的近红外光谱特征, 进而奠定了基于近红外光谱实现产地识别的物质基础。

图6 不同产地茉莉花提取液的色谱总离子流图

3 结 论

近年来, 随着原产地保护理念在全球范围的流行, 农产品的产地溯源问题受到了生产企业、 学术界、 政府管理部门以及消费者等多个群体的普遍关注。 茉莉花独特的香味特征、 有效成分等均与其产地有密切关系。 因此, 茉莉花产地溯源可以有效保护地方特色经济作物, 并为茉莉花下游产品开发提供可靠的原料质量保证, 促进茉莉花产业的良性发展。 本工作通过近红外漫反射光谱结合化学模式识别方法建立了广西横州、 四川犍为、 福建福州、 云南元江四个省份的茉莉花产地识别模型, 总体识别准确率达到了93.75%~100%。 近红外光谱是一种绿色、 快速、 准确的光谱分析技术, 特别是利用光纤探头可以实现方便快捷的数据采集, 对于开发在线的茉莉花产地识别技术有重要意义, 同时该技术也可以拓展到其他农作物的溯源研究领域。

猜你喜欢
积分球产地光纤
积分球球内温度对光通量测量值的影响
FIBBR King-A系列HDMI光纤线
警惕“洗产地”暗礁
高品质的忠实还原 FIBBR Ultra Pro2 HDMI光纤线
一条光纤HDMI线的诞生长飞/长芯盛FIBBR工厂走访实录
食物离产地越远越好
测定不同产地宽筋藤中5种重金属
全国产1550nm 窄脉宽光纤放大器
基于积分球数据的面阵航测相机影像辐射校正
积分球出光孔亮度衰减测试系统研究