基于傅里叶变换红外光谱指纹技术的艾叶产地溯源研究

2022-08-07 05:58李孟芝李丹霞韦诗冰崔占虎项丽玲黄显章
光谱学与光谱分析 2022年8期
关键词:艾叶产地正确率

李 超, 李孟芝, 李丹霞, 韦诗冰, 崔占虎, 项丽玲, 黄显章*

1. 南阳理工学院河南省张仲景方药与免疫调节重点实验室, 河南 南阳 473000

2. 福建农林大学农学院, 福建 福州 350002

引 言

艾叶为菊科植物艾ArtemisiaargyiLevl et Vant的干燥叶[1], 性味苦、 温、 辛, 归肝、 脾、 肾经, 具有散寒止痛、 温经止血、 理气安胎等功效, 距今已有2000余年的临床用药历史[2-4]。 历代本草中已明确记载“蕲艾”、 “北艾”、 “海艾”及“祁艾”为道地药材, 即现在湖北蕲春、 河南安阳、 浙江宁波及河北安国等地所产艾叶[5]。 目前, 河南省南阳市已成为国内最大的艾叶生产和集散地, 产业规模居全国之首。 开展以上产区艾叶的研究能够涵盖我国目前艾叶主产区的整体情况, 具有重要的现实意义。

近年来, 中医药产业的快速发展带来了中药材资源需求量的激增, 但同时也存在诸多安全隐患, 就艾叶而言, 国内中药材交易市场的现状令人堪忧。 到目前为止, 仍未发现道地产区艾叶的鉴别特征和行之有效的分类方法。 在经济利益的驱使下, 药材市场存在一些不法经销商以次充好, 以假乱真, 恣意谎称优质产区艾叶而从中谋取暴利。 虽有研究者已意识到艾叶产地鉴别的重要性, 并报道了产地间多种活性成分含量差异显著, 为艾叶产地差异化研究积累了有益的本底资料[6-8], 但前人研究均是在明确产地的前提下对单个或多个化学成分含量的比较, 并不能有效地进行艾叶产地溯源和未知地域来源艾叶的产地鉴别。 傅里叶变换红外光谱分析技术具有无损、 快捷、 可在线检测等显著的优点, 且没有复杂的预处理, 更不涉及有毒的化学试剂, 已成功应用于多种中药材的产地溯源[9-10]。 本研究采用FTIR法对不同产地艾叶样品进行测定和分析, 建立艾叶药材红外指纹图谱, 并对指纹图谱进行表征解析、 相似度计算及计量学分析。 在此基础上, 通过比较多种光谱预处理方法和多种模式识别技术, 确立适合艾叶产地鉴别的模型, 研究结果可为中药材的产地鉴别和质量控制提供一种新的思路和方法。

1 实验部分

1.1 仪器与试剂

ALPHA Ⅱ型傅里叶变换红外光谱仪(德国Bruker公司), 自带DTGS检测器(8 000~350 cm-1, 信噪比为4 000∶1, 扫描累积64次); MS-105型电子天平(瑞士梅特勒-托利多公司生产), FSJ-A05N6微型粉碎机(广东小熊电器股份有限公司生产); FY-15型粉末压片机(上海天阖机械设备有限公司); 8401-2A型红外干燥箱(常州诺基仪器有限公司); KBr(光谱纯, 天津科密欧化学试剂有限公司)。

1.2 样品采集

艾叶样品于2020年5月—6月在河南省南阳市和安阳市、 湖北省蕲春县、 浙江省宁波市以及河北省安国市等地采集, 经南阳理工学院黄显章教授鉴定为菊科蒿属草本植物艾Artemisiaargyilevl.et Vant.。 将不同产地的艾叶样品去杂、 挑选、 干燥、 剪碎并混匀后备用。

1.3 样品制备与测定

将不同产地的艾叶样品去杂、 挑选、 干燥、 剪碎并混匀, 于50 ℃烘箱中低温烘干直至恒重, 粉碎, 过80目筛, 备用。 精密称取艾叶样品1 mg与干燥后的KBr 150 mg混合并充分研磨, 压片成厚度约为1 mm的锭片, 上机测定。 在扫描中, 每个样品片随机扫描3个方位, 获得3幅光谱图, 取其平均谱图作为最后的样品谱图。

1.4 实验环境与分析方法

实验室内温度和相对湿度分别控制在22~27 ℃和30%~40%, 扫描时扣除H2O和CO2的干扰。 得到的原始光谱数据经OPUS软件进行基线校正和平滑处理, 初步消除基线和噪声的影响。

1.5 方法学考察

在精密度实验中, 取同一编号的艾叶样品, 按照上述测定方法, 连续测定5次, 并计算其共有峰的相对标准偏差; 在稳定性实验中, 取同一编号的艾叶样品, 按照上述测定方法, 分别于0, 2, 4, 8, 16, 24 h测定并计算其共有峰波数的相对标准偏差。 在重复性实验中, 取同一编号的艾叶样品, 连续称取该编号的5份平行样, 按照上述测定方法, 并计算其共有峰波数的相对标准偏差。

1.6 数据处理

运用SPSS 19.0(IBM, USA)、 Simca-p 11.5(Umetrics, Sweden)、 Origin 9.0(OriginLab, USA)、 Matlab 2017A(Mathworks Inc., USA)等软件进行数据挖掘、 绘图和模式识别。

2 结果与讨论

2.1 方法学考察

精密度实验结果表明, 共有峰波数的相对标准偏差均小于0.65%; 稳定性实验结果表明, 共有峰波数的相对标准偏差在0.21%~4.58%之间, 且样品在24 h内稳定; 重复性实验结果表明, 共有峰波数的相对标准偏差在0.28%~4.85%之间。 以上方法学考察结果表明, 该分析方法可靠、 重复性好、 稳定性强, 符合指纹图谱的要求, 不同产地艾叶的原始红外光谱见图1。

图1 不同产地艾叶的原始傅里叶变换红外光谱

2.2 对照药材红外图谱的建立

湖北省蕲春县是艾叶的传统道地产区, 也是临床制剂和民间传统用药的主要采集区。 以共有模式建立艾叶的对照红外图谱, 选择湖北省蕲春县3个乡镇的15批样品作为对照药材, 每份样品随机扫描3次, 最终以45批对照药材吸收强度均值作为对照图谱的吸收强度(见图2)。

图2 艾叶红外对照图谱及共有特征峰

2.3 红外图谱共有特征峰的解析及表征

2.4 相似度分析

采用三种方式对不同产地艾叶红外指纹图谱相似度进行分析, 分别是共有特征峰相似度分析(3 273, 3 008, 2 917, 1 656, 1 485, 1 195, 1 051, 843及664 cm-1)、 特征波段相似度分析(3 650~2 600和1 600~550 cm-1)以及全光谱相似度分析。 通过三种方式的分析和对比, 既能突出共有特征峰的特点, 又能将红外信息较为全面展现出来, 分析结果见表1。 从表1可以看出, 不同产地艾叶样品特征峰与对照样品特征峰有一定的差异, 但整体上相似度较高, 相关系数均在0.9以上; 在特征波段和全光谱的相似度对比中, 除河南省安阳市艾叶样品与对照图谱表现出较为明显的差异性外(分别为0.803和0.734), 其他产地的相似度均较高(大于0.9), 故此方法产地分类的可行性较低。 整体来看, 艾叶的红外光谱信息在产地间相似度较高, 仅采用共有特征峰、 特征波段及全谱的相似度比对无法对艾叶产地进行有效的预测和鉴别。

表1 相似度分析结果

2.5 主成分分析

在主成分分析过程中, 指纹区的光谱信息被转换成1 749个数据节点, 并形成1 749×75高维矩阵, 将上述数据带入SIMCA和MATLAB中进行降维和计算。 通过对75份艾叶样品的特征提取, 共得到8个有效主成分(表2), 其方差贡献率分别为82.50%, 9.61%, 3.28%, 2.71%, 0.71%, 0.53%, 0.20%及0.19%, 累计贡献率共达到99.73%, 说明所提取的8个主成分能够充分地解释和代表原始光谱信息, 且主成分累计交叉验证准确率较高(99.55%), 表明所构建的主成分分析方法有效且稳定。

用贡献率最大的前三主成分绘制3D-plots散点图, 如图3所示, 不同产地的艾叶样品虽出现部分重叠的情况, 但从整体来看分类趋势较为明显, 且不同产地样品的分布相对集中且独立, 说明基于傅里叶变换红外光谱技术的艾叶产地溯源具有较高的可行性。 然而主成分分析仅能提供聚类和距离的趋势, 并不能对不同产地的艾叶样品进行量化分类, 为了得到更为准确和直观的结果, 我们将借助计量学模型进行进一步的分析。

表2 主成分的特征值及贡献率

图3 艾叶前三主成分3D-plots图

2.6 基于K-最近邻算法的产地溯源分析

K-最近邻算法(KNN)是数据分类技术中最简单的方法之一, 该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 因KNN算法主要依据周围有限的邻近样本, 对于类域的交叉或重叠较多的待分样本集, 该方法更为适合。

采用KNN算法对艾叶的产地进行鉴别, 通过比较欧氏距离、 曼哈顿距离及夹角余弦的分类效果, 并经过K值的持续寻优, 最终得到分类结果见表3。 从表3可以看出, 艾叶样品在不同预处理方式和不同距离算法下的鉴别率差异较大, 欧氏距离算法和曼哈顿距离算法的正确率均在66.7%~100%之间, 夹角余弦算法正确率在60.0%~100%之间。 在不同的信号预处理中, 一阶导数+Norris Gap的处理方法效果最好, 在3种距离算法中样本分类正确率均达到100%。 整体来比较, KNN分类模型结合一阶导数+Norris Gap信号预处理方法可用于艾叶的产地差异化鉴别, 且该模型运行时间短, 准确率高, 值得推广和应用。

表3 KNN算法的鉴别效果

2.7 基于随机森林算法的产地溯源分析

随机森林(RF)算法是基于多个决策树的分类器, 是最常用也是最强大的监督学习算法之一, 该算法按照集成学习的思想, 将多棵决策树进行集成学习, 其输出的类别由个别树输出的众数所决定。 在RF算法中, 选择数据量的80%为训练集, 数据量的20%为测试集, 通过Matlab软件进行学习和识别, 结果见表4。 从表4可以看出, 不同产地艾叶样品在训练集中的鉴别正确率均达到100%, 而测试集中正确率在53.3%~86.7%之间。 在不同信号预处理中, 去噪处理和一阶导数+SG平滑效果最好, 训练集和测试集的正确率均为100%和86.7%; 其次是高斯滤波、 归一化处理及一阶导数+Norris Gap 3种预处理方法, 训练集和测试集的正确率均为100%和80.0%; 而其他4种信号处理方法效果不佳, 测试集的正确率均在80%以下。 总之RF分类模型对艾叶产地分类效果欠佳, 有待进一步调试和优化。

表4 RF算法的鉴别效果

2.8 基于贝叶斯算法的产地溯源分析

贝叶斯分类算法(Bayes)是一类利用概率统计知识进行分类的算法。 在许多数据挖掘过程中, 朴素贝叶斯分类算法可以与决策树和神经网络分类算法相媲美, 该算法能运用到大型数据库中, 而且方法简单、 分类准确率高、 速度快。 基于Bayes算法的鉴别效果见表5, 从表5可以看出, 不同产地艾叶样品训练集正确率在83.3%~100%之间, 测试集正确率在6.7%~100%之间。 在不同的信号预处理中, 一阶导数+Norris Gap效果最好, 样本在训练集和测试集的正确率均为100%; 其次是去噪处理, 训练集和测试集的正确率为100%和93.33%; 而其他7种信号处理方法效果不佳, 测试集的正确率均不高于80%。 从上述分析可以看出, Bayes算法结合一阶导数+Norris Gap信号预处理方法可以实现艾叶的产地鉴别, 正确率达到100%, 产地溯源效果理想。

表5 贝叶斯算法的鉴别效果

2.9 基于粒子群优化支持向量机的产地溯源分析

粒子群优化支持向量机算法(SVM-pso)是一种模拟鸟群随机搜索食物行为的算法, 该算法对每个优化问题的潜在解读是搜索空间中的一只鸟, 称为“粒子”, 所有的“粒子”都有一个由优化函数决定的适应值, 且每个粒子还有一个速度决定它们“飞行”的方向和距离, 通过群体中个体之间的协作和信息共享来寻找最优解。 在SVM-pso算法中, 选择数据量的80%为训练集, 数据量的20%为测试集, 适应度曲线MSE的参数为c1=2,c2=2, 终止代数=100, 种群数量=20, Bestc=81.678 5,g=0.024 229, 分析结果见表6。 从表6可以看出, 训练集正确率均为100%, 测试集正确率在46.7%~100%之间。 在不同的信号预处理中, 一阶导数+Norris Gap效果最好, 训练集和测试集的正确率均为100%; 其次是去噪处理、 高斯滤波、 归一化处理、 多元散射校正及一阶导数+SG平滑5种信号预处理方式, 训练集和测试集的正确率均为100%和86.7%; 而其他3种信号处理方法效果不佳, 测试集的正确率均低于80%。 从上述分析可以看出, SVM-pso算法结合一阶导数+Norris Gap信号预处理方法可以实现艾叶的产地鉴别, 正确率达到100%, 产地溯源效果理想。

表6 SVM-pso算法的鉴别效果

2.10 基于BP神经网络算法的产地溯源分析

BP神经网络算法(BP-NN)理论上可以逼近任意函数, 具有很强的非线性映射能力。 该算法的中间层数、 各层处理单元数及网络学习系数等参数可根据具体情况设定, 灵活性很大, 在优化、 信号处理与模式识别等领域都有着广泛的应用前景。 在BP-NN算法中, 选择数据量的80%为训练集, 数据量的20%为测试集, 通过Matlab软件进行学习和识别, 分析结果见表7。

表7 BP神经网络算法的鉴别效果

从表7可以看出, 虽然不同产地艾叶训练集正确率可以达到100%, 但是无论采用何种预处理方式, 其测试集的正确率均不高于60%, 说明BP-NN模型对艾叶产地的识别程度较低, 不适用于艾叶的产地溯源研究。

2.11 基于最小二乘支持向量机算法的产地溯源分析

最小二乘支持向量机(LS-SVM)是将Kernel应用到Ridge regression中的一种方法, 该算法通过将所有样本用最小二乘误差进行拟合(在kernel变换过的高维空间), 相比常规的SVM而言具有训练速度较快, 结果较准等优点。 在LS-SVM模型的构建中, 选择数据量的80%为训练集, 数据量的20%为测试集, 通过Matlab软件进行学习和识别, 分析结果见表8。 从表8可以看出, 虽然不同产地艾叶训练集的正确率均达到100%, 但是无论采用何种预处理方式, 其测试集的正确率均不高于33.3%, 说明LS-SVM模型对艾叶产地的识别程度较低, 亦不适用于艾叶的产地溯源研究。

表8 LS-SVM算法的鉴别效果

2.12 不同计量学模型溯源效果的比较

选取不同计量学模型和不同预处理方式的最佳鉴别结果进行分析和比较, 结果见表9, 从表9可以看出, 6种溯源模型正确率的高低顺序为: SVM-pso(100%, 一阶导数+Norris Gap)=KNN(100%, 一阶导数+Norris Gap)= Bayes(100%, 一阶导数+Norris Gap)>RF(86.67%, 去噪处理)>BP-NN(60.0%, 一阶导数+SG平滑)>LS-SVM(33.3%, 高斯滤波)。 其中, SVM-pso、 KNN及Bayes 3种模型分类效果最为理想, 测试集的正确率均达到100%。 基于运行时间、 鉴别正确率与模型稳定性综合考虑, 最终确定KNN溯源模型是艾叶产地鉴别的最优方法。 总体来说, 基于傅里叶变换红外光谱指纹技术与适当的计量学模型相结合, 可用于艾叶的产地鉴别。

表9 不同模式识别方法的比较

3 结 论

随着中医药行业的高速发展, 下游产业对中药材资源的需求量不断提升, 而中药材整体质量参差不齐已成为制约中医药产业健康发展的主要因素。 目前, 艾叶制剂备受认可和青睐, 临床应用范围也日益增多, 越来越多的消费者希望能够明确原料药材的来源, 道地产区的艾叶已供不应求。 前人虽已对不同产地艾叶进行了初步的品质评价研究, 但大多报道仅限于艾叶中单个或几个化学成分含量的比较, 并不能有效地进行质量控制和产地区分, 且所用方法操作复杂、 耗时费力, 并不适合日常生产实践所需。

针对以上瓶颈问题, 以国内4个省份5个主产区的75份艾叶样品为实验材料, 采用FTIR法进行红外特征分析和数据挖掘, 通过比较去噪处理、 高斯滤波、 归一化处理、 多元散射校正、 标准正态变换、 一阶/二阶导数+SG平滑及一阶/二阶导数+Norris Gap等光谱信号预处理方法和LS-SVM, SVM-pso, Bayes, RF, BP-NN及KNN等模式识别技术, 探索适合艾叶产地溯源的计量学方法。 研究结果表明, 基于运行时间、 鉴别正确率与模型稳定性综合考虑, KNN模型是艾叶产地鉴别的最优方法, 测试集的正确率均为100%, 产地溯源效果理想。 本研究为艾叶道地性评价和质量控制提供了有益的技术支持, 且该方法具有无损、 快捷、 可在线检测等显著的优点, 有望药企或监管部门应用和推广。 课题组将持续扩大样品的收集范围, 结合药效成分、 药理作用等指标进行综合评价与溯源, 并采用外部盲样对所建判别模型的预测准确度做出验证, 以期建立艾叶更为稳定和准确的产地判别模型。

猜你喜欢
艾叶产地正确率
端午佳节话艾叶
个性化护理干预对提高住院患者留取痰标本正确率的影响
门诊分诊服务态度与正确率对护患关系的影响
警惕“洗产地”暗礁
食物离产地越远越好
测定不同产地宽筋藤中5种重金属
HPLC法同时测定艾叶中7种成分
RP-HPLC法同时测定7个产地天麻中5种成分
生意
生意