基于PCA及霍特林T2分布的在线近红外建模研究

2021-09-22 07:44毕荣道赵旻
电子技术与软件工程 2021年13期
关键词:烟碱样本量烟叶

毕荣道 赵旻

(1.中国烟草云南进出口有限公司 云南省昆明市 650031 2.云南省烟草专卖局(公司) 云南省昆明市 650000)

1 引言

在烟叶质量的评价体系中,烟叶内在质量的一致性是重要的评价指标,一直以来受到烟草加工企业的高度重视。烟叶化学成分是影响烟叶内在质量的物质基础,烟叶中总糖、还原糖、烟碱、总氮、氯、钾等化学成分,因为对烟叶质量有重要影响而成为烟草行业日常的检测指标,一般称作“烟叶常规化学成分”[1]。由于烟叶中各种化学成分的含量反映了烟叶的质量状态[2],所以烟草加工企业追求化学成分含量合理并且协调的烟叶原料[3]。

近红外光谱技术是近年来迅速发展起来的一种方便、高效、低成本的绿色分析技术。由于其分析简便、快速、低成本、无污染及样品的非破坏性和多组分同时测定等优点,已收到人们的广泛关注[4]。目前,已广泛应用在烟草行业。因为烟草近红外谱图中包含大量的烟叶常规化学成分指标信息、物理指标信息以及外观信息,所以近红外在常规化学指标检测、烟叶稳定性评价以及烟叶质量评价领域发挥着很大的作用[5]。

2 研究背景

要建立一个比较好的近红外模型,往往需要足够多的样本量,比较好的基础数据质量,才能构建起近红外模型检测评价体系[6]。模型里面的样本量的大小比较重要,而往往模型里面的样本量不能确定的话,要么导致模型的样本量过少,使得构建的烟叶近红外定性定量模型不够稳定[7];要么会导致模型里面的样本量过多,使得建立的近红外模型包含丰富的待挖掘信息,但是也同时会导致构建的近红外模型体系非常复杂,维护起来非常繁琐、复杂,形成了年度一维护,季度一维护,更有甚者一月、一周一维护,这很大程度上制约了近红外模型在烟草领域的深度应用[8]。

目前,在实际烟草领域近红外定性、定量模型构建的过程中,对于样本量的确定方法一般有如下几种方法:一是人为要求近红外模型里面的样本包含不同品种、产地、部位、等级,甚至不同工艺的加工方式,由于场地、品种、等级较多,这种要求一般在实际生产中很难全部满足[9];二是人为取大量的基础光谱数据,利用PCA投影,剔除比较接近的样本,逐渐的扩大模型的样本容量[10]。这种方法由于PCA空间随着样本容量的变化而变化,而且只能定性指导近红外检测人员,并不能给检测人员一种明确的定量指导。利用近红外分析技术进行统计分析,没有必要片面追求样本数量的巨大。由于最低样本数量的要求与许多因素有关:近红外信息的含量,信号的稳定性,基础数据的准确性,近红外指标模型复杂程度,数据分布形态,近红外应用的背景强度以及研究设计特点,所以没有任何一个最少样本量的推荐值同时考虑了上述诸因素。近红外样本容量是一个很值得研究的问题,在构建近红外复杂定性定量体系的过程中,如果样本量过少,构建出来的近红外模型往往不能包含复杂的背景体系,稳健性不好,导致模型的外推预测能力变差。如果在构建近红外模型体系中样本量过多,这无疑会对模型的定性定量构建带来运算上的复杂度。同时近红外的快速分析检测的优势就体现不出来。在使用自动流动分析仪进行烟叶常规化学成分基础数据检测时,往往会花费大量的人力、物力和财力:每台自动流动分析仪,每天仅能测定三四十个样品,且总氮的检测还需要提前一天准备,而每个样品的检测就需要八十元左右的费用。这些无疑会给检测人员带来较大的工作任务,给企业带来成本的大幅上升,而且增加了维护的近红外模型的难度[7]。

因此,如何快捷、准确的在近红外模型构建前确定近红外模型所需要的样本容量,合理的根据实验目标以及前期所取得的基础数据信息,渐进评估模型的所需样本量,构建一个具备初步稳健性质的近红外复杂体系模型就为了比较值得研究的问题。为降低人力、物力和财力,此次试验就检测一种化学指标,来确定在线近红外建模所需样本数量。由于烟碱是烟草特有的植物碱,是影响烟叶质量的重要化学成分,下面就选择其作为检测对象来研究该问题。

3 研究材料和方法

3.1 试验材料

试验材料来自云南、四川、安徽和广西等4个省份不同产地2014年至2017年的原烟,其部位涵盖上部、中部和下部三种部位。

3.2 仪器与设备

德国卡尔蔡司股份有限公司在线近红外光谱仪Armor711,多通道阵列检测器型,波长范围:900-2100nm,波长准确性小于0.5nm,波长重复性小于0.05nm,RMS小于104(<30μabs),采集的点数为259点;德国布朗卢比公司连续流动分析仪AutoAnalyzer3;瑞士梅特勒托利多公司电子天平ME104E。

3.3 软件

德国CarlZeiss光谱采集软件procXplorer;美国Mathworks数据处理软件为MTALABR2012a。

3.4 方法

先提前在传送皮带上取经过在线近红外光谱仪采集过光谱的烟叶样本光谱800个,并将该800个样本采用连续流动分析仪检测烟碱值,将700个样本用于建立模型,另外取100个样本作为独立测试集。

3.4.1 PCA分析

主成分分析(Principal Component Analysis, PCA),是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。操作是通过对协方差矩阵进行特征分解,保留低阶主成分,忽略高阶主成分,以得出数据的主成分(即特征矢量)与它们的权值,减少数据集的维数,同时保持数据集的对方差贡献最大的特征。在不丢失重要信息的情况下,把多指标转化为少数几个综合指标,实现降维,找出表达性最强的相关指标。

图1:700个在线近红外样本的T2值

图2:不同抽样比例的稳定性及空间变异程度

表1:两个对独立测试集的预测结果对比

将采集到的700个建模样本光谱先进行主成分分析(PCA),如下公式:

公式(1)中,X是n×m的光谱矩阵,n是样本数,m是波长变量数;t是主成分得分矩阵;p是载荷矩阵;E是残差阵。

3.4.2 T2统计量计算

构造样本近红外光谱的霍特林T2统计量:

由此,还可以计算样本点i对成分t1, t2, …, tm的累计贡献率:

可以证明:

式中,F表示的是F分布[8]。

4 结果与分析

4.1 样本统计量

选取10个PCA主成分,计算700个样本近红外光谱T2统计量如图1所示,其均值为0.994、标准偏差为0.908。

对全体样本空间的T2值以5%为起点,间隔2%,最大值100%进行抽样,每个比例的抽样次数为10000次,统计不同抽样比例的T2空间变异程度,即T2值的均值、每个抽样比例的稳定性,即T2值的标准偏差。如图2所示。

利用式(4)中的F统计值对比,可以得出当抽取样本量为259个时与总体700个样本的T2值变异程度基本一致。因此建立近红外模型的样本统计量为259个左右。

4.2 偏最小二乘法建模比较

4.2.1 总体样本建立偏最小二乘模型

将700个样本选取80%作为校正集建立偏最小二乘模型,20%作为验证集对模型进行验证,另外再将700个样本之外的100个样本作为测试集对所建模型进行测试。预测均方根误差(RMSEP)为0.37,决定系数R2为0.75。图3是该模型对100个独立测试集预测结果与真实值比对图。

4.2.2 按最优比例抽样建立偏最小二乘模型

在700个总体样本中随机抽取259个样本选取80%作为校正集建立偏最小二乘模型,20%作为验证集对模型进行验证,另外再将700个样本之外的100个样本作为测试集对所建模型进行测试。预测均方根误差(RMSEP)为0.38,决定系数R2为0.77。图4是该模型对100个独立测试集预测结果与真实值比对图。

4.2.3 两模型对比

两个模型分别对100个独立测试集进行预测,表1是两个模型的预测结果对比,从表中可以看出,两模型的RMSEP分别是0.37和0.38几乎没有差异。图5是两个模型预测结果与真实值比对图,且总体模型和抽样的对100个独立测试集的预测结果相关系数高达0.958。这是因为T2统计量是基于光谱主成分得分计算的。当抽样样本空间的T2统计量的均值和标偏都接近于总体的均值与标偏,说明该抽样样本空间的光谱性质接近总体样本光谱性质,所以两者样本建立的近红外模型预测结果相当,不存在显著差异。

图3:100个独立测试集真实值与预测值对比图

图4:100个独立测试集真实值与预测值对比图

图5:两个模型预测结果与真实值对比

5 结论

本文构建了一种以更小样本数、更少化学特征进行在线近红外建模的方法,给出了确定建模样本数的计算方式。试验表明,通过T2统计量抽样选择的近红外烟碱样本数量建立的模型与总体样本建立的模型预测能力结果相当,不存在显著差异,所建模精度良好,该近红外光谱模型可以快速预测烟叶的烟碱含量。

本试验还说明,只要测试采集样本的烟碱值,比较抽样T2统计量与总体样本的T2统计量标偏差异小就可以得到最佳的抽样比例,进而确定建立近红外定量模型所需的样本数量,而无需对每个样本的烟碱值进行分析,不需要花费大量的时间、精力、试剂及经费,可以大大节省成本,并提高工作效率。

通过该方法,下一步还可以研究确定烟叶中总糖、还原糖、总氮、氯、钾等成分在线近红外建模样本数量,从而确定烟叶这几种常规化学成分指标在线近红外建模所需最优样本数量,这样就无需对烟叶的所有常规化学成分含量进行检测,还可以进一步节约成本,大大提高工作效率。

猜你喜欢
烟碱样本量烟叶
α7-烟碱乙酰胆碱受体在肺癌发生、发展及治疗中的作用
医学研究中样本量的选择
新烟碱类杀虫剂环氧虫啶及其开发
关于新形势下烟叶生产可持续发展的思考
航空装备测试性试验样本量确定方法
烟叶主要真菌病害的发生与防治
Sample Size Calculations for Comparing Groups with Binary Outcomes
一种降低造纸法再造烟叶平滑度的方法
湘西上部烟叶化学成分特征及聚类分析
自适应样本量调整中Fisher合并P值法和传统检验法的模拟比较