基于FT-NlR光谱技术结合KPCA-MD-SVM对白酒基酒的快速判别

2022-04-28 09:01翟双庹先国张贵宇朱雪梅罗林高婧罗琪
现代食品科技 2022年4期
关键词:基酒降维光谱

翟双,庹先国*,张贵宇,2*,朱雪梅,罗林,高婧,罗琪

(1.四川轻化工大学自动化与信息工程学院,人工智能四川省重点实验室,四川宜宾 644000)(2.西南科技大学信息工程学院,四川绵阳 621010)

白酒在中国是一种具有独特历史背景和风土人情的产物,其酿造工艺更是代代相传。摘酒是酿造工艺中很重要的一个环节[1,2],基酒的准确分级是摘酒过程中最为重要的操作。基酒品质的好坏直接影响到白酒的贮存和优质成品酒的产量。目前,摘酒主要还是靠成熟的摘酒工通过看酒花的大小和品尝味道来对基酒的酒度和风味进行一个评判和分段摘取,此方法会因为工人的熟练度有所不同而导致基酒品级良莠不齐,从而影响白酒的分级贮存和优质酒的产量。故研究一种简单且又客观准确的基酒分段判别技术尤为重要。

近年来,光谱技术的发展尤为迅速,因其重现性好,检测快速且无损,样品无需处理等优点已经被广泛运用于食品行业的质量检测以及其他行业物质类别的快速鉴别。高畅等[3]、段飞等[4]运用近红外光谱技术结合算法对白酒基酒总酯建立了定量分析模型。董新罗[5]运用近红外光谱技术结合化学计量学方法对杜康基酒中五种主要风味物质进行了快速检测。龚辉等[6]利用近红外漫反射技术实现了对黄酒酒醅中的酒精度的快速测定。袁强等[7]使用傅里叶近红外光谱法快速测定了养生酒的酒精度。孙宗保等[8]利用傅里叶变换近红外光谱技术对白酒基酒的主要风味物质进行了快速定量分析以及对白酒基酒建立了定性分析模型。以上研究都表明光谱技术能对白酒进行定性和定量检测,而目前对摘酒过程中基酒的检测和研究还比较少,基本集中在对基酒的实验室研究。因其FT-NIR近红外光谱对样品检测速度快且对样品无损,能满足在生产过程对基酒的检测。

近红外光谱技术作为一种间接的分析检测手段,是无法直接从光谱信号中得出相关化合物的定量或定性信息,其检测结果需要结合有效的建模方法来体现。光谱数据本质上属于非线性数据,数据处理时寻找一种有效的非线性分析处理方法能够提高建模效果。核主成分分析(Kernel Principal Component Analysis,KPCA)是一种建立在主成分分析(Principal Component Analysis,PCA)基础上的非线性处理算法。PCA在处理线性数据时效果良好,但是在非线性数据处理效果上不明显,而KPCA就能较好的解决这个问题[9,10]。异常样品的存在会降低模型的精度和泛化能力,所以在构建模型时需要将其异常数据剔除。马氏距离(Mahalanobis distance,MD)适用于近红外光谱异常数据的剔除[11],因此选择了此方法来剔除基酒异常光谱数据。支持向量机(Support Vector Machine,SVM)主要是通过找到最大间隔的划分超平面,使得不同类别之间的间隔最大化,在处理非线性和高维数据等问题中具有一定优势[12-14]。故利用KPCA+MD+SVM对白酒基酒光谱数据建立定性判别模型以实现对白酒基酒的快速鉴别,为近红外在自动摘酒上提供一种理论可能。

1 材料与方法

1.1 样品与数据采集

摘取的基酒品级段数是根据发酵酒醅的质量而具体制定。实验所摘取的基酒样品有四个品级的划分,有头段、一段、二段以及尾段。从酒甑开始流酒起,摘取头段到尾段每个段数的基酒样品。由于不同酒段的流酒时间不同,设置摘取基酒样本的间隔时间也是不同的。头段、二段以及尾酒摘取时间间隔为1~2 min,一段酒的摘取间隔为7~8 min。从头段到尾段一共采集10个样品,将采集好的样品装入事先准备好的50 mL的采集瓶,以备采集光谱数据使用。本文研究所用白酒基酒近红外光谱样品共400个,其中按基酒段数各取100个,样品取自中国某白酒酒厂。

1.2 仪器与样品制备

仪器设备:光谱采集设备是来自德国Bruker公司型号为Matrix-F的傅里叶变换近红外光谱仪,光谱分析软件采用MATLAB2020。

样品制备:实验室温度为20±2 ℃,空气相对湿度<80% RH。先将近红外检测附件安装在光谱仪上,然后启动与仪器相连的电脑,并启动仪器电源,待仪器稳定后启动光谱信号采集软件OPUS7.8,并预热1 h。调试仪器检测模式,将仪器检测模式调为液体检测模式,液体测定采用透射模式,并且设置光谱扫描范围:4000~12000 cm-1;分辨率:8 cm-1;扫描次数:32次。基酒的原始光谱数据是取两次光谱扫描结果的平均值。

1.3 数据处理

1.3.1 数据预处理

基酒样品光谱采集范围是4000~12000 cm-1,因受仪器本身的原因,光谱图的两端的噪声影响较大,因此截取采集在4300~9000 cm-1范围内的1217个光谱数据进行处理分析。光谱谱图一般会存在噪声、基线漂移及背景干扰,为提高建模的精度与可靠性,需对原始光谱数据进行预处理来消除其无关干扰。常用的光谱预处理方法有一阶导数,Savitzky-Golay平滑,基线校准等方法。

1.3.2 数据降维与异常样本剔除

1.3.2.1 数据降维

基酒中含有香味物质的种类繁多,光谱数据中含有大量的特征信息及冗余信息,故对数据进行降维处理。线性降维不能很好将数据分类,故使用核主成分分析(KPCA)对基酒光谱数据进行降维处理。

核主成分分析算法是在PCA算法的基础上加入了核函数,可以挖掘出数据集中隐含的非线性信息。

假设有n个基酒样本x={x1,x2,···,xn},xi∈RN,每个样本有m个属性,则xi={xi1,xi2,···,xim}。构造初始样本矩阵X′n×m并进行标准化,得到样本矩阵

Xn×m。

首先,将样本通过映射函数φ映射到高维特征空间RF中,对应映射值为φ(x1),φ(x2),···,φ(xn)并使用PCA方法得到协方差矩阵为:

通过(8)式,求得特征值λ1≥λ2≥···λn及其对应特征向量α1,α2,···,αn。选取p(p≤n)个特征值,满足贡献率≥85%。新样本φ(xj)投影后的第j(j=1,2,···,p)维坐标为:

1.3.2.2 异常样本剔除

为提高建模的准确性,研究采用马氏距离来剔除基酒光谱的异常样品。

马氏距离计算公式:

1.3.3 分类模型建立

当数据通过KPCA降维和马氏距离剔除异常样本后,对训练集进行建模。

本文的基酒段数有四段,采用支持向量机(SVM)建立基酒分类模型,采用的分类方式为“一对一”,每一类分别构建与其他类的二分类器,其具体原理参考王乃芯多分类支持向量机的研究[15]。本研究采用了径向基(RBF)核函数对基酒光谱数据建立模型,因为径向基核函数具有比较宽的收敛域,具有较强的适应性[16]。对于基于SVM建立的分类模型,惩罚因子和RBF参数对分类结果有重要的影响,本研究采用网格搜索法来寻找最优的参数值。

2 结果与分析

2.1 原始光谱数据建模效果

图1为400个基酒样品原始近红外光谱图。

为验证模型的准确率与泛化能力,采用SPXY对数据集进行划分,划分比例为4:1。将400个基酒样品中的320个作为训练集用于支持向量机(SVM)进行建模,然后用所建基酒分段模型对余下的80个基酒样品组成的测试集进行判别。其训练集正确率为90%,测试集判别率为87.70%,判别效果不理想。

2.2 预处理与KPCA分析后的模型效果

原始数据量中一个样品具有2203个特征,计算量庞大,十分耗费时间。除此之外,12000 cm-1与4000 cm-1附近因为仪器本身和环境的噪声对建模也有影响,故截取采集在4300~9000 cm-1范围内的1217个光谱数据进行分析。

从图2a中可看出光谱存在基线漂移和噪声的问题,为消除噪声和基线漂移等干扰建模效果因素,对光谱数据进行了预处理,其预处理效果如图2b。经过计算验证,基线校准+SG平滑为最优预处理方式,其中建模时间为17706.15 s且训练集正确率为93.02%,测试集判别率为90.08%,相比较原始光谱的建模结果,进行过最优预处理的光谱的模型训练集正确率提高了3.02%,测试集判别率提高了2.38%。

为了对基酒进行快速判别,减少运算时间,数据降维处理非常有必要。由于光谱数据呈非线性,使用主成分分析时的分类效果不好,所以使用了核主成分分析对样品光谱数据进行降维处理,图3是经过最优预处理方式后的核主成分累计贡献率结果。

从图3中可以看出当核主成分数为14时,其累计贡献率就已经达到90%。当累计贡献率为100%时,核主成分数为400。相比原数据的1217维数据特征,经过核主成分分析的数据降维效果明显。

选取核主成分分析的部分不同累计贡献率的降维数据进行建模,其计算结果见表1。

表1 不同核主成分数下的基酒判别结果Table 1 Discrimination results of base liquor under different kernel principal component fractions

从表1中可以看出随着累计贡献率的增加,取得的核主成分数就越多,其中当累计贡献率达到0.9即核主成分数为14时,分类效果最好。其中训练集的正确率达到94.81%,测试集的判别率达到90.75%,同时模型建立时间为731.57 s。相比于未进行核主成分分析时模型训练集的正确率提高了1.79%,测试集的判别率提高了0.67%,同时少用24倍的建模时间。说明了核主成分分析能够提高模型准确率的同时大大缩短了建模所需时间。

虽然使用核主成分分析后的基酒分段模型时间远远少于未进行核主成分处理的模型,但是模型的判别效果还需要提升。其中训练集正确率还有待提高,预测集判别效果不够理想,这可能是异常样品的存在影响了模型的判别能力,故该对样本做异常数据剔除。

2.3 剔除异常样品对判别效果的研究

选取基线校准+SG平滑的前13个核主成分的基酒数据进行马氏距离计算,得到马氏距离分布图4。从图4中可以看出,第1、4、7号样品的马氏距离过大,为异常光谱数据样品。为了探讨异常样品对模型的影响,按照1.3.2.2中所提到的方法,本研究设置了6个不同权重系数e(3,2,1.95,1.9,1.85,1.8),分别将大于该阈值的异常光谱数据剔除,然后利用剩下的样品数据采用SVM进行训练集建模,用测试集检测异常样品剔除对建模效果的影响,其剔除样品个数与建模效果如下表2所示,其中当阈值e为1.85时,其判别率最高。

表2 不同权重系数下的判别结果Table 2 Discrimination results under different weight coefficients

从表2中可以看出,当权重系数越小时,剔除的数据就越多。当权重系数e为1.85时,基酒分段模型对测试集的判别效果最好,其训练集判别率能达到98.72%,测试集判别率能达到98.75%,相比未进行异常数据剔除时训练集的正确率提高了3.91%,测试集的判别率提高了8%,说明了马氏距离能够有效剔除异常光谱数据,提高模型的判别能力。图5为权重系数e为1.85时,测试集的结果图。

3 结论

本文利用傅里叶近红外光谱技术对摘酒过程中的基酒样品进行测量,借助KPCA-MD-SVM算法建立了基酒分段模型。此基酒分段模型对测试集的判别率为98.75%,证明了使用核主成分分析(KPCA)能有效对基酒的近红外光谱进行降维处理,并且降维处理后的数据建立的分类模型能很好对基酒段数进行判别。同时马氏距离法能有效地剔除基酒的异常光谱数据,基酒的分类模型的准确性得到了明显的提升。KPCA-MD-SVM模型对基酒段数进行判别,其稳定性好,为近红外光谱在实现自动化摘酒应用上提供了一种理论可能。

猜你喜欢
基酒降维光谱
基于三维Saab变换的高光谱图像压缩方法
混动成为降维打击的实力 东风风神皓极
基于3D-CNN的高光谱遥感图像分类算法
基于数据降维与聚类的车联网数据分析应用
那些外购基酒的白酒企业
大气腐蚀数据降维最优维度研究
降维打击
贴上“绿色”标签的豫坡老基酒
苦味酸与牛血清蛋白相互作用的光谱研究