结合径向基函数和KPCA的食用油太赫兹光谱特征提取方法

2020-02-25 08:05王卓薇罗鉴鹏李学识程良伦
光谱学与光谱分析 2020年2期
关键词:类间赫兹食用油

王卓薇, 罗鉴鹏, 李学识, 程良伦

1. 广东工业大学计算机学院, 广东 广州 510006 2. 广东工业大学自动化学院, 广东 广州 510006

引 言

太赫兹光谱在食品检测方面的应用研究越来越多, 食用油检测是其中的一个重要部分。 Liu等[1]比较了偏最小二乘-支持向量机(LS-SVM)、 BP神经网络(BPNN)、 随机森林(RF)、 主成分分析(PCA)这些不同的化学计量学方法判断橄榄油产地的效果, 验证了化学计量学在太赫兹光谱定性分析中的重要作用。 聂美彤等[2]使用衰减全反射式太赫兹光谱研究了大豆油、 核桃油和葡萄籽油的光谱特性, 证明了太赫兹光谱在食用油定性分析方面具备理论基础。 李利龙等[3]使用太赫兹光谱对7种植物油和2种调和油进行研究, 结果表明: 脂类有机大分子对THz辐射具有差异性吸收, 具备在THz波段的识别基础, 可通过THz技术进行鉴别和定性分析。 Yin等提出了一种通过使用太赫兹(THz)光谱结合遗传算法(GA)和偏最小二乘判别分析(PLS-DA)来区分食用油的方法。 结果表明, GA-PLS-DA模型具有较小的预测均方根误差(RESEP), 较大的预测相关系数(Rp), 以及比其他模型更高的分类精度。 他们得到THz光谱与化学计量学相结合是区分各种食用油的有效方法的结论[4]。

在目前的材料定性研究中, 研究人员主要是通过提取太赫兹光谱特征结合支持向量机、 人工神经网络等机器学习方法进行定性识别。 陈涛[5]提出了一种基于PCA和模糊识别方法的生物分子太赫兹光谱识别方法, 并采用多种典型糖类和氨基酸生物分子的太赫兹光谱作为实验介质证明所提方法的可行性和有效性。 胡晓华等[6]采用PCA对3个产地的咖啡进行太赫兹光谱分析, 构造了基于粒子群参数寻优的支持向量机鉴别模型, 模型对不同产地咖啡样品的综合识别率达到95%。 张文涛等[7]在采用太赫兹时域光谱技术对转基因大豆油光谱检测的基础上结合PCA及支持向量机, 构建PCA-SVM模型对转基因大豆油进行鉴别。 Liu等[8]使用连续投影算法结合加权线性判别法实现了各种类型转基因油的区分。 在上述研究中, 首先采用PCA提取太赫兹光谱特征然后采用非线性的分类器进行分类。 但是, PCA这类线性降维方法不适合对太赫兹光谱数据进行特征提取。 由于物质的太赫兹光谱数据各维度呈现非线性, 尤其是当不同物质的太赫兹光谱曲线整体非常相似时, 线性处理方法易产生较大误差。

核主成分分析(KPCA)是一种非线性研究方法, 通过核函数完成非线性映射的过程, 最终实现对非线性数据降维同时最大程度保留原始数据的信息。 KPCA在捕捉数据的非线性特征比较有效。 KPCA应用在故障检测等场合比较多。 Hu等[9]提出了一种基于加权极限学习机(WELM)的小波包分解(WPD)和KPCA的特征提取方法。 Deng等[10]改进KPCA用于工业过程多模态诊断。 但是KPCA在光谱识别方面应用极少, 本文尝试使用KPCA提取光谱数据特征。 径向基函数是一类其值只依赖于变量距原点距离的函数。 如果原始数据是线性不可分的, 通过径向基函数映射可能变得线性可分。 太赫兹光谱数据整体上是线性不可分的, 通过径向基函数可以将光谱数据映射到新的空间, 然后进行线性区分。 但是径向基函数映射后得到的太赫兹光谱数据也未必都是线性可分的, 因此采用KPCA这种方法进行特征提取更加合适。 针对太赫兹光谱线性不可分、 特征提取难的问题, 提出了结合径向基函数和KPCA的方法进行特征提取。 首先采用径向基函数对去噪后的光谱数据进行映射, 再采用KPCA进行特征提取, 最后采用支持向量机对太赫兹光谱进行分类, 验证特征提取效果。

1 结合径向基函数和KPCA的太赫兹光谱特征提取方法

1.1 径向基函数和KPCA的理论基础

1.1.1 径向基函数

径向基函数满足: 若‖x1‖=‖x2‖, 则φ(x1)=φ(x2)。 根据定义可以发现, 径向基函数是某种沿径向对称的函数, 通常表示成变量到原点之间的欧氏距离的单调函数。 径向基函数可以将非线性数据映射到新的径向基空间中, 原始的非线性数据在新的径向基空间就有可能变成线性数据。 径向基函数空间定义为: 给定一个一元函数φ:R+→R, 在定义域x∈Rd上, 所有形如φ(x-c)=φ(‖x-c‖)及其线性组合张成的函数空间称为由函数φ导出的径向基空间。

食用油的主要成分是脂肪, 食用油的脂肪包含饱和脂肪、 反式脂肪、 单不饱和脂肪和多不饱和脂肪。 不同的食用油成分上的主要差异表现在不同种类脂肪的含量。 这种含量的微小差异在太赫兹光谱中表现为光谱吸收谱线的微小差异。 通过径向基函数映射, 可以将食用油的太赫兹光谱映射到可能线性可分的径向基空间中, 更便于特征提取。

1.1.2 核主成分分析KPCA

目前, 数据降维的方法主要分为两大类: 线性降维和非线性降维。 主成分分析(PCA)因为其概念简单、 计算方便、 线性重构误差最优等优良性能, 成为数据处理中应用最广泛的线性降维方法之一, 而KPCA作为PCA在处理非线性问题的扩展, 得到快速发展。 Xia等[11]使用KPCA方法提取高光谱图像特征, 使用随机森林方法对图像进行分类, 获得良好的分类性能。 Gan等[12]将KPCA集成到基于多特征的内核稀疏表示分类中, 提取高光谱图像特征并分类。 针对PCA提取非线性特征的不足, 本文提出使用KPCA提取太赫兹光谱的非线性特征。 KPCA的流程示意图如图1所示。

图1 KPCA流程图

对于给定的n维N个经过中心化的太赫兹时域光谱数据集X={x1,x2,x3, …,xN} ,xi∈Rn(i=1, 2, 3, 4, …,N), 首先将其映射到特征空间, 得到φ(x), 则在特征空间中的的协方差矩阵表示为式(1)

C=φ(X)φ(X)T

(1)

在特征空间中进行PCA降维, 可得到

φ(X)φ(X)T=λw

(2)

式(2)中,w是特征空间中的特征向量,λ是特征向量对应的特征值。

对于任意第j个特征向量wj(j=1, 2, 3, …,n),λi是对应的特征值, 由式(2)得到式(4)

∑(φ(xi)φ(xi)T)wj=λiwj

(3)

化简式(3),

(4)

wj=∑aφ(xi)

(5)

将式(5)代入式(4), 可得

φ(X)φ(X)Tφ(X)a=λiφ(X)a

(6)

将式(6)两边同时乘φ(X)T, 得

φ(X)Tφ(X)φ(X)Tφ(X)a=λiφ(X)Tφ(X)a

(7)

令核方法K=φ(X)Tφ(X), 则式(7)可变为式(8)

K2=λiKa

(8)

K=λia

(9)

KPCA常用的核函数有: 线性核函数、 多项式核函数、 高斯核函数、 指数核函数和拉普拉斯算子核函数。 核函数的选择是核方法研究及应用的核心内容, 选择的准则和方法目前并没有成型的理论方法, 通过实际数据的验证结果来指导核函数的选择是常用的方法之一[13]。 经过多次迭代实验比较, 高斯核函数函数作为KPCA的核函数在本实验中是有效的。

1.2 太赫兹光谱特征提取与分类验证

1.2.1 太赫兹光谱特征提取

在实际问题中, 原始数据经常包含一些多余的或者重复的信息, 为了减少整个识别系统获取测量数据的代价和相应的计算工作量以及改善识别系统的性能, 有必要通过特征提取把数据变换到低维数的特征空间中。 太赫兹光谱通过KPCA可将有效信息降维到低维空间, 作为识别特征。 传统的线性投影方法, 不能有效地将太赫兹光谱投影到一个可以线性区分的平面上。 因此, 采用结合径向基函数和KPCA这种非线性降维方法提取太赫兹光谱的特征。 具体步骤如下:

Step 1 对实验测得的太赫兹时域光谱采用滑动平均滤波算法进行去噪预处理, 获得实验样本集;

Step 2 对去噪后的太赫兹光谱采用径向基函数进行非线性映射。

Step 3 选择高斯核函数作为KPCA的核函数。 高斯核函数的表达公式为

(10)

式(10)中,xi,xj分别表示非线性映射后的光谱样品,σ表示一个常数。

Step 4 使用高斯核函数对样本集进行变换, 计算核矩阵。

3.2 人文关怀提高护生沟通能力 由于护生沟通技巧尚不熟练,缺乏有效的应变能力,易受到挫折。经过讲座等培训,学到了人文关怀及护患沟通相关知识,能够减轻护生的自卑感与失落感。在实施护理工作时受到患者及家属的拒绝与阻挠时,运用知识克服困难,其自身价值得到了体现,更快更好地适应临床工作。

Step 5 计算核矩阵的特征值和特征向量, 将特征值按照从大到小的顺序进行排列, 将特征向量与特征值一一对应。

Step 6 将特征向量进行正交化处理, 得到正交后的特征向量, 获得降维后的数据。

1.2.2 分类验证

支持向量机(SVM)是一种监督式机器学习算法。 支持向量机的原理是在两类样本间寻找一个最优的分类超平面, 使得该超平面两侧与最近样本点的距离最大化。 支持向量机方法建立在统计学习理论的VC维理论和结构风险最小原理基础上, 根据有限的样本信息在模型的复杂性和学习能力之间折衷, 希望获得最好的推广能力。 本文使用支持向量机构建分类模型, 最终实现太赫兹光谱识别, 验证特征提取效果。 图2为实验流程。

图2 实验流程

2 实验与结果

2.1 食用油太赫兹光谱测量

不同的太赫兹时域光谱系统的采样率、 有效太赫兹光谱范围、 采样频率等参数不完全相同。 实验中采用爱德万公司生产的型号为TAS7400TS GDU1太赫兹时域光谱系统。

测量时, 太赫兹光谱系统温度为22 ℃, 相对湿度维持在5%以下。 实验系统参数设置如表1所示。

表1 实验参数设置

实验测量了芝麻油、 葡萄籽油、 茶籽油的透射式太赫兹时域光谱, 对测量所得的太赫兹光谱采用滑动窗口平均去噪算法进行去噪处理后, 各样品太赫兹吸光度谱如图3所示。

2.2 径向基函数映射

对食用油光谱去噪后, 存在重叠部分。 对食用油光谱采用径向基函数映射, 将光谱映射到不同的空间。 采用的映射函数公式为

(11)

式(11)中,y为映射后的光谱数据,x为去噪后的光谱数据,σ为常数。

采用的径向基函数能够将光谱中的吸收峰, 变平缓, 因此使用径向基函数映射变换后原来混叠的光谱曲线重叠部分大大减少, 增加了可区分性。 径向基函数映射后食用油光谱如图4所示。

图3 去噪处理后的食用油吸光度谱

图4 径向基函数映射后太赫兹吸光度谱图

2.3 特征提取

对去噪后的90例食用油样本(30例芝麻油, 30例葡萄籽油, 30例茶籽油)光谱分别采用本方法、 PCA和KPCA进行特征提取, 特征提取的维数为12维。 食用油样本光谱数据除了使用滑动窗口平均去噪算法预处理外, 没有经过归一化、 中心化等其他预处理过程。 为了观察方便, 选取贡献率最大的3个主因子绘制散点图, 结果分别如图5(a,b,c)所示。 从图5(a,b)可以看到, PCA和KPCA提取出来的前3个主成分占光谱的变化不到50%, 因此需要更多特征光谱信息。 而这3种方法提取出来的前12个主因子的累积贡献率均超过了90%, 因此前12个主因子可以作为食用油光谱的特征。

采用类内距离和类间距离来评价特征提取效果, 类内距离越小, 类间距离越大, 表示特征的紧密程度越大, 不同类之间的可分离程度越好, 特征提取效果越好。 反之, 则特征提取效果不好。 实验使用欧氏距离计算类内距离和类间距离。 类内距离是指类内所有点两两之间距离的平均。 类间距离采用的是中间距离法, 计算类中心之间的距离。 为了解决不同特征提取方法映射范围不一的问题, 把3种特征提取方法计算得到的12维特征映射到各坐标轴范围均为[-1, 1]的高维坐标系中, 然后进行类内距离和类间距离计算。 所提取的特征类内距离计算结果如表2所示, 类间距离计算结果如表3所示。

图5 (a) 结合径向基函数和KPCA特征提取结果; (b) PCA特征提取结果; (c) KPCA特征提取结果

Fig.5 (a) The feature extraction results of combining radial basis function and KPCA; (b) The feature extraction result of PCA; (c) The feature extraction result of KPCA

从表2可以看到, 本方法类内距离均小于PCA和KPCA, 这说明本方法聚类效果优于其余两种方法。

表2 不同特征提取方法获得的食用油类内距离

Table 2 The intraclass distances of different feature extraction methods for various edible oils

表3 不同特征提取方法获得的食用油类间距离

Table 3 The interclass distances of different feature extraction methods for various edible oils

组合食用油类型类间距离PCAKPCA结合径向基函数和KPCA芝麻油-葡萄籽油4.821 92.251 63.854 0芝麻油-茶籽油1.475 21.645 53.812 6葡萄籽油-茶籽油6.421 32.367 46.193 3

从表3的结果可以看到, 本方法类间距离均大于KPCA, 说明类间可分性优于KPCA。 本方法和使用PCA计算得到的芝麻油-葡萄籽油和葡萄籽油-茶籽油的类间距离差别不大, 两种组合的类间可分性良好。 但是, 使用PCA计算得到的芝麻油-茶籽油组合类间距离偏小, 容易出现错误分类的情况。 而本方法各组合类间距离较大, 可分性良好。 整体上本方法类间可分性优于PCA。

2.4 SVM分类验证效果

为了更进一步验证上述特征提取方法的效果, 采用支持向量机对提取后的特征进行建模分类。 将上述3种食用油样本输入支持向量机中, 采用5折交叉验证的方法, 计算6种不同核函数的支持向量机分类的准确率, 从而验证分类的效果。 分类正确率结果如表4所示。

表4 分类正确率结果对比

从表4可以看出, 本方法分类正确率高于PCA和KPCA, 说明本方法特征提取效果更好。

3 结 论

针对部分物质太赫兹吸收谱没有明显吸收峰特征, 谱线整体相似难以识别的问题, 提出了结合径向基函数和KPCA的特征提取方法。 利用该方法对被测物质的太赫兹吸收谱进行非线性映射提取特征, 使用支持向量机对其进行分类。 本特征提取方法类内聚类效果好, 类间可分性好, 使用不同内核的支持向量机分类在本实验中正确率都能达到100%。 相比于PCA, 使用本方法提取出来的特征在支持向量机分类测试中正确率最大能提高约4%。 相比于KPCA, 使用本文提出的方法提取出来的特征在支持向量机分类测试中正确率最大能提高约6%。 因此所提出的特征提取方法效果良好, 结合支持向量机能够对食用油进行分类, 在食品安全检测领域有很好的应用价值。

猜你喜欢
类间赫兹食用油
基于OTSU改进的布匹检测算法研究
基于贝叶斯估计的多类间方差目标提取*
废食用油改性沥青性能研究
开封后的食用油应该怎么存放
2019上海食用油展、食用油包装展览会
基于类间区分度的属性约简方法*
2019上海食用油展、食用油包装展览
基于双频联合处理的太赫兹InISAR成像方法
太赫兹低频段随机粗糙金属板散射特性研究
太赫兹信息超材料与超表面