基于可见光光谱的珍珠快速分级方法研究

2021-06-21 02:31龚晓峰雒瑞森李成鑫
计算机应用与软件 2021年6期
关键词:特征向量光泽光谱

彭 杰 龚晓峰* 雒瑞森 李成鑫 李 剑

1(四川大学电气工程学院 四川 成都 610065)2(浙江农林大学信息工程学院 浙江 杭州 311300)

0 引 言

珍珠是一种广受青睐的有机珠宝,极具观赏价值和商业价值。然而,中国作为珍珠生产大国,却并未获得同产出相匹配的丰厚利润[1]。究其原因,主要是品质分选不足,使各级珍珠的实际价值不能充分体现。目前,关于珍珠品质分选的研究,在形状[2-3]、颜色[4-5]和光洁度[6-7]等方面都已取得不错成效,但在光泽分选方面却仍有较大不足。

现有针对珍珠光泽品质分选的研究,主要有机理研究和应用研究两个方向。其中机理研究旨在考查不同光泽珍珠在特定实验表现中的差异及其成因。如Monarumit等[8-9]通过X-ray,Zhou等[10]通过OCT,考查发现不同光泽的珍珠存在晶体成分差异。进一步地,Satitkune等[11]、Fu等[12]、Sung等[13]运用SEM观察发现,晶体成分差异导致珍珠表面微形貌差异,进而影响珍珠光泽。它们虽然充实了光泽分选的理论基础,对应用研究具有指导意义,但并未形成可推广实施的具体方案。

应用研究则聚焦于光泽分选的具体实施方法,根据实施基础,又可分为机器视觉法和光谱法等。其中典型的机器视觉法是从珍珠图像的HSL模型中提取亮度信息(L),再以权值隶属规则,建立光泽等级判别模型。如李革等[14]以珍珠图像光亮区和反光区的亮度均值加权和表征珍珠光泽,建立柯西判别模型。文献[5,15]以珍珠全景图为基础,根据各光亮区和反光区的亮度、面积、占两类区域加权和的比重等,建立柯西递属模型。此外,学界尝试研制基于此类方法的专用设备[5,16],但并未得到推广应用。主要是由于该类方法的分选效果极大受制于光照质量,且各信息区域的边界选择具有较强的主观性和个体差异性,难以保证在规模化检测中取得一致优秀的分选效果。

基于光谱的光泽分选方法,主要采用模式识别技术,依据统计学原理判定被测珍珠的光泽等级。典型地,Snezana等[6]训练有珍珠品质关于紫外光谱(UV)的人工神经网络(ANN)模型和关于紫外可见光光谱(UV-Vis)的概率神经网络(KNN)模型[7]。这类方法实现简单,容错性能、泛化检测能力和规模化检测能力均较强,这使该类方法的推广前景广阔;不足之处在于,文献[6-7]所述模型忽略了珍珠表面光泽的不均匀性,沿用定性分选的一贯思路,以单组光谱表征被测珍珠,使准确性和稳定性均表现欠佳。

有鉴于此,本文沿用光谱模式识别技术,在充分考虑珍珠光泽成因和不均匀特性的基础上,提出多区域联合判决方法,并配合设计有复采样光谱分类方法和异常光谱矫正方法。该方法既继承前述光谱类方法的优点,又克服其不足,能极大提升检测模型的准确性和稳定性。实验以252颗浙江诸暨淡水珍珠为样本,优选训练了KPCA+PSO-SVM光泽分选模型和多组对照模型,以期验证本文方法的实际效果。

1 分选机理与光谱处理

1.1 珍珠光泽的成因及影响

珍珠光泽是可见光在珍珠壳和珠层间反射、散射、被吸收等光学效应的综合产物,强度取决于被观测位置的物理结构[10,12]。光泽强度通常与近壳珠层中文石晶体的占比正相关,这是因为文石晶体的结晶程度高、形状和尺寸均匀,文石板片堆积紧密、边缘规则,容易形成较强、较规则的光学反射。珠层中的球文石晶体则不稳定、不规则、结构松散,会降低光学反射的强度和规则程度[8-13,17-18]。此外,壳层损伤、畸形等也会贬损相应区域的光泽表现。

珍珠壳不同区域的物理结构差异使得珍珠表面不同位置的光泽强度也表现不一,珍珠整体的光泽表现正是这些区域性光泽表现的综合。因此,度量珍珠的整体光泽时,应综合衡量珍珠表面不同区域的多组光谱,即多区域联合判决,并称该多组光谱的测量过程为光谱复采样。此外,测量单个区域的光谱时,应尽量避免该区域结构因素之外的干扰,故本研究选用了只与表面物理特性相关的可见光光谱。

1.2 复采样光谱的分类

1.1节说明了不同珠壳区域的光泽有所不同。对光泽较均匀的珍珠而言,这些区域性光泽大多与综合后的整体光泽相似,构成整体光泽的主体;少数与整体光泽存在较大差异,构成整体光泽的补充。在训练分选模型时,它们所对应的光谱数据发挥着不同的作用。前者表征了该珍珠对应的光泽等级,能够增加训练数据的特征丰富度;后者具有其他光泽等级的数据特征,会降低分选模型的准确性。因此,有必要对两者加以区分。

根据复采样光谱的整体特征,本研究将其划分为基准光谱和异常光谱两种类型,具体如表1所示。

表1 复采样光泽的分类

进一步地,还依据两类光谱的特征,配合设计了复采样光谱分类算法。该算法规定,每连续的c个数据点作为一个检测窗区间,每滑动g个窗区间做一次抽查。在各窗区间,待分类光谱的偏移程度用窗内各数据点残差的累计和(窗残差)衡量,待分类光谱集的整体分散程度用所含光谱的窗残差的标准差衡量。具体过程如下。

假设每颗珍珠有h组复采样光谱,每组光谱含n个数据点,则该珍珠的第k组光谱向量记作:

(1)

并记:

xs=[x(1),x(2),…,x(s),…,x(μ)]Ts=1,2,…,μ

(2)

式中:μ为xs含有的光谱向量组数,初始μ=h;x(s)=x(k)。此时,xs的均值光谱为:

(3)

计算xs中第s组光谱相对均值光谱的窗残差。

(4)

(5)

若第s组光谱的第t个窗残差,满足:

(6)

则称该窗区间为异常窗区间。其中Δ>1为异常窗区间判别系数。

迭代执行式(2)-式(6),逐次筛除含异常窗区间最多的光谱向量。当剩余光谱向量均不存在异常窗区间,则迭代收敛,称剩余光谱为基准光谱,称被筛除光谱为异常光谱。

1.3 异常光谱的矫正

针对前述复采样光谱分类算法的特点,本研究配合提出一种异常光谱矫正方法。该方法以传统均值矫正方法[19-20]为基础,增加原始数据加权项,并设置可进行矫正的宽度条件。因此,该方法既具有削弱数据偏移程度,提高数据有效部分利用率的传统性能,又保留了数据的原始特征,能在Δ取值过小,造成过度筛除时,起一定补救作用。其具体实现如下。

设异常光谱为x(b),收敛xs的均值光谱为x(a)。若,由式(4)-式(5)计算所得的ϑ(b),根据式(6)判别x(b)的异常窗区间个数。

N(x(b))≤ωT

(7)

满足式(7)则称x(b)满足异常光谱矫正的宽度条件。其中ω∈(0,1]为宽度系数。进一步地,设x(b)是x(b)异常窗区间内的数据点,x(s)是x(s)中对应位置的数据点。定义x(b)的矫正公式为:

(8)

式中:φ≥0为权重系数。对矫正后的x(b),迭代执行式(4)-式(8),直到x(b)不再含有异常窗区间。

2 实验设计

2.1 珍珠样本集

实验样本为252颗产自浙江诸暨的淡水养殖珍珠。根据专业检验人员鉴定,该批珍珠分别包含黄色系和紫色系的高光泽等级、中光泽等级、低光泽等级珍珠各30颗,包括白色系高光泽等级、中光泽等级和低光泽等级珍珠各24颗。如表2所示,将每类珍珠按4 ∶1划分为训练集和测试集,并要求训练集珍珠具有较好的光泽均匀性。

表2 珍珠样本集划分

2.2 光谱数据测量

为实现珍珠壳随机位置的光谱复采样,本研究设计了专用化光谱测量系统,如图1所示,其中:1为PC机;2为串口数据线;3为光谱仪;4为钨灯光源;5为Y型光纤;6为光谱探头;7为珍珠;8为气流导管;9为气泵;10为STM32控制板;11为串口数据线;12为串口数据线。该系统由PC机、串口数据线、Y型光纤、杭州赛曼科技S3000-VIS光纤光谱仪和H03可调钨灯光源、专用反射式光谱探头、可调压气泵、单向气流导管、STM32控制板及必要电气线路组成。当气泵向导管排气时,气流会推动珍珠随机翻滚,改变光谱测量位置。

图1 光谱测量系统

经实验,优选气压强度为0.1 MPa,每次排气时长为100 ms,光谱对标准白板的反射强度为8 000 counts,曝光时长为35 ms。每次测量的有效数据,应在曝光期间连续稳定,且与无珍珠状态的标称数据存在较大差异;否则为无效数据,重新计算曝光时长,直到数据有效。同一珍珠的光谱复采样期间,光谱测量和排气吹珠交替进行,直至完成规定测量组数。

2.3 优选模型的训练

(1) 提取特征向量集。由全体训练集珍珠样本的x(s)和矫正后的x(b)组成训练光谱集,并利用核主成分(Kernel Principal Component Analysis,KPCA)方法训练特征压缩模型,提取训练特征向量集。大量应用表明,用低维特征向量集训练的模型,能有效减轻原始数据集维度大、低效特征多、易过拟合等问题[21-23]。此外,KPCA具有非线性映射特性,相比常规PCA,更符合本研究非线性判别的特点[24]。实验采用陈素云研究员开发的Kernel Statistics Toolbox工具包所含KPCA函数。

(2) 训练PSO-SVM回归预测模型。对训练特征向量集,分别设置高/中/低光泽等级珍珠对应特征向量的标签为-1、0、1,并训练PSO-SVM回归预测模型。PSO-SVM是以粒子群算法(PSO)优化支持向量机(SVM)的混合模型,该模型能实现自动高效的大范围参数寻优,被广泛应用于智能检测领域[25-26]。实验中,采用王小川等[27]编写的PSO程序和台湾大学林智仁团队开发的LIBSVM-3.32工具包实现。

(3) 光泽分选的决策方法。由待分选珍珠的h组复采样光谱和前述KPCA模型,提取待分选特征向量集,并输入前述PSO-SVM模型。得各组特征向量的回归预测值yk,k=1,2,…,h,并计算均值:

(9)

若Y<-0.5,则判定该珍珠的光泽等级为低;Y>0.5,则判定该珍珠的光泽等级为高;否则,判定该珍珠的光泽等级为中。

3 结果与分析

3.1 分选模型的检验

为验证不同建模方法和光谱复采样组数对分选效果的影响,本实验训练了多个对比模型,统计各模型的分选准确率如表3所示。其中:训练集相应准确率为训练集样本以对应建模方法做5折交叉验证获得的平均准确率;测试集相应准确率为测试集样本在对应模型下的最佳准确率;所有SVM均以粒子群算法(PSO)优化参数,即本文所述PSO-SVM模型; ANN和PCA采用MATLAB库函数。经实验,优选各参数为(c=200;g=100;Δ=1.6;ω=1/3;φ=μ)。所有分选模型均采用相同的前述珍珠样本集和光谱处理方法,仅特征向量提取方法和光谱复采样组数存在差别。其中(KPCA+SVM,h=6)对应模型是按本文方法训练的最佳模型,较之其余模型,该模型兼顾了分选准确率高和光谱复采样组数低等特性,性能最好。

表3 不同光谱复采样组数和建模方法下的分选准确率

以光谱复采样组数(h)为横轴,分选准确率为纵轴,绘制各模型的准确率变化曲线如图2所示。随光谱复采样组数(h)增加,各模型的准确率均先逐渐增加,后稳定保持在80%以上;测试集的最佳准确率渐趋于训练集的平均准确率,两者差值渐缩至5%以内。这表明多区域联合判决方法,能有效提高分选模型的准确率,削弱测试集珍珠光泽均匀性偏弱造成的准确率下降。并且,该性能不依赖于SVM、ANN等模型本身。

图2 不同光谱复采样组数和建模方法的分选准确率

图2和表3还显示,所训SVM模型的准确率整体优于所训ANN模型;采用KPCA提取特征向量的模型整体比采用PCA提取特征向量或未提取特征向量的模型具有更高的准确率。原因在于,较之ANN模型,SVM模型更适用于本实验的小样本集非线性预测特性。同样地,KPCA方法的非线性特征压缩性能更有助于改善本实验所训模型的分选效果。

3.2 (Δ,ω,φ)参数的影响检验

针对本文方法和异常光谱矫正方法,实验以表3(KPCA+SVM,h=6)对应模型为基础,训练不同判别系数(Δ)和矫正参数(ω,φ)的多组对照模型,统计分选准确率如表4所示。其中(Δ=1.6,ω=1/3,φ=μ)对应模型即前述基础模型,其余模型仅有参数(Δ,ω,φ)取值的差异,各准确率是以对应参数(h=6;c=200;g=100;Δ;ω;φ)做5次重复建模,获得的测试样本集平均准确率。

表4 不同判别系数(Δ)和矫正参数(ω,φ)下的分选准确率

根据表4,绘制不同判别系数(Δ)和矫正参数(ω,φ)下的准确率曲线如图3所示。当1.4≤Δ≤1.6时,各曲线均处于高水平区间;Δ>1.6时,所有曲线一致下降;Δ<1.4时,除(ω=2/3,φ=μ)模型外,也均有不同程度的下降。这表明,恰当的Δ取值是获得较高准确率的关键,Δ取值过高或过低都会造成准确率下降。原因是,过大的Δ无法有效筛选基准光谱,过小的Δ又会造成过度筛除,使xs趋于单一,两者皆不利于分选效果。

图3 不同判别系数Δ和矫正参数(ω,φ)下的分选准确率

图3还表明引入异常光谱矫正机制,能够不同程度地改善分选模型的准确率。当ω=1/3时,改善模型的准确率在Δ=1.6处达到峰值;当ω=2/3时,该峰值则出现在更小Δ处。对同一ω,加权均值矫正法(φ=μ)对准确率的改善作用,随Δ取值减小而增强。这是因为ω越大,异常光谱越容易加入训练光谱集;Δ越小,异常光谱越可能是被过度筛除的光谱。因此,随着Δ取值减小,只有ω取值增大,并在光谱矫正中尽可能保留原始特征,才能抵消过度筛除造成的训练集单一化,使准确率维持在较高水平。

4 结 语

由本文实验结果可得如下结论:(1) 对基于光谱模式识别技术的珍珠光泽分选方法,实行多区域联合判决,即综合考虑多个不同区域的光泽表现,是取得较高准确率的关键。(2) 本文方法和配合实施的异常光谱矫正方法,在参数(Δ,ω,φ)设置得当时,能有效提升模型的分选性能。(3) 相比其他建模方法,优选的KPCA+PSO-SVM建模方法最适应本文的小样本集非线性分选特性,训练集和测试集的最佳准确率均在90%以上。

另外,本文所述方法的立论基础,可抽象概括为:目标分选物的待分选指标由多部分综合形成,且具有预期均匀、实际非均匀的特点。因此,具有相似理论基础的分选问题,均可参考本文方法。如何在其他领域推广应用该方法,并实现所涉参数的自适应匹配是未来的工作方向之一。

猜你喜欢
特征向量光泽光谱
基于三维Saab变换的高光谱图像压缩方法
煤炭矿区耕地土壤有机质无人机高光谱遥感估测
克罗内克积的特征向量
基于3D-CNN的高光谱遥感图像分类算法
高中数学特征值和特征向量解题策略
《the revision of subjunctive mood 》教学设计
三个高阶微分方程的解法研究
丝柔尽现
蓝莓的光泽
光泽or油光?向夏日“大油田”sayno