基于能量谱和吸光度谱的马铃薯黑心病判别模型优化

2021-10-13 07:19韩亚芬赵庆亮吕程序杨炳南曹有福苑严伟
农业机械学报 2021年9期
关键词:心病光度波长

韩亚芬 赵庆亮 吕程序 杨炳南 曹有福 苑严伟

(中国农业机械化科学研究院土壤植物机器系统技术国家重点实验室, 北京 100083)

0 引言

马铃薯是全球第四大粮食作物,具有丰富的营养价值和商业价值。黑心病等内部缺陷严重影响马铃薯加工品的品质和原料加工利用率。黑心病马铃薯(简称黑心病薯)无法从外观分辨,传统检测方法需要进行破坏性检测,仅适用于抽样检查。研究马铃薯黑心病快速无损检测技术对提高马铃薯检测分级效率、促进马铃薯产品增值和推动马铃薯检测行业技术进步等方面具有重要意义。

马铃薯组织致密、淀粉含量高,导致透光性较差。目前国内外对马铃薯内外缺陷的检测多采用反射高光谱技术,检测位于外表皮或浅表皮下的疮痂病[1]、环腐病[2]、黑心病[3]、机械损伤导致的皮下黑斑[4]等,预测集判别正确率分别达95.83%、93.33%、94.44%、93%。反射光谱穿透深度有限,对位于马铃薯中心部位的褐变检测效果较差。同时,高光谱技术计算量大、难以直接应用于在线检测。

可见-近红外透射光谱技术穿透力强、模型简单,在水果内部缺陷检测方面已取得了广泛应用。能量谱指通过A/D转换得到的光谱信号,反映了透射能量强度。采集水果能量谱,通过相关分析获得与果蔬缺陷相关性高的波长对并建立判别模型,对鸭梨黑心病判别正确率达98.3%[5]。此外,通过光谱特征分析,由特征峰的差值、比值建立判别式也可有效检测果蔬内部缺陷[6-7]。采集水果吸光度谱,并建立偏最小二乘判别(PLS-DA)模型,可有效识别缺陷、损伤样本,对碰伤番茄、黑心病马铃薯和黑心病鸭梨,判别正确率分别达100%[8]、97.89%[9]和98.58%[10]。采用全光谱建模时,模型复杂、谱峰重叠,冗余信息会降低模型准确性。经竞争性自适应重加权算法(CARS)[11]、连续投影算法(SPA)[12]、遗传算法(GA)[13]等变量选择算法优化后,模型变量数大大减少,准确性提升显著,UVE-CARS[14]、CARS-SPA[14-16]、SPA-GA[17]、CARS-GA[18]等联合变量选择与采用单一变量选择方法相比,模型更加简单,并且准确性提升。

不同果蔬光学特性具有明显差异,目前可见近红外透射光谱技术应用于马铃薯无损检测的深入研究较少。本文设计马铃薯黑心病透射光谱检测装置,并从吸光度谱和能量谱两个角度建立马铃薯黑心病判别模型,经过变量选择对模型进行优化,以实现马铃薯黑心病快速无损检测。

1 材料与方法

1.1 样本获取与制备

将马铃薯清洗干净后晾干,经表面消毒处理后真空包装,放入38℃培养箱培养48 h,取出后立即放入4℃冰箱冷藏3 d[19],用于黑心病马铃薯制备。健康马铃薯(简称健康薯)、黑心病马铃薯纵切剖面图如图1所示(实验所用黑心病薯黑心程度为10%~50%,以黑心面积占截面积百分比计,其中黑心程度10%~20%占46%,黑心程度20%~50%占54%)。

采集7个品种马铃薯(中薯19号、中薯26号、川凉薯10号、丽薯18号、鄂14号、云薯109号、青薯9号,由湖北恩施中国南方马铃薯研究中心提供),共计534个。其中234个用于健康马铃薯光谱采集,300个用于黑心病马铃薯制备,最终获得236个外观无明显褐变的黑心病马铃薯。

1.2 光谱采集过程及装置

基于自主研发的马铃薯内部品质光谱检测装置进行光谱数据采集,该装置由2个50 W卤素光源、准直光纤、复享PG2000L型光谱仪3部分组成,光谱采集方式为漫透射方式,光源入射方向与出射方向呈120°夹角,检测波段368~1 039 nm。光源与光纤布置方式如图2所示。为了尽可能利用马铃薯自身遮挡,减少杂散光对光谱采集的影响,将光纤安装位置设置为马铃薯中心向下1/4高度处。光谱采集参数设置:样品与参比积分时间均为50 ms,平滑宽度为5,平均次数为2。用聚四氟乙烯球(直径70 mm)采集参比光谱,遮光处理后采集暗光谱,用于样本吸光度计算。光谱采集过程为在线采集,运行速度为电机转速560 r/min,检测马铃薯速度约为3.3个/s。

光谱采集前,将马铃薯放置室温(20℃)中平衡24 h,每个马铃薯采集1条光谱。共采集470条光谱,其中健康薯234条、黑心病薯236条。分别保存样本吸光度谱和能量谱用于模型建立及评价(图3)。采用随机法按照3∶1的比例,将样品集划分为校正集和预测集。校正集包含健康马铃薯光谱176条,黑心病马铃薯光谱177条,预测集包含健康马铃薯光谱58条,黑心病马铃薯光谱59条。

1.3 变量选择方法

1.3.1双波长相关系数法

分别计算任意波长对组合的差值和比值,并与样本类别值进行Pearson相关分析,计算决定系数[20-21],并绘制等高线图,决定系数最高的波长对组合用于模型建立。

1.3.2竞争性自适应重加权算法

CARS算法[22]模仿达尔文进化理论中“适者生存”的原则,将每个波长变量看成一个个体,利用指数衰减函数(Exponentially decreasing function,EDF)和自适应重加权采样技术(Adaptive reweighted sampling,ARS)结合的方法优选出偏最小二乘法模型中回归系数绝对值大的变量点,去除权重较小的变量点,从而获得一系列波长变量子集。对每个波长变量子集采用交互验证建模,交互验证均方根误差最小的子集所包含的变量即为最优变量组合。

1.3.3连续投影算法

SPA[23-25]是一种前向选择方法,其基本思想是利用向量的投影分析,从光谱信息中充分寻找含有最低限度冗余信息的变量组,使变量间共线性最小化。SPA能够大大减少建模所用光谱变量数量,最大程度避免信息重复,提高建模的速度和效率[26]。

双波长相关系数法可选出与黑心病相关性最强的波长对组合。CARS算法可以优选出黑心病判别模型中权重较大的关键变量,有利于模型准确度的提高;SPA算法可最大限度减少冗余信息,对模型的简化效果较好。本文采用双波长相关系数法优化能量谱判别模型,采用CARS-SPA联合变量选择法优化吸光度谱判别模型。

1.4 定性判别模型建立及模型评价方法

将黑心病马铃薯样本设置为类别1,健康马铃薯样本设置为类别-1,判别阈值为0。原始能量谱经SG(Savitzky-Golay)平滑和SNV(标准正态变量变换)预处理后,采用双波长相关系数法优选黑心病特征波长对,并建立黑心病线性判别模型(Linear discrimination analysis,LDA)。

吸光度谱去除吸光度谱曲线两端噪声较大的部分,在波段500~950 nm范围内,建立黑心病偏最小二乘-线性判别模型(Partial least squares-linear discriminant analysis,PLS-LDA),以Auto法作为光谱预处理方法,并通过CARS-SPA算法对PLS-LDA模型进行优化。

采用分类正确率(C,%)、灵敏度(Se,%)、特异性指数(Sp,%)、分类器特性(Receiver operating characteristic,ROC)曲线下面积A作为模型性能评价指标[27]。其中分类正确率包括校正集分类正确率Ccal、验证集分类正确率Cval及总分类正确率C,总分类正确率为校正集分类正确率和验证集分类正确率的算术平均值。

以上方法均通过Matlab R2016a软件进行计算。PLS-LDA、LDA算法使用libpls工具包[28]实现。

2 试验与分析

2.1 CARS-SPA联合变量选择法优化吸光度谱判别模型

在波段500~950 nm范围内,建立吸光度谱全变量黑心病PLS-LDA判别模型(表1),灵敏度和特异性指数分别为98.31%和93.75%,灵敏度和特异性指数又称为真阳性率和真阴性率,分别代表黑心病薯和健康薯被正确判别的比例,说明模型可以准确地识别黑心病薯,对黑心病薯的错判率为1.69%,对健康薯的错判率为6.25%。校正集、验证集、总体分类正确率分别达96.03%、92.31%、94.17%,说明波段500~950 nm范围内基于吸光度谱的PLS-LDA模型可以很好地区分黑心病薯和健康薯,但该模型包含1 381个变量,模型运算量大、检测效率低,不利于在线检测,需要进一步简化。

表1 基于吸光度谱的马铃薯黑心病PLS-LDA模型优化结果Tab.1 Classification results of optimized PLS-LDA model of blackheart defect based on absorbance spectrum

首先采用CARS算法对黑心病特征变量进行选择(图4)。随采样次数增加,无关变量被逐步剔除,交互验证均方根误差缓慢降低。当剔除关键变量时,交互验证均方根误差急剧升高,模型效果显著变差,选择该转折点对应的采样次数35次所得变量子集作为最终变量组合(图4b)。图4c蓝色星号垂线代表交互验证均方根误差最小时,最佳采样次数对应的变量子集。

在CARS算法中通过35次采样,共选出14个变量(包括507、608、769、804、849、850、851、864、871、911、915、916、919、933 nm),用于PLS-LDA模型建立(表1)。与原变量PLS-LDA模型相比,经过CARS处理后,光谱变量数减少了99%,模型复杂程度大大降低,同时,模型的总分类正确率达98.30%,与全变量模型相比提高4.13个百分点,说明CARS能够有效选择对黑心病判别模型贡献率最高的关键变量。

为了进一步简化模型,去除冗余变量,对CARS算法优化后的模型进一步进行SPA处理,当变量数为9时,模型预测均方根误差达到最小值(图5)。

经过CARS、SPA两步优化,得到9个可用于马铃薯黑心病判别的敏感波长,分别为507、608、769、804、850、911、915、916、919 nm(图6),与CARS相比,进一步剔除了5个冗余变量。

马铃薯黑心病CARS-SPA-PLS-LDA模型判别结果如图7所示,与全变量模型和CARS-PLS-LDA模型相比,经CARS-SPA联合筛选后,模型变量数进一步减少,同时,模型准确度进一步提升,校正集、验证集及总分类正确率分别提高至98.58%、98.29%、98.44%(表1)。

2.2 双波长相关系数法优化能量谱判别模型

将能量谱368~1 039 nm范围内2 048个波长变量的能量值两两配对分别计算差值和比值,与黑心病进行相关分析,分别将所有波长对组合的比值和差值与黑心病的决定系数绘制成等高线图(图8),结果表明,T699/T435(T表示能量,下角标表示波长(单位:nm))在所有波长对比值相关分析中决定系数最高,达0.803 8,T807-T700在所有波长对差值相关分析中决定系数最高,达0.825 5。

分别采用T699/T435和T807-T700建立黑心病线性判别模型,两模型总分类正确率接近(表2),分别为97.67%和97.49%。同时,T699/T435的灵敏度相对较高,对黑心病的判别正确率更高,由于实际应用中,要求对黑心病薯的误判率尽可能低,因而T699/T435处理略优于T807-T700,其模型判别结果散点图如图9所示。

表2 基于能量谱的马铃薯黑心病双波长相关系数法模型优化结果Tab.2 Classification results of dual-wavelength correlation coeffient of blackheart defect based on energy spectrum

健康果蔬的原始能量谱通常在波长(710±15) nm和810 nm附近有2个吸收峰,并且波长710 nm附近峰值与果蔬病害高度相关,通常能量从小到大依次为黑心病果蔬、健康果蔬、水心(或空心)果蔬[6-7,29-30],而波长810 nm附近病害果蔬与健康果蔬峰值差别不明显,作为参比波长可消除直径、表皮粗糙程度等个体差异。因此采用T807-T700判别式可有效识别黑心病,同时消除个体差异影响。而由笔者同期对马铃薯干物质和淀粉PLS模型特征变量筛选结果可知,波长699 nm附近与干物质和淀粉含量高度相关(分别为694 nm和696 nm),而波长435 nm附近为叶黄素、β-胡萝卜素等黄色色素的特征峰[31-32],与薯肉颜色相关。因此由T699/T435建立的黑心病判别式分别代表了黑心病薯内部颜色和营养成分的变化。

2.3 外部验证实验

将优化后的(T699/T435)-LDA模型载入在线检测系统,采集未参与建模的20个健康马铃薯和20个黑心病马铃薯的光谱用于外部验证(图10),分别有1个健康薯和1个黑心病薯被误判,总分类正确率为95.00%,说明基于能量谱可实现马铃薯黑心病的在线无损检测。被误判黑心病薯黑心程度小于10%,且黑心颜色偏浅,实验台黑心程度检测阈值需通过增大样本量,进一步实验验证确定。

3 结论

(1)以马铃薯黑心病为研究对象,分别从能量谱和吸光度谱两个角度建立线性判别模型,均可实现黑心病马铃薯的快速无损检测。

(2)采用CARS-SPA算法对吸光度谱模型进行优化,选用9个变量,总分类正确率达98.44%。采用双波长相关系数法对能量谱模型进行优化,仅使用两波长的能量比值T699/T435,总分类正确率达97.67%,外部验证总分类正确率达95.00%。

(3)与吸光度谱模型相比,能量谱模型更简单、稳定,并且解决了白背景与暗电流2个参比限制的难题,适用性更广泛。

猜你喜欢
心病光度波长
一种基于SOM神经网络中药材分类识别系统
一种波长间隔可调谐的四波长光纤激光器
杯中“日出”
便秘是否也是一种心病?
乘用车后回复反射器光度性能试验研究
皎皎月光
人在江湖走,谁能不得病?