基于高光谱成像的油茶籽含油率检测方法

2021-06-09 09:49周宏平胡逸磊姜洪喆许林云
农业机械学报 2021年5期
关键词:波长光谱变量

周宏平 胡逸磊 姜洪喆 许林云 王 影

(南京林业大学机械电子工程学院,南京 210037)

0 引言

油茶属山茶科山茶属植物,为常绿小乔木或灌木[1],是原产于我国南方的乡土树种,具有栽培历史悠久、分布区域广、栽培面积大、用途多等特点,与油橄榄、油棕、椰子并称为世界四大木本油料树种[2]。目前,我国油茶种植面积已达437万hm2,年产茶油60万t,产值近千亿元[3]。油茶的主要产物是茶油,茶油含有丰富的营养成分,油酸质量分数超过80%,不饱和脂肪酸质量分数达90%,比橄榄油高6个百分点[4]。

油茶籽含油率是影响茶油产量的重要因素,也是油茶采摘时间的重要参考指标[5]。目前茶籽油常用的提取方法包括压榨法、溶剂法和水酶法[6],这些方法存在提取率低、含有机溶剂残留、成本较高等缺点,不适合用于实验室内对单个或少许茶籽进行的含油率检测。因此,迫切需要一种能够快速、准确地检测油茶籽含油率的方法,以便于茶籽品种的鉴别和筛选。

高光谱成像是一种集光谱和图像于一体的技术,图像中的每个像素点都包含特定位置的光谱信息,与传统近红外光谱相比,其优势之一是可实现被测物各组分分布情况的可视化[7]。文献[8]利用近红外光谱建立了橄榄果肉中油含量的偏最小二乘回归模型(Partial least squares regression,PLSR),模型的校正集相关系数Rc为0.848,交叉验证均方根误差(Root mean square error of cross validation,RMSECV)为0.901。文献[9]采集了不同成熟度油棕的高光谱信息,发现750 nm是适用于棕油含量定量检测的最佳波长。文献[10]利用两组光谱集(光谱集Ⅰ:400~1 000 nm;光谱集Ⅱ:1 000~2 500 nm),结合化学计量方法检测不同品种花生的含油量,建立的PLSR模型的预测集决定系数分别为0.696和0.923。文献[11]研究发现,使用高光谱数据建立的径向基神经网络模型能较好地预测油茶籽脂肪酸的成分含量。文献[12]利用30份油茶籽的近红外光谱数据建立了含油率的PLSR模型,其校正集相关系数为0.93。这些研究结果为使用光谱分析技术进行油料作物含油率检测奠定了良好的理论基础。

目前,国内外有关采用高光谱成像技术检测油茶籽含油率的研究尚未见报道。本文旨在探讨波长在400~1 000 nm和900~1 700 nm范围内的高光谱相机检测油茶籽含油率的可行性,并对比两个波段的检测效果,以期开发一种快速检测油茶籽含油率的方法,为油茶籽优质育种与品质快检分选提供理论依据与技术基础。

1 材料与方法

1.1 实验材料

油茶籽样品来自安徽省芜湖市无为县联合行政村联合农业发展有限公司的油茶林,于2019年10月10日和10月14日采摘油茶鲜果共109个,当天带回实验室进行果高、果径、质量等形态参数的测量,并置于冰箱4℃环境下保存,于第二天取出、去壳,采集油茶鲜籽的高光谱图像,干燥后采集含油率数据。

1.2 高光谱成像系统

高光谱成像系统采用南京林业大学生物质包装无损检测实验室搭建的高光谱成像无损检测平台,主要包括两台光谱仪(GaiaField-V10E-AZ4型,400~1 000 nm(光谱集Ⅰ);GaiaField-N17E型,900~1 700 nm(光谱集Ⅱ))、两台探测器(sCMOS相机、InGaAs相机)、一条白色食品级传送带(HSIA-CSD800型)、一套由12只50 W的卤素灯和漫反射穹顶组成的照明系统以及一台计算机。其中成像光谱仪的光谱分辨率分别为2.8 nm和5 nm,被测物品置于传送带上的载物台,步进电机驱动传送带使被测物品运动,暗箱用于屏蔽外界杂散光对数据采集的干扰。

1.3 高光谱图像采集和校正

高光谱图像数据获取基于计算机上的SpecView软件,将高光谱仪器预热30 min后进行油茶籽图像采集。为了避免获取的图像失真,经过多次预实验确定最佳的数据采集参数如下:光谱仪Ⅰ的曝光物距为300 mm,曝光时间为1.2 ms,电控位移台扫描速度是0.601 4 nm/s,扫描线实际长度是200 mm,图像分辨率是800像素×664像素;光谱仪Ⅱ的曝光物距为300 mm,曝光时间为7.5 ms,电控位移台扫描速度是2.256 8 nm/s,扫描线实际长度是200 mm,图像分辨率是640像素×542像素;每次采集同一个油茶果中3粒油茶籽的高光谱图像,并取其平均值作为样本的最终光谱数据。

由于高光谱图像采集过程中存在暗电流的影响,而且不同波段下成像系统光源的强度分布也不均匀,从而导致获取的高光谱图像中含有较大的噪声。因此要对其进行黑白校正以消除暗电流的影响,校正方法为[13-14]

(1)

式中Re——校正后的漫反射光谱图像数据

R0——样本原始的漫反射光谱图像数据

D——暗图像数据

W——白板的漫反射图像数据

1.4 含油率测定

油茶籽含油率采用NAI-ZFCDY-6Z型脂肪测定仪(上海那艾精密仪器有限公司)按照GB 5009.6—2016规定的方法测定。首先采用BSM-220.4型分析天平(上海卓精电子科技有限公司)称取油茶仁2.000 g,磨碎后移入滤纸筒内,并将滤纸筒放入索氏抽提器的抽提筒内,连接已干燥至质量恒定的接收瓶,由抽提器冷凝管上端加入60 mL无水乙醚至瓶内容积的2/3处,于水浴上加热,使无水乙醚不断回流抽提6 h。然后取下接收瓶,回收无水乙醚,待接收瓶内溶剂剩余1~2 mL时在水浴上蒸干,再于100℃干燥箱内干燥1 h,放干燥器内冷却0.5 h后称量。最后按照文献[15]的方法计算油茶籽含油率,公式为

(2)

式中Moil——出油质量

Mseed——茶仁质量

1.5 变量选择方法

高光谱数据量大且数据之间的共线性严重,影响模型的运算速度[16]。因此采用以下7种方法提取有效信息变量并进行对比,从而得到最优的变量选择方法:

(1)连续投影算法(Succesive projections algorithm,SPA)是一种前向选择算法,通过在光谱中寻找最低限度冗余光谱信息变量集,使得变量之间的共线性最小化[17]。该方法要预先设置选择的变量数范围,最终选择的变量数在该范围内对应最低的均方根误差(Root mean square error,RMSE)。本研究中选择的最佳变量数范围为5~30,光谱集Ⅰ筛选了8个特征波长,光谱集Ⅱ筛选了11个特征波长。

(2)竞争性自适应重加权算法(Competitive adaptive reweighted sampling, CARS)是一种以回归系数作为变量重要性指标的变量选择方法。该方法利用自适应重加权采样技术和指数衰减函数优选出每次循环所构建的PLSR模型中回归系数绝对值大的变量点,并将交互验证选出N个PLSR子集模型中RMSECV最小的子集定义为最优变量子集[18]。本研究中将蒙特卡洛采样次数设置为2 000,每次运行程序选择的校正集和预测集样本数比例为2∶1。光谱集Ⅰ筛选出14个特征波长,光谱集Ⅱ筛选出16个特征波长。

(3)粒子群优化算法(Particle swarm optimization,PSO)是一种源于对鸟群捕食行为研究的进化计算技术。在PSO中, 每个优化问题的潜在解可看作高维空间上的一个粒子,所有粒子都拥有速度以及由目标函数决定的适应值,粒子们通过追随当前的最优粒子在解空间中搜索[19]。本研究中粒子种群大小设置为20,迭代次数为1 000,以F=R2作为适应度函数(其中R2表示决定系数)。光谱集Ⅰ筛选出18个特征波长,光谱集Ⅱ筛选出18个特征波长。

(4)蚁群优化(Ant colony optimization,ACO)算法是模拟蚂蚁的合作和适应机制等自然行为的一种正反馈式算法。每个蚂蚁在其所经过的路径上会遗留一种叫做信息素的挥发性物质,蚂蚁通过信息素及其强度的反馈机制选择路径,所有蚂蚁找到的特定路径便是解决目标问题的最优方案[20]。本研究中设置蚁群大小为30,光谱窗口为1,迭代次数为100,适应度函数F=(1+QRMSECV)/R2(其中QRMSECV表示交叉验证均方根误差)。光谱集Ⅰ筛选出18个特征波长,光谱集Ⅱ筛选出18个特征波长。

(5)模拟退火(Simulated annealing,SA)算法是一种基于固体物理退火原理而研发的随机全局优化算法,SA在解决组合优化问题时先从某一模拟较高初温开始,随着温度参数的不断下降,结合Metropolis标准在解空间中随机寻找目标函数的全局最优解[21]。本研究设置初始温度T0=50℃,第k个温度控制参数值Tk=0.96T0,终止温度Tf=0℃,第k个马尔可夫链的长度Lk=50,迭代次数为100。光谱集Ⅰ筛选出30个特征波长,光谱集Ⅱ筛选出26个特征波长。

(6)区间随机蛙跳(Interval random frog,iRF)算法是基于随机蛙跳算法提出的一种波长间隔选择方法。基本思想是将整个光谱按照特定宽度划分成若干子区间,通过每个区间光谱点的绝对回归系数总和来评估区间,找到最佳区间组合[22-23]。本研究参数设置如下:移动窗口大小ω=3,初始化子集变量个数为5,最大主成分数为10,迭代次数为500。光谱集Ⅰ筛选出10个特征波长,光谱集Ⅱ筛选出10个特征波长。

(7)遗传算法(Genetic algorithm, GA)是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法[24]。本研究设置进化代数为150,算法运行次数30,种群大小为64,初始时平均5个波长构成一个染色体,染色体个数为20,变异概率为1%。光谱集Ⅰ筛选出26个特征波长,光谱集Ⅱ筛选出28个特征波长。

1.6 建模方法及模型评价

本文应用PLSR建立油茶籽含油率的检测模型。PLSR是光谱分析中应用最广泛的化学计量方法,该方法同时将自变量和因变量数据矩阵进行分解,把因变量信息引入到自变量数据的分解过程中,使得自变量主成分直接与样品被测组分含量相关联[25]。在PLSR中,确定潜变量数是保证模型性能的关键,本研究采用交叉验证法(Cross validation,CV)通过最小RMSECV确定最优的潜变量数。

本文采用决定系数R2和RMSE作为评价PLSR模型的指标,R2越高、RMSE越低说明PLSR模型的预测性能越好。数据处理软件包括ENVI 5.1、Matlab 2014a。

1.7 含油率分布可视化

使用单一的化学计量方法很难测量样品每个部分的化学成分,而高光谱成像的优势在于可以通过校准模型对高光谱图像中样品的每个像素点的化学成分进行预测,从而得到整个样品的理化成分含量分布图[26-27]。预测值的准确性主要依赖于校准模型的性能,也可通过选择特征波长减少数据冗余,获得更好的模型结果。

2 结果与分析

2.1 原始光谱

由于使用3颗完整的油茶籽作为1个样品进行含油率测定,所以选取3颗油茶籽的表面作为每个样品的感兴趣区域(Region of interest,ROI)。光谱集Ⅰ和光谱集Ⅱ分别在936.2 nm和1 133.9 nm处设置反射率阈值为0.3,可有效提取油茶籽的高光谱信息[28]。此外光谱集Ⅰ在336.2~416.6 nm和994.9~1 092.5 nm范围内存在较大的噪声,光谱集Ⅱ在874.0~1 038.3 nm和1 564.9~1 731.0 nm范围内存在明显的噪声,所以分别取416.6~994.9 nm和1 038.3~1 564.9 nm作为两组光谱集的有效波段,原始光谱如图1所示。

可见和近红外波段最主要的吸收带是由于强泛音和含氢键O—H(来自水)、C—H(来自脂肪和油)、N—H(来自蛋白质)的组合吸收而产生,油茶籽的光谱反射率曲线在光谱集Ⅰ和光谱集Ⅱ上存在一定的差异(图1),这些差异可能与油茶籽的质量属性、表面结构不均匀性以及表面无规律散射有关[29]。图1a中,930 nm附近的吸收峰与C—H伸展的第三泛音有关[25]。图1b中,在1 400 nm附近有较强的水吸收峰,在1 220 nm处的吸收峰与油含量相关,是由脂肪组分中甲基或亚甲基基团的C—H伸展的第一和第二泛音所致[30]。

2.2 油茶籽含油率统计

本研究采用蒙特卡罗交叉验证(Monte Carlo cross-validation,MCCV)识别并剔除了7个奇异样本。首先通过对所有油茶籽数据作交互检验,确定最优主成分数,然后利用MCCV每次随机选取67%的样本建立PLSR模型,剩余33%的样本用于预测。经过5 000次蒙特卡罗采样后,计算每个样本预测残差的均值和标准偏差,将具有较高的均值和标准偏差的样本定义为奇异样本并从总样本中剔除[31-32]。表1是剩余的102份油茶籽样品含油率的统计,使用SPXY算法[33]将总样本按照2∶1划分为校正集和预测集。油茶籽含油率在19.17%~45.12%之间,说明样本之间的差异性较大,有利于建立稳定的校准模型。

表1 102份油茶籽样品含油率

2.3 全光谱PLSR建模

原始光谱数据中,存在多种因素对数据的准确性造成影响,如采集过程中光源强度分布不均匀、摄像头暗电流的存在以及油茶籽自身形状的不规则性等,因此在建模前通过预处理方法消除目标信息和噪声干扰。分别使用MSC(多元散射校正)、SNV(标准正态变换)、SG(Savitzky-Golay卷积平滑)、Normalize(归一化)、Detrend(去趋势)共5种方法对原始光谱进行预处理,并建立油茶籽含油率的PLSR预测模型,建模结果如表2、3所示。

表2 光谱集ⅠPLSR模型预测结果

表3 光谱集ⅡPLSR模型预测结果

比较各种预处理数据建立的PLSR模型,发现光谱集Ⅰ和光谱集Ⅱ均使用全波长原始数据建立的PLSR模型精度较高,并且光谱集Ⅱ的PLSR模型性能明显优于光谱集Ⅰ的模型性能。

2.4 特征波长选择

图2所示为7种方法对两组光谱集筛选出的特征波长的分布情况。对于光谱集Ⅰ,使用SPA选择的波长数量最少,使用SA选择的波长数量最多。使用SPA和iRF选择的波长分布在特定的区域,使用其他方法选择的波长相对分散不连续。进行变量筛选后,光谱集Ⅰ变量数量减少了83.5%~93.0%。对于光谱集Ⅱ,使用iRF选择的波长数量最少,使用GA选择的波长数量最多。使用7种方法选择的波长均相对分散不连续。进行变量筛选后,光谱集Ⅱ变量数量减少了91.1%~96.5%。可以发现不同方法选择的特征波长数量不同,因此确定最优变量选择方法显得非常必要。

2.5 特征波长PLSR建模

表4 光谱集Ⅰ特征波长PLSR模型预测结果

表5 光谱集Ⅱ特征波长PLSR模型预测结果

对比光谱集Ⅰ和光谱集Ⅱ经变量选择后建立的PLSR模型对油茶籽含油率的预测能力发现,使用光谱集Ⅱ建立的模型性能更好,因为油茶籽在900~1 700 nm范围内呈现的光谱特征峰多于400~1 000 nm内的特征峰。

2.6 油茶籽含油率预测值的可视化

由于光谱集Ⅱ的PLSR模型效果明显优于光谱集Ⅰ,因此使用光谱集Ⅱ的最优校正模型(GA-PLSR)计算高光谱图像中油茶籽每个像素点的含油率,再使用伪彩色图像处理方法生成含油率的分布图,如图4所示。图中可以明显地观察到油茶籽含油率由小到大变化,并且具有相似光谱特征的像素点对应的含油率预测值近似,在图像中以相似的颜色显示,但该图中最小预测值和最大预测值都超出了校正集的参考值范围,说明存在预测误差。此外,每个油茶籽四周边缘处颜色鲜艳,对应较高的含油率,推测是因为边缘处只有油茶籽壳而没有茶仁,从而导致较高的预测误差。

该结果证明了利用高光谱成像技术实现油茶籽含油率含量分布可视化的可行性,对不同油茶籽含油率的快速无损评估具有重要意义。

3 结论

(3)通过对比光谱集Ⅰ和光谱集Ⅱ的建模效果发现,使用光谱集Ⅱ的原始数据或降维后的数据建立的回归模型的精度均比光谱集Ⅰ高,因此900~1 700 nm波段更适用于油茶籽含油率的快速无损检测。

猜你喜欢
波长光谱变量
基于三维Saab变换的高光谱图像压缩方法
一种波长间隔可调谐的四波长光纤激光器
基于3D-CNN的高光谱遥感图像分类算法
杯中“日出”
抓住不变量解题
分离变量法:常见的通性通法
苦味酸与牛血清蛋白相互作用的光谱研究
不可忽视变量的离散与连续
变中抓“不变量”等7则