近红外漫反射光谱结合CARS-PLS规模化奶牛场粪便总氮定量分析模型的建立

2020-04-11 04:15王鹏赵润孟祥辉付学周辛悦宁天阳赵文雅杨仁杰通信作者
天津农学院学报 2020年1期
关键词:预处理光谱粪便

王鹏,赵润,孟祥辉,付学周,辛悦,宁天阳,赵文雅,杨仁杰,通信作者

(1.天津农学院 工程技术学院,天津 300384;2.农业农村部 环境保护科研监测所,天津 300191)

近年来,随着奶牛养殖业的规模化,奶牛场粪便集中排放所引起的环境污染问题日趋严重,粪便的出路问题亟待解决。现阶段主要缓解粪便积压的途径是将固体粪便进行堆沤和风干以制备垫料,进而储存在储粪设施中以备补充垫料或还田。其中氮素为粪肥还田的重要指标,因此快速、准确预知还田时氮素含量是粪肥安全科学还田的重要保障。

相比传统实验室分析方法,近红外技术具有快速测定、使用简单、灵活性强、可实现现场检测等优越性[1],已被应用于畜禽粪便成分的检测。樊霞[2]、崔兰英[3]、Reeves[4]、Takashi等[5]都以牛粪作为试验样品,利用近红外光谱技术预测其中的成分含量,取得了较好的预测效果。从国内外文献来看,已发表的论文大多围绕同一育龄奶牛或不同育龄奶牛同一环节粪便样品的组分和含量进行近红外光谱定量化预测分析,未见面向规模化奶牛场粪污治理全过程粪便样品中总氮含量变化研究的相关报道。本研究旨在利用近红外漫反射光谱技术,基于偏最小二乘法(PLS)利用不同变量选择方法进行建模变量选择,并进行对比分析,建立一种规模化奶牛场粪污治理全过程粪便中总氮含量的定量分析模型。该研究对后续开发便携式近红外光谱仪实时、快速、有效地对规模化奶牛场粪污治理全过程粪便中总氮进行跟踪和监控具有重要的意义。

1 材料和方法

1.1 试验材料

试验设备:XCA-80001电热鼓风干燥箱、FW100型高速万能粉碎机、福斯 2300凯氏定氮仪、美国PerkinElmer公司的傅立叶变换近红外光谱仪、InGaAs检测器以及仪器自带积分球附件。于2018年10月16—21日,连续6天采集天津滨海新区某规模化奶牛场粪便处理全过程环节中的固态粪便和垫料样品共计111个,包括各牛群阶段的鲜粪、刮粪道与集粪沟临界点的混合粪、固液分离机正下方分离后的粪便以及堆放在储粪设施中的粪便(即垫料)。

1.2 试验方法

对采集的 111个粪污治理全过程环节粪便样品,使用XCA-80001电热鼓风干燥箱在55 ℃环境下烘干48 h后,用FW100型高速万能粉碎机进行粉碎并过18目筛。参照2012版《有机肥料标准》中的第5.3条,采用福斯2300凯氏定氮仪对样品中的总氮含量进行测定。111个牛粪样品的总氮含量为 0.20%~3.86%,平均含量为 1.62%。光谱扫描范围为4 000~12 000 cm-1,光谱扫描参数为:分辨率为8 cm-1,扫描间隔为2 cm-1,扫描次数为64,将粪便样品装入样品杯中,并放置在积分球旋转样品台上,以积分球内置参比为背景,分别采集每一个样品的近红外漫反射光谱。分析软件为Matlab2014a、Origin2017以及The Unscrambler9.7,其中所有算法均在 Matlab2014a中实现,The Unscrambler9.7进行光谱数据预处理,Origin2017进行作图。111个粪便样品在4 000~12 000 cm-1范围的近红外漫反射光谱如图1所示。

图1 111个粪便样品的近红外漫反射光谱

2 数据处理

2.1 异常样品的剔除

异常样品的存在对光谱数据与实验室化学值之间的相关性会有较大影响,在建模过程中会降低模型对未知样品的预测精度,因此剔除异常样品十分重要。本研究通过蒙特卡罗交叉验证法对111个奶牛粪便样品进行计算,其均值方差分布如图2所示,将方差大于0.2和均值大于0.5的样品进行剔除,共17个样品。

图2 牛粪中全氮占比的均值-方差分布图

2.2 样品集划分

对剔除后剩下的 94个样品,利用 KS法[6-10]进行样品集划分。校正集样品要具有代表性,待测样品的光谱特征与性质范围应被建模样品所涵盖。以校正集占2/3,预测集占1/3的比例进行划分,校正集样品63个,预测集样品31个,算法选择结果如表1,可以看出校正集的最大值大于预测集的最大值,最小值小于预测集的最小值,可以达到预测集被校正集所涵盖的要求。

表1 校正集和预测集样品中总氮含量分布

2.3 光谱不同预处理方法比较与确定

为选择最佳的预处理方法,对94个样品的原始漫反射光谱进行不同的预处理,包括:MCS、SG一阶导数、SG一阶导数与去噪结合,针对预处理后的数据分别建立相应的PLS模型,通过对比来确定哪种预处理方法的建模效果较好。表2给出了3种预处理方法下建模的结果,最终确定SG一阶导数与去噪结合这一预处理方法。

表2 3种预处理方法模型交叉验证结果

3 结果与分析

3.1 PLS模型

将 SG一阶导数+去噪处理后的漫反射光谱数据,利用PLS建立奶牛粪便中总氮含量的定量分析模型,并利用所建模型对预测集的31个样品进行预测,预测含量与真实含量的线性拟合关系如图3所示,其中相关系数(R)为0.928,预测均方根误差(Root-Mean-Square Error of Prediction,RMSEP)为0.161 3%。

图3 预测集样品中全氮预测含量和实际含量之间的线性拟合(4 000~12 000 cm-1)

3.2 iPLS模型

将整个光谱区间分别分为16、17、……、24、25个子区间,表3列出了不同子区间建立局部模型的结果。从表3中可以看出,在第17个子区间上建立的局部模型预测能力最强,因此,选用这一光谱区间进行建立iPLS模型。用模型对31个预测集样品进行预测,预测结果如图 4所示,R为0.926,RMSEP为0.151 4%。

表3 不同子区间最佳局部模型的性能

图4 预测集样品中全氮预测含量和实际含量之间的线性拟合(iPLS)

3.3 siPLS模型

将整个光谱区间分别分为10、11、……、19、20个子区间,并在每个子区间内分别选取2个和3个区间进行组合,结果如表4,从表中可以看出,将整个光谱区间分成18个子区间,选取7、8和17这3个子区间进行建模的效果最好,其对应的光谱波数范围为 4 444~4 886 cm-1、8 440~8 882 cm-1和8 882~9 326 cm-1。选取这个范围进行建模,并对31个预测集样品进行预测,预测结果如图5所示,R为0.928,RMSEP为0.149 1%。

表4 不同子区间最佳局部模型的性能

3.4 CARS-PLS模型

CARS方法是一种模仿达尔文进化理论“适者生存”原则的变量选择新方法[11]。通过自适应重加权采样技术筛选PLS模型中回归系数绝对值大的波长,剔除回归系数绝对值小的波长,采用交互验证建模选择最优波长变量子集[12]。本研究采用 CARS方法对全波长进行变量优选,最大因子数设为 9,蒙特卡罗采样次数为50。筛选过程如图6所示。

图6 a表示随着运行次数的增加,被选中的建模变量的数量逐渐下降,下降趋势先快后慢,体现出变量筛选的粗选与精选,其中运行次数和保留的变量数之间为指数关系[13]。图6 b为筛选过程中交互验证错误率的变化趋势,其中在20次时获得最小值而后开始逐步上升,上升的原因可能是筛选过程中剔除了一些比较关键的建模变量,导致RMSECV的值增大。图6 c“*”所对应的点与图6 b中RMSECV最小值的点相对应,图中各条曲线表示随着运行次数的增加每个建模变量回归系数的变化趋势。

利用所选波长建立PLS模型,并对预测集进行预测,预测含量与真实含量的线性拟合关系如图7所示。R为0.981,RMSEP为0.084 1%。根据R和RMSEP指标,与上述 3个模型相比,CARS-PLS模型的预测能力有了显著提高。

图6 奶牛粪便光谱波长变量筛选图

图7 预测集样品中全氮预测含量和实际含量之间的线性拟合(CARS-PLS)

4 结论

研究表明,利用近红外漫反射光谱技术对规模化奶牛场粪污治理全过程粪便中总氮含量的预测是可行的。利用不同的变量选择方法对全部光谱变量进行选择,分别建立iPLS模型、siPLS模型和CARS-PLS模型。可以看出,相对于全波长模型,利用3种选择变量的方法进行变量选择后RMSEP值都有不同程度的降低,说明在变量选择的过程中剔除了一些无关变量,使得模型预测精度提升。在3种变量选择方法中,CARS法效果最好,对预测集样品的预测结果与实际结果更为接近,R可达0.981,RMSEP为0.084 1%,为日后开发现场便捷式近红外光谱仪器提供了理论基础。

猜你喜欢
预处理光谱粪便
基于三维Saab变换的高光谱图像压缩方法
KR预处理工艺参数对脱硫剂分散行为的影响
求解奇异线性系统的右预处理MINRES 方法
基于3D-CNN的高光谱遥感图像分类算法
新型冠状病毒感染者咽拭子与粪便排毒规律及临床表现
A new pet obsession of Silkie chicken
高光谱遥感成像技术的发展与展望
污泥预处理及其在硅酸盐制品中的运用
基于预处理MUSIC算法的分布式阵列DOA估计
苦味酸与牛血清蛋白相互作用的光谱研究