数据驱动的模糊支持向量农业水质评价模型

2019-03-26 09:31张慧妍王小艺许继平
水土保持通报 2019年1期
关键词:水质评价投影权重

张慧妍, 段 瑜, 王小艺, 许继平, 郑 蕾

(1.北京工商大学 食品安全大数据技术北京市重点实验室, 北京 100048; 2.北京师范大学 水科学研究院, 北京 100875)

农业水质与农产品生产安全密切相关,对其进行监测与评价为从源头保障生态农业建设提供支撑。农业在线水质监测一般在野外进行,环境影响因素众多,测试数据携带噪声是不可避免的。因此,构建抗扰性较强、实用性较好的农业水质综合评价模型,与实时监测设备结合,将有利于进行自动、实时评价,以避免由于监测不及时,任由水质恶化引发农作物污染等问题。

借鉴以往综合评价方法可在一定程度上对解决农业水质评价面临的噪声等不确定性有所裨益。其中,模糊数学[1-2]可以恰当表达、计算难以量化的模糊信息,为农业水质评价问题提供了一种可行的解决思路,但如何避免主观因素对参数的影响还需要注意。投影寻踪法[3-4]通过考察数据投影方向的积聚与离散特征以实现数据降维目的,其投影值权重可作为综合评价的基础,但寻求简单、有效的求解方法是投影寻踪法实际应用中必须解决的前提条件。灰色理论[5-6]则是针对数据量少、信息贫乏问题的一种实用不确定信息处理手段,与其他算法融合有可能发挥其优势并拓展应用。

此外,余勋等[7]针对水质评价过程中模型结构的参数不确定性,建立融合三角模糊数的贝叶斯模糊综合评价模型,对不确定性的刻画更为全面、符合实际。巩奕成等[8]为解决水质评价中的数据模糊性与指标不相容性,引入萤火虫算法,优化寻求最佳投影方向,实现合理评价的目的。梁中耀等[9]则基于二项分布检验法定量表征了变量不确定性可能导致的决策风险,研究结果更具鲁棒性。

本文拟依据农业水质评价标准,结合监测数据,探索在监测噪声情况下,建立具有良好抗扰性和等级划分的综合评价模型。采用投影寻踪法求得各评价指标的优化权重;数据驱动优化确定三角形隶属度参数,进而构建模糊支持向量机评价模型有效地解决农业水质监测数据中存在的数据噪声问题。此外,提出的等级划分可信度,以期有效度量综合评价等级可信任的程度,提高等级划分分辨率,为全面考察综合评价结果提供一个新的视角。

1 评价方法

1.1 指标权重确定

多指标综合评价中各指标权重的科学确定,对于评价结果的客观、公正具有重要意义。投影寻踪(projection pursuit,PP)函数[10-11]是从评价指标数据特征出发来确定指标权重的方法,可有效避免权重确定中的主观性和随意性。

投影寻踪法指标权重确定过程如下:

首先,利用PP函数将无量纲处理后[13]的m维数据xi=(xi1,xi2,…xim)变换为以σ=(σ1,σ2,…,σm)为投影分向量的一维特征值zi=xiσT,得到z=(z1,z2,…zi,…,zl)。而后通过z的标准差S(z),z与其对应的水质经验等级g=(g1,g2,…,gl)的相关系数绝对值Rzg定义投影指标函数Q(σ)。即:

Q(σ*)=maxQ(σ)=S(z)Rzg

(1)

(2)

PP函数的求解σ实质上是一个非线性优化问题,存在计算复杂,模型优化求解困难等问题。适于非线性问题优化求解的遗传算法(genetic algorithm,GA)[12]存在易陷入局部最优,稳健性不好等弊端。本文提出改进算法,其主要思想为扩充、倍增备选解集,每次迭代过程中最优解被强制保留在备选解集中,解决了最优解可能丢失的缺点,并增强了模型求解的稳健性。

在实际应用中,通过计算机算法求解σ实现多指标权重的客观确定,具有较好的适用性,在指标增加是可以仅需修改对应权重向量的维度,快捷、方便地计算给出新的数据驱动权重结果。

1.2 模糊支持向量机

支持向量机(support vector machine, SVM)在非线性分类及高维模式识别中表现出特有的优势[14-16]。选择SVM是期望能够利用其结构风险小,泛化能力强的特点来提高模型的抗噪声干扰特性。

由于传统SVM对孤立点反应敏感,而野外在线监测获得的数据常常伴随噪声、野值,且综合评价研究中认为等级边界渐变较为合理。因此,本文采用模糊支持向量机(fuzzy support vector machines,FSVM)[17-20]尝试对上述问题予以解决。通过合理设置隶属度对样本点实现差异化与模糊化[21-22]以提高评价精度。

在农业水质综合评价中,评价指标之间存在着复杂的非线性关系,因此,需要利用核函数K(xi,xj)映射变换。模糊训练样本集为:T=[φ(xi),yi|i=1,2,…,l],其中样本xi∈Rm,φ(xi)为经过核函数变换的样本指标,评价标签yi∈{-1,+1},隶属度fi∈(0,1],为降低样本错分的几率,需要设置惩罚参数C。则FSVM优化目标和约束条件如下:

(3)

(4)

(5)

为简化起见本文构建的FSVM选用三角模糊隶属度,1隶属度值对应为农业水质等级评价标准中对应等级的区间中心值;而对应的0.5隶属度的值,则需结合需要划分等级的建模数据方差设定。

2 评价结果的可信度

为了较精细地刻画评价等级结果,本文综合FSVM的判别函数值ki,隶属度fi,评价标签yi,引入区域划分可信度δi作为评价补充,使得评价结果更加全面、易于理解。在采用FSVM评价时,每构建一次评价超平面,参与评价的样本就会产生一个对应的区域划分可信度。构建超平面时的样本区域划分可信度具体定义如下:

(6)

由公式(6)可知区域划分可信度由两部分构成,一部分体现了模型离散评价等级的偏差;另外一部分综合了判别函数值与隶属度,体现了FSVM评价结果的精确范围。校正参数p,q应使公式(6)中的分子与分母的数量级一致。p和q的存在,保证了模型参数在一定范围内可以做出调整以适应不同的具体情况。文中选取p=1,q=1。

应用中每经过一次超平面划分,参与划分的样本就会按公式(6)计算出其相应的区域划分可信度。这样,通过比较每组监测数据所得的区域划分可信度,了解评价结果的可信任程度,有效弥补了现行离散评价结果分辨率较低的不足。

3 仿真及实测验证

参考国家农田灌溉水质标准并且结合太湖流域的水域环境,本文选取盐度、氯化物、氨氮、溶解固体作为监测指标,将水质等级分为Ⅰ级(优)、Ⅱ级(良)、Ⅲ级(中)、Ⅳ级(差),具体评级标准见表1。

表1 农业水质等级评价标准

首先根据表1水质等级评价标准产生虚拟样本序列[23],每个等级随机产生5组数据,即共生20组标准水质样本,同时为了增加样本代表性,本文将指标处于等级区间临界值的水样定义为中间水质等级,见表2的第6,12,18组数据。

如指标权重确定采用改进GA算法对PP函数求解,求得的投影权重σ=(0.108 1,0.442 6,0.805 7,0.378 5)。

为验证模型评价效果,在相同条件下随机生成40个样本(每级10个)进行评价,测试结果正确的为39个,评价结果与水质经验等级的一致率为97.5%,而采用传统的灰色聚类法和模糊综合评价法对虚拟测试样本序列进行对比评价,两种对比方法的一致率为95%和92.5%,说明使用本模型的评价结果可以推广应用,精度较高。

进一步,选取太湖流域用于农业灌溉的20个水质监测样本进行实测检验,最终评价结果详见表3。

表2 农业虚拟水质样本、经验等级及模型评价结果

表3 农业水质等级评价实例数据与不同评价方法的评价结果

其中,水样7的盐度属于1级,而其他指标均属于2级,由于盐度权重较小,故最终模型评价此样本为2级,其区域划分可信度;水样5的氨氮含量属于2级,但计及其他污染物综合考量,最终被模型评价为1级水,其区域划分可信度 。3次构建评价超平面的评价区域划分可信度的无效临界值分别为δ1=0.438 9,δ2=0.374 3和δ3=0.221 6,易知可信度均大于无效临界值,水质综合评价结果可信。

为了进一步考察模型的抗噪稳定性,在实测样本中分别加入10%,20%,30%范围的随机噪声进行测试分析。表4表明,在较低的随机噪声条件下,本文模型和模糊综合法的评价结果基本不受影响,而灰色聚类法模型则出现错评情况;在20%,30%的噪声条件下所有模型均出现错评,但本文的FSVM模型的错评数少于对比模型。说明本文提出综合评价模型评价精度较高,抗噪能力较强。

表4 加噪条件下模型的评价结果对比分析

此外,实际应用中存在监测数据突然变化是由于自然条件的改变而引起的,若模型参数恒定则不能区分随机噪声和真正的环境条件变化。因此,模型应用时需要与实时监测设备结合,存储采集数据,通过合理设定模型参数更新时长以尽快捕获水质的静、动态特性,为甄别随机噪声与自然条件的变化提供理论与技术支撑。

4 结 论

针对农业水质综合评价中监测数据存在噪声影响模型判别准确性,及常用评价的4等级划分精度相对粗糙问题,本文提出数据驱动的FSVM评价模型。首先通过改进GA算法求解PP函数快速稳健地实现了指标权重优化;而后对FSVM模糊隶属度进行优化确定,经过3次构建评价超平面实现了4个等级有效换份,减小了噪声的影响;最后,通过引入综合评价区域可信度,用来表征模型评价结果的可信赖程度,为离散等级进一步细化描述提供了参考。文中提出的综合评价模型构建方法具有计算量小,训练速度快、稳健性好、区域可信度较高等优点,实例验证了模型的可行性与有效性。

猜你喜欢
水质评价投影权重
阿什河哈尔滨段水质评价
解变分不等式的一种二次投影算法
浞河浮游藻类的调查研究与水质评价
权重常思“浮名轻”
基于最大相关熵的簇稀疏仿射投影算法
找投影
找投影
为党督政勤履职 代民行权重担当
基于概率统计和模糊综合评价法的水质评价模型及其应用——以拉萨河水质评价为例
基于局部权重k-近质心近邻算法