基于物联网监测和感知情感相结合的大气质量综合评价

2021-05-29 01:23李其娜翟雪迎
科学技术与工程 2021年11期
关键词:词库分析模型空气质量

李其娜,季 民,孙 勇,翟雪迎,郑 岩

(山东科技大学测绘科学与工程学院,青岛 266590)

近年来,随着人们生活水平的提高,对优美的大气环境的呼声也日渐高涨,因此改善大气环境,满足人民群众对优美的大气环境的需要显得尤为重要,但在此之前首先要对大气质量做出全面、合理的评价,目前对大气质量评价的方法很多,如空气污染指数法[1-2]、灰色聚类法[3]、主成分分析法[4]、神经网络法[5]等,其中,层次分析法由于做到了定性分析与定量分析相结合而在众多方法中备受关注,学者利用层次分析法对空气质量评价作了大量工作,诸如杨帆等[6]利用改进的层次分析法对福州市大气质量进行评价并与属性识别理论模型进行对比,证明了改进的层次分析法评价结果更符合实际情况;郑健[7]、邓旺华等[8]、韩卓[9]分别对乌鲁木齐市、乌海市、西安市数年间的大气质量做出了评价且发现大气环境质量受PM10和SO2的影响较大;杨文卿等[10]对南安市和泉州市五年间大气质量做了对比并从四个方面分析影响结果的因素;张勤虎等[11]对兰州市“十二五”期间的空气质量进行了评价且发现在各污染因子中,PM10对空气质量的影响最大。此外随着网络的普及,公众开始在网上发表言论,这些言论中包含了各种情感色彩,其中不乏针对大气质量满意程度的评论,通过对评论的研究可以发现大气质量与居民情感之间的相关性[12]以及人们对大气污染关注度的提升[13],针对这些评论数据进行情感分析,可以探寻影响大气质量满意度的影响因素[14],可为大气质量的评价提供一定的参考。但是,基于物联网监测数据的层次分析法只能反映空气监测站点周围有限区域的大气质量情况,且利用公众情感分析大气质量虽在定位上更加精准但在客观性上略有不足,为此,现基于物联网监测数据与公众感知的情感数据,建立大气质量综合评价模型,使得评价结果既能反映小区域大气质量等级,弥补监测数据的不足,也能将主观性与客观性相结合,弥补公众情感评价主观性较强的缺点,评价结果更加真实地反映当下大气质量水平,因此具有一定的社会意义。

1 基于物联网监测数据的山东省大气质量评价

1.1 物联网监测数据来源

物联网监测数据源自中国环境监测总站,监测站点实现全自动监测,每小时记录一次污染物浓度值,在《大气环境质量标准》(GB 3095—2012)[15]中,其对污染物浓度数据有效性的最低要求明确表示,每日至少有20 h平均浓度值或采样时间,每月至少有27个日平均浓度值(2月至少有25个日平均浓度值),基于以上两点,通过数据筛选后将满足要求的山东省80个大气监测点监测的原始数据整理后存放到数据库中,最终用于模型的数据为山东省2016年1—12月的大气污染因子(SO2、NO2、CO、O3和PM2.5)月均监测值。

1.2 层次分析模型构建及其计算过程

基于物联网监测数据,采用层次分析模型对山东省大气质量进行评价,层次分析模型构建及其计算过程如图1所示。

图1 层次分析模型构建流程图及层次分析法计算过程Fig.1 The construction flow chart of analytic hierarchy process(AHP) model and the calculation process of AHP

其中评价基本单元为山东省地级以上城市,以《大气环境质量标准》中污染物浓度限值为依据,模型中大气环境质量为目标层(A),以SO2、NO2、CO、O3和PM2.5这五项评价因子为第二层(B),地级市中各个观测站点作为第三层(C),空气质量级别为最后的方案层(D)。

层次分析模型构建之后,其次是构造判断矩阵(A-B),其准则为:以污染因子在评价单元内所有站点监测的均值为标度,大气环境质量二级标准为基准。其次综合考虑监测点影响因素后,构造判断矩阵(B-C)准则为

(1)

式(1)中:x为站点所在区县的GDP在全市GDP中所占比重;y为站点所在区县人口数在全市人口数中所占比重;z为评价因子在各站点所监测到的浓度值。

最后构造判断矩阵(C-D),根据大气污染物分级浓度限值,将所选评价因子的浓度值与各空气质量级别的标准值之差的绝对值取倒数,再将结果取均值之后作为标度。

任一判断矩阵构建完成后,利用方根法[6]对其计算特征值与特征向量。

上述判断矩阵计算得到对应特征向量的过程即为层次单排序,排序的结果也就是相同层次上各元素相对于上层某个元素的相对重要性权值,另外,经验证各个判断矩阵的一致性比率(CR)<0.1,因此以上判断矩阵均满足一致性检验。

除了层次单排序外,还要对总的排序进行计算并让其通过一致性检验,因此根据准则层B对目标层A的判断矩阵,以及子准则层C对准则层B的判断矩阵得到的特征向量,建立(A-C)的层次总排序权值表,经检验一致性比率(CR)<0.1,所以总排序的一致性结果令人满意。

最后,对以上结果进行决策组合向量的运算便可确定最终的大气环境质量级别。

1.3 基于层次分析模型的各地市大气质量级别

利用层次分析模型得到了山东省2016年17个地市的大气质量级别,其中大气质量一级权重值与大气质量二级权重值总和为1,因此这里只给出大气质量一级权重值,最终结果汇总如表1,再根据表1的大气质量权重值结果给出1—12月17市的大气质量变化对比分析图,如图2所示。

表1 山东省2016年17地市的大气质量一级权重值Table 1 The first-level weight values of air quality in 17 cities in Shandong Province in 2016

图2 2016年山东省17市大气质量一级权重值变化情况Fig.2 Changes of first-class weight values of air quality in 17 cities of Shandong Province in 2016

由图2可以看出17个地市的大气质量一级权重值在一年内的变化情况,其中5—8月份全省的空气质量状况普遍较好,9月、11月、2—4月份全省的空气质量状况普遍较差,总结起来看,空气质量状况较好的时间段主要集中在夏季,而秋季的大气质量状况波动较大,冬季的大气质量状况较差但是波动较小,春季的大气质量状况则是随着时间变化逐渐好转;从空间分布来看,一年中空气质量最好的地区为东部沿海的地市,中部和西部地区次之;其次,东部地区大气质量状况在一年中波动较小,而中部和西部地区的大气质量状况在一年中变化较大,尤其是秋冬季节,变化波动最大。

2 基于公众感知情感分析的山东省大气质量评价

2.1 公众感知情感分析数据来源

用于公众感知情感分析的数据有两个来源,一是自山东省环境公诉(信访)平台获取了2011年6月—2018年10月的20 000多条投诉数据,二是利用网络调查问卷获取了2018年12月—2019年2月的700条有效数据,其中无论是平台爬取的投诉数据还是问卷调查数据,都包含了时间、地点以及公众对于周围大气环境的具体评价。

2.2 公众感知情感分析方法

2.2.1 空气质量评价的情感词库构建

在空气质量评价情感词库构建的过程中,涉及两个方面的内容,一方面是利用大连理工大学信息检索研究室构建的中文情感词库[16]以及修饰词词典作为基础词库,前者囊括了动词、名词、形容词、网络用语、副词及成语,这些词语都被标注了各自的情感极性,情感强度从小到大按照1~9划分;后者囊括了否定词及程度副词,为了便于量化情感强弱,对这些程度副词凭经验进行了量化赋值。

另一方面,由于上述基础词库囊括的词语与大气质量评价相关度较低,用在大气质量评价工作时略显不足,因此本文利用平台获取的投诉数据以及网络问卷调查及检索数据作为原始的文本语料,在这些文本语料的基础上进行中文分词得到分词短语,然后结合基础词库去重得到候选情感词并对其进行有关大气质量的情感词筛选,筛选的过后的候选情感词与网络检索的大气相关词语合并后,形成大气领域情感词库,最后经过多位专家人工标注情感强度的方法,得到最终大气领域情感词典,词典内词语的情感强度与极性的标准同基础情感词典一致。

最后,将上述过程得到的基础词库与大气领域情感词典合并形成新的词库,称之为空气质量评价的情感词库。

2.2.2 空气质量感知满意度评价

基于空气质量评价的情感词库,采用以下公式对原始文本语料情感值进行计算,即

E(Pi)=E(A)E(B)E(N)

(2)

E(Ci)=min(P1,P2,…,P3)

(3)

E(S)=min(C1,C2,…,C3)

(4)

式中:A为情感词;B为程度副词;N为否定词;E(A)为情感词的情感强度;E(B)为程度副词的权重;E(N)表示否定词的权重,大小由(-1)m决定,(m表示否定词的个数);E(Pi)为第i个短语的情感值;E(Ci)表示第i个分句的情感值;E(S)为文本句子的最终情感值。

基于上述过程得到的文本语料的情感值即空气质量感知满意度,接着选取了3 000条原始文本语料对空气质量评价的情感词库进行精度计算,其中误差在±2范围内视为满意,最终结果显示其精度达91.8%,而利用同样标准计算的基础情感词库精度为30.3%,因此利用空气质量评价的情感词库对大气质量评价更加合理。

空气质量感知满意度计算完成后,利用原始文本语料里的地点信息进行地址匹配,再对其进行核密度分析并对满意度结果进行标准化处理,使其范围为0~1,最后再对其进行自然间断法分级,分级情况如表2所示。

表2 大气感知质量分级情况Table 2 Classification of atmospheric perception quality

2.3 基于公众感知情感分析的大气质量结果

根据表2的分级标准,将得到的空气质量感知满意度标准化后的结果按不同月份进行划分,得到了12个月的大气质量感知情感分析结果,如图3所示。

图3 大气质量感知分析结果的空间分布图Fig.3 Spatial distribution diagram of atmospheric quality perception analysis results

由图3可以看出,1月大气质量较差的地区主要为威海市、东营市、青岛市的南部、日照市的北部以及济宁市、泰安市与枣庄市这三市的交界地区,与之相反的空气质量较好的地区主要集中在德州市、滨州市、烟台市、淄博市、菏泽市以及济南市几个地区,其余地区多为2级空气质量;2月大气质量为3级的地区主要为烟台市西北部、青岛市、潍坊市南部、东营市、滨州市、莱芜市、济宁市以及德州市北部,而济南市、淄博市、日照市以及烟台市南部地区基本为1级大气质量;进入3月后,泰安市、济宁市以及枣庄市由原来的2级的地区变为3级地区,日照市和临沂市部分地区也由原来的2级地区变为3级地区;4月相较于3月份最大的变化是枣庄市,由原来的3级地区转为2级地区,全市空气质量明显好转,其余地市的大气质量总体变化较小;5月较上个月变化最大的是淄博市,由上个月的1级、2级空气质量降为3级空气质量;6月相较上个月变化较小,主要变化是临沂市的空气质量由原来的1级为主,降为2级、3级为主。

时间进入下半年后,7月的威海市、青岛市以及日照市三个地区空气质量明显下降,另外泰安市、济南市以及莱芜市这三市的交界处空气质量也明显下降;8月相较于上个月变化不大,主要是菏泽市空气质量下降,而滨州市空气质量好转;9月的菏泽市空气质量有所好转,而威海市东部空气质量明显下降;10月里空气质量变化较大的地区主要是东营市以及滨州市,这两个地区的空气质量下降为3级,而济宁市的空气质量由原来的3级为主转为2级为主,即空气质量有所好转;11月相较于上个月全省的空气质量明显好转,威海市、烟台市、青岛市以及东营市这几个地区变化最为明显,由原来的3级为主转为2级或1级;最后,12月的全省空气质量整体与上月变化不大,但局部地区有所变动,主要表现为威海市、东营市、枣庄市以及济宁市空气质量下降,而莱芜市、滨州市以及德州市这几个地区的空气质量有所好转。

3 基于层次分析和公众感知情感分析的大气质量综合评价模型

利用层次分析模型得到山东省各个地市的大气质量等级结果,这个评价的结果是基于已建成的空气站点监测的污染因子浓度值,由于每个地区的空气监测点数量有限,并且站点的选址不能很好地覆盖全部地区和人口,所以它只能反映空气监测站点周围有限区域的大气质量,但是,在最终结果里却用部分站点的大气质量结果来作为整个地市的大气质量等级,这样的结果在准确度上难免存在不足。而在另一方面,大气质量感知情感分析的结果相比层次分析法所得结果定位更加精准,更能在小范围上反映群众对于周围空气环境的满意程度,但是由于感知情感分析结果相比层次分析结果更加突出了个体的主观性,在客观性上略有不足,因此我们将感知情感分析的结果中引入层次分析法所得的评价结果,结合两种评价方法的优缺点,得到一个既能反映小区域大气质量等级也能综合主观性与客观性的大气质量综合评价结果。

3.1 基于层次分析模型的大气质量级别对空气质量的描述

在层次分析分析模型中,根据《大气环境质量标准》将最后的大气质量评价结果划分成两个等级,表3为基于层次分析模型的大气质量级别对空气质量的描述。

表3 基于层次分析模型的大气质量级别对空气质量的描述Table 3 Description of air quality based on the analytic hierarchy model

3.2 基于感知情感分析模型的大气质量级别对空气质量的描述

在大气质量感知情感分析中,将最后的大气质量评价结果划分成3个等级,表4为基于公众情感分析的大气质量级别对空气质量的描述。

表4 基于公众情感分析的大气质量级别对空气质量描述Table 4 Description of air quality by air quality level based on public sentiment analysis

3.3 基于层次分析和感知情感分析的大气质量综合评价模型

根据表3与表4的介绍,结合两种方法中对应等级的大气质量的描述,将感知情感分析的结果中引入层次分析法所得的评价结果,总结出一个关于大气质量综合评价结果的等级对应表(表5),以情感分析所得的大气质量等级作为主要权重,在情感等级下划分出新的子等级,即将层次分析法所得大气质量等级列为子等级,重新划分出综合评价结果的六个评价等级,依次为优、良、轻微污染、中度污染、严重污染、重度污染。

根据表5,给出关于层次分析结果和感知情感分析结果的大气质量综合评价模型,模型中根据下面分段函数进行大气质量的综合评价。

(5)

式(5)中:a为感知情感分析结果的大气质量等级;b为层次分析结果的大气质量等级;Y为最终的综合评价结果。

表5 大气质量综合评价等级对应表Table 5 Corresponding table of comprehensive evaluation grades of air quality

以Y=优,a=1级且b=一级为例,上面分段函数的意义为,当情感分析结果为1级且层次分析结果同样为一级,则认为该评价区域空气质量为优,表明该地区空气质量非常好,民众基本满意。需要注意的是,当情感分析结果为3级且层次分析结果为二级时,则认为该评价区域空气质量为重度污染,这时不论从民众的情感角度还是从大气监测的污染程度来说,都是最坏的,这样的地区对于空气质量的改善愿景最为迫切,尤其需要相关部门的重视。

图4 大气质量综合评价结果空间分布图Fig.4 The spatial distribution of the comprehensive assessment results of air quality

4 基于大气质量综合评价模型的大气质量分析与评价

4.1 基于大气质量综合评价模型的大气质量评价结果

前面利用层次分析模型得到了各地市不同月份的大气质量级别,然后进一步可以给出对应的大气质量空间分布图,再结合12个月的大气质量感知情感分析结果,通过已经给出大气质量综合评价模型,利用评价模型中的分段函数式,在Arcgis中使用栅格计算器里的CON(条件)函数进行数据处理,写出关于叠加分析的地图代数表达式并计算得到各个月份的对应结果,图4即为12个月大气质量综合评价结果空间分布图。

4.2 基于大气质量综合评价模型的大气质量综合分析

根据上述12个月的大气质量综合评价情况,计算得到图中各月各等级所占栅格个数,为了更直观地看出每个月的大气质量状况,根据得到的栅格个数制作了1—12月各大气质量等级的面积占比示意图(图5),其中每个月份的总栅格数均为6 000个。

图5 1—12月各大气质量等级的面积占比示意图Fig.5 Schematic diagram of the area proportions of each air quality level from January to December

由图5所示,从时间序列上看,山东省大部分地区1月的大气质量综合等级为轻微—中度污染,2—4月大气质量下滑,大部分地区为中度污染甚至重度污染,而5—8月大气质量整体变好,半数地区呈现轻微污染,另外还有一大部分地区存在严重污染,到了9月,山东省大气质量进入一年中最差的时段,2/3以上的地区空气质量为中度污染甚至重度污染,10月的大气质量整体好转,全省约占1/3的地区为严重污染,但也有1/3的地区存在轻微污染,最后的11—12月份全省多半地区大气质量为中度污染。

其次是从空间分布情况来看,由于时间跨度较大以及地市较多且情况复杂,下面按其特点分为几种情况分别讨论。

(1)重度污染地区的主要分布。纵观全年情况,山东省重度污染地区主要分布在东营市、滨州市的北部、青岛市以及潍坊市的南部地区,泰安市、济宁市以及枣庄市部分地区在冬春两季也出现重度污染。

(2)空气质量为优的地区的主要分布。空气质量为优的地区主要分布在烟台市和威海市南部的交界处,日照市与潍坊市南部的交界处,菏泽市西部、聊城市西部以及德州市北部地区在少数月份也出现大气质量为优的情况。

(3)空气质量月度变化较大的地区。从12个月的空气质量变化情况来看,有十个地市的空气质量波动较大,分别为威海市、烟台市、潍坊市、滨州市、聊城市、菏泽市、枣庄市、临沂市以及日照市,这些地市的大气质量有些月份很好,但在某些月份表现较差,属于空气质量月度变动较大的地区。

(4)空气质量月度波动较小的地区的主要分布。从12个月的空气质量变化情况来看,除了空气质量波动较大的十个地市外,其余七个地市的大气质量随时间变化波动较小,这些地区分别为东营市、济宁市、青岛市、济南市、淄博市、莱芜市以及泰安市。其中东营市虽然空气质量稳定,但是却是在较差的水平保持稳定,这一点尤其需要得到重视。

5 结论

基于物联网监测数据与公众感知的情感数据,建立大气质量综合评价模型,最终评价结果既能反映小区域大气质量等级,弥补监测数据的不足,也能将主观性与客观性相结合,弥补公众情感评价主观性较强的缺点,与单一利用层次分析法或公众情感来评价大气质量的结果来说,大气质量综合评价模型使评价结果更具严谨性与合理性。综上所述,可以得出如下结论。

(1)从时间序列上看,一年中全省大气质量最好的时段在5—8月,最差的时段出现在9月,其余月份全省大气质量状况以中度污染为主。

(2)从空间分布情况来看,山东省重度污染地区主要分布在东营市、滨州市的北部、青岛市以及潍坊市的南部地区,泰安市、济宁市以及枣庄市部分地区在冬春两季也出现重度污染。空气质量为优的地区主要分布在烟台市和威海市南部的交界处,日照市与潍坊市南部的交界处,菏泽市西部、聊城市西部以及德州市北部地区在少数月份也出现大气质量为优的情况。此外,占全省面积半数的中度污染地区以及严重污染地区多分布在山东省的中部、中东部以及南部地区。

(3)综上所述,由大气质量综合评价模型得到的结果显示,山东省2016年的大气质量超半数月份里以中度污染为主,中度污染地区以及严重污染地区加起来占全省面积一半以上,这些地区多分布在山东省的中部、中东部以及南部,此外重度污染地区主要分布在东营市、滨州市的北部、青岛市以及潍坊市的南部地区,这些地区无论是从大气监测的数值来看还是从民众的满意度来看都是最差的,需要该地区相关部门引起重视,切实处理好环境问题。

猜你喜欢
词库分析模型空气质量
基于BERT-VGG16的多模态情感分析模型
纤维增强复合材料疲劳寿命预测及损伤分析模型研究进展
一“吃”多用
输入法词库取证比较研究
输入法词库乾坤大挪移
车内空气质量标准进展
重视车内空气质量工作 制造更环保、更清洁、更健康的汽车
多功能空气质量远程检测仪
全启发式语言分析模型
大功率型EPS控制器热分析模型的研究