基于多元统计的PM2.5分析与预测—以合肥地区为例①

2018-02-05 07:56敖希琴费久龙陈家丽汪金婷
关键词:优度线性显著性

敖希琴, 费久龙, 陈家丽, 郑 阳, 汪金婷

(安徽新华学院信息工程学院,安徽 合肥 230088))

0 引 言

近年来中国环境污染日益严重,许多城市出现雾霾天气,监控和预测大气污染已成为空气质量研究中的一个重要部分。PM2.5指的是大气中粒径小于或等于2.5μm的颗粒物,表示每立方米空气中这种颗粒的含量,其值越高,就代表空气污染越严重[1]。PM2.5从客观上对空气中的细小微粒能够做出描述和衡量,体现空气中微粒的浓度,已经成为人们日常生活中一个不可或缺的一项空气质量指标。

由于对PM2.5造成影响的因素有很多,统计分析中的多元回归分析模型可以处理这种情况,并且在气象、经济等领域已经有相当多的研究。例如唐猛分析了PM10浓度的统计学分布及预测[2];赵广华等将多元回归模型应用在区域经济预测中[3]。由国内诸多的文献可以看出,多元回归分析是预测方法中一种比较主流的的方法,在以往的研究中得到广泛的应用。

1 多元线性回归

多元线性回归分析是以多个解释变量的给定值为条件的回归分析,是研究一个因变量和多个自变量之间的线性关系方法[4],多元线性回归模型的一般形式为:

Y=β0+β1X1+β2X2+β3X3+…+βjXj+…

+βkXk+μ

(1)

式中,K为解释变量的数目,βj(j=1,2,…,k)为回归系数,μ为去除k个自变量时对Y影响后的随机误差。

2 模型数据准备

2.1 数据收集

为验证多元统计方法在PM2.5分析及预测方面的适用性,选取了合肥地区的PM2.5数据进行了相关实验。数据来源于“天气后报网[5]”,选取了时间段为2015年1月至2015年12月全年数据进行分析。

2.2 数据预处理

2.2.1 数据的筛选

由于该网站提供的数据项目比较多,基于实验目的,将2015年全年的数据中的“AOI指数”、“当天AQI排名”这两列数据剔除,剩下的“日期”、“质量等级”、“PM2.5”、“PM10”、“SO2”、“NO2”、“CO”、“O3”等列保留。

2.2.2 数据处理

该网站提供的数据当中,经过排查,出现了若干缺失值,需要进行填补,以满足数据的完整性要求。实验缺失值的处理方法是利用简单(非随机)插补,即用某个值(如平均值、中位数、众数)来替换变量中的缺失值,此处采用缺失值相邻两个值的平均值进行替代。

数据中存在一些影响模型效果的观测点,这些观测点或大或小,需要对其进行排查处理,以减小异常值对于整个数据模型的影响。异常值是指样本中的个别值,其数值明显偏离它所属样本的其余观察值[6]。对于异常值,可以通过箱线图判断。

图1 箱线图

由图1可以看出,数据中存在着一些异常值,如2015年1月17日、2015年1月25日、2015年2月04日、2015年2月14日、2015年2月17日、2015年5月27日、2015年8月10日等异常值。采取的处理方法是直接删除异常值。

2.2.3 数据分割

为体现实验的科学性,将合肥地区2015年的数据进行分割,2015年1月1日至2015年9月30日的数据为实验数据集,用于分析建模;2015年10月1日至2015年12月31日的数据为验证数据集,用于验证模型预测的准确性。

3 模型建立

3.1 相关性分析

相关分析是指对不同变量进行定量分析,由此来判断他们之间是否存在较为密切的关系,以及关系的密切程度。课题研究的是PM2.5和各个影响因素的关系,因此首先要进行PM2.5和各个影响因素相关性的考察,可以通过观察变量间的散点图来进行相关性分析。

借助于R软件,可做PM2.5和各个影响因素之间的散点图,如图2所示。并计算二者之间的相关系数,如表1所示。

表1 PM2.5与各影响因素间相关系数

图2 综合散点图

由图2可观察到PM2.5和PM10、CO之间有较为明显的线性趋势关系,其关系系数分别为0.803和0.838;PM2.5和SO2、NO2之间有一定的线性趋势关系,其关系系数分别为0.615和0.456,这四个影响因素与PM2.5呈正相关,说明当其浓度高增大时,PM2.5的浓度也会相应的增大。而PM2.5和PM10之间的散点图较为分散,其关系系数为-0.343。

图3 五个影响因素为整体时与PM2.5之间的散点图

3.2 多元回归模型的建立

通过相关性分析的结果,可以发现PM2.5与各个变量之间的关系基本呈现出线性趋势,为更好地研究PM2.5与各个影响因素之间的关系,选择PM10、SO2、NO2、CO、O3五个影响因素为自变量,建立多元回归模型。

首先将五个影响因素看成整体,做与PM2.5之间的散点图,从而大致的判断点的趋势,如图3所示。

从图3中可以看出大概呈现出线性的趋势,于是借助于R软件建立多元线性回归方程,得到结果如表2所示。

表2 系数表

根据实验结果,可得到该多元线性回归模型的表达式:

PM2.5=0.37PM10+0.20SO2-0.76MO2+

64.44CO-0.22O3-6.75

(2)

3.3 模型的检验

为验证模型的有效性,采用拟合优度检验、方程显著性检验、参数显著性检验对模型进行检验和评价。

3.3.1 拟合优度检验

在多元线性回归模型中,Multiple R-Square为决定系数,又称拟合优度,反映了自变量对因变量解释程度的高低,其值越大,说明自变量对因变量解释程度越高;Adjusted R-Square为可调整的拟合优度,反映了回归方程对样本的拟合程度,其值越大,回归方程对样本的拟合程度越高。借助于R软件中的summary函数,可得到拟合优度检验结果,如表3所示:

表3 拟合优度检验结果

由表3可知,Multiple R-Square的值为0.813,Adjusted R-Square的值为0.810,接近于1,表明拟合优度较好。

图4 预测值与实际值的对比图

3.3.2 方程显著性检验

在多元线性回归模型中,方程的显著性检验通常用F检验,即当p-value<0.05,即通过显著性检验。通过R软件,计算出来的p-value小于2.2e-16,远小于0.05,即满足显著性要求。

3.3.3 参数显著性检验

在多元线性回归模型中,参数的显著性检验是对自变量的显著性进行判定,即当Pr(>|t|)<0.05,通过显著性检验。借助于R软件中的summary函数,可得到参数显著性检验结果,如表4所示。

表4 参数显著性检验结果

由表4可知,除SO2剩余四个自变量均通过参数显著性检验。但是结合实际来看,SO2显然是对PM2.5有影响的。而作为模型选择的重要方法之一,逐步回归分析法可以用来筛选模型。

3.4 模型筛选

3.4.1 逐步回归分析

逐步回归就是在许多自变量共同影响着一个因变量的关系中,判断哪个( 或哪些) 自变量的影响是显著的,哪些自变量的影响是不显著的,然后将影响显著的自变量选入和将影响不显著的变量剔除[7],逐步回归分析结果如表5所示。

表5 逐步回归分析模型参数分析

由表5可知,又得到了一个预测模型:

PM2.5=0.37PM10+0.20SO2-0.76MO2+

64.44CO-0.22O3-6.75

(3)

由逐步回归分析可知,相对于原来的模型,新模型去除SO2、为验证新的模型是否满足课题需要,同理采用拟合优度检验、方程显著性检验、参数显著性检验等指标验证模型。

其中拟合优度检验结果,Multiple R-Square的值为0.8117,Adjusted R-Square的值为0.8089,相比于原来的模型,略有下降;方程显著性检验中,p-value: < 2.2e-16,可以得知方程通过了显著性检验;方程的显著性检验结果中,所有自变量均通过参数显著性检验。

3.4.2 模型选择

AIC准则又称最小信息准则,是衡量统计模型拟合优良性的一种标准,是寻找可以最好地解释数据但包含最少自由参数的模型,因此优先考虑的模型是应该是AIC最小的一个[8]。

表6 AIC模型比较

从上述实验结果,可以发现第二种模型的AIC相对较小,并且在考虑自变量尽可能少的原则下,选择逐步回归分析后的模型为最终的预测模型。

PM2.5=0.30PM10-0.76NO2+64.16CO-

0.26O3-3.51

(4)

3.5 模型的预测

通过以上分析得到的模型,用于预测合肥市2015年10月至12月合肥市的PM2.5。采用均方根误差(RMSE)准则(公式5)、平均绝对误差(MAE)准则(公式6)和Theil不相等系数准(公式7)则用于检验模型的预测效果,并做预测值与实际值的对比图如图4所示。

(5)

(6)

(7)

其中yi表示真实值,gi表示预测值,RMSE值和MAE值都是越小,表示预测值与真实值越接近,预测准确度越高;U取值在0到1之间,U越接近0,模型预测越准确。

由公式可得均方根误差(RMSE)为24.56,平均绝对误差(MAE)为15.65, Theil不相等系数为0.14,由于PM2.5的数据是在0~500甚至更大范围内波动,相比之下,该预测模型的RMSE、MAE、和Theil不相等系数较为理想,由此推断模型整体预测效果较好。

4 结 语

通过分析合肥市2015年PM2.5相关数据,建立一种以PM2.5为核心的多元线性回归模型。该模型指标共包括PM10、SO2、NO2、CO、O3五项。通过建立PM2.5与各个指标之间的散点图,大致判断各个指标是否与PM2.5呈现出一定的线性关系,从而建立一个“强行”的多元线性回归模型;采用拟合优度检验、方程显著性检验、参数显著性检验以及逐步回归分析对模型进行验证;最后得到一个较为满意的模型。运用该模型预测了2015年合肥市10月至12月份的PM2.5,且拟合优度和调整的拟合优度分别为0.81,0.81,均方根误差(RMSE)为24.56,平均绝对误差(MAE)为15.65,Theil不相等系数为0.14,模型预测效果较好。

虽然提出的多元线性回归模型可以在一定程度上较好的预测PM2.5,但仍然存在一些不足,具体如下:

1)该模型在建模前剔除了异常值,所以得到的模型较为稳健,对于一些较为极端的天气,预测效果不理想,如何将这些异常值纳入预测模型,提高模型对极端天气的预测准确性,这方面的工作有待进一步研究。

2)结合实际分析来看,PM2.5的变化与时间存在一定的关系,可以在多元线性回归模型的基础上结合时间序列模型,从而得到一个更为精确的模型。

[1] 百度百科.PM2.5.https://www.sogou.com/sie?hdq=AQxRG-4492&query=PM2.5&ie=utf8.

[2] 唐猛.长沙市颗粒物PM10浓度统计学分布特性与预测[D].长沙:中南大学,2010.

[3] 赵广华,刘炜.多元回归模型在经济预测区域中的应用[J].中国商贸,2009(08):180-181.

[4] 张景阳,潘光友.多元线性回归与BP神经网络预测模型对比与运用研究[J].昆明理工大学学报(自然科学版),2013,38(06):61-67.

[5] 天气后报网.http://www.tianqihoubao.com/ .

[6] 王怀亮.统计数据异常值的识别及r语言实现[J].电子技术,2012(05):6-8.

[7] 姜新华,刘霞,薛河儒,等.基于逐步回归的空气质量影响因素分析——以呼和浩特市区为例[J].内蒙古农业大学学报(自然科学版),2015,36(02):123-126.

[8] Guofeng, SongXiaogang, DongJiafeng etc. Blockwise AIC for Model Selection in Generalized Linear Models[J].Environmental Modeling & Assessment, 2017 (1) :1-11.

猜你喜欢
优度线性显著性
渐近线性Klein-Gordon-Maxwell系统正解的存在性
勘 误 声 明
如何正确运用χ2检验
——拟合优度检验与SAS实现
线性回归方程的求解与应用
本刊对论文中有关统计学表达的要求
基于显著性权重融合的图像拼接算法
二阶线性微分方程的解法
基于多级优度评价方法的导弹武器系统效能评估
一种基于词袋模型的新的显著性目标检测方法
图像序列的显著性目标区域检测方法