基于多源数据的福建省人口数据空间化研究

2019-09-10 21:52杨晓荣陈楠
关键词:人口影响因素

杨晓荣 陈楠

摘 要:针对人口统计数据无法精细直观反映人口真实的空间分布状况的问题,该文以福建省为例,对其2015年的人口数据进行空间化。以多源数据为基础数据,在县级尺度上采用了空间回归模型构建福建省2015年福建省500 m人口空间分布数据,在乡镇尺度上对其空间化结果进行精度验证并与WorldPop、中国公里网格人口分布数据集比较。结果表明: NPP/VIIRS夜间灯光、路网、DEM、土地利用数据与人口具有较强的相关性,有足够能力模拟人口的空间分布;对于2015年福建省人口数据空间化,空间误差模型比空间滞后模型的回归拟合效果更好;人口数据空间化结果精度比较高,在空间上能精细展现2015年福建省的人口分布状况;人口高值区主要集中在县城所在地,人口呈现出主城区高、四周低的空间分布格局。

关键词:人口;影响因素;空间回归;空间化

中图分类号:TP79;C922

文献标识码: A

人口增长问题是当今世界不容忽视的问题,也加剧了与粮食、能源、资源、环境之间的矛盾[1]。深入了解人口信息,掌握精确的人口空间分布及其变化信息可以为解决社会、经济、资源和环境问题提供科学的决策依据[2, 3]。然而,现有的人口数据通常是通过人口普查或抽查方式按行政单元逐级统计和汇总,忽略了统计单元内部人口分布的差异性,且时间分辨率低,更新周期长,执行时费时费力[4, 5]。同时,为了保护人口数据的隐私性,人口数据通常以县、市、省、国家等较大行政单元进行公布,这不利于人口数据与其他类型数据的融合分析研究,限制了人口数据的可利用性[6]。人口数据空间化恰好弥补了这种限制性,得到的空间化产品可以有效与其他类型数据融合,在风险评估、资源分配、经济发展等方面发挥作用[7, 8]。

人口数据空间化是以人口数据、行政边界以及影响人口分布的因素作为建模参考要素,通过人口建模或采用一定的计算方法,将人口数据分配到一定尺度的格网上,呈现出人口空间分布信息,实现人口统计数据的空间可视化[9]。自人口增长问题的严重性得到重视,各国学者相继主要从建模要素、建模方法、精度验证方法等三个方面开展全球、国家、州(省)级、县级等尺度的人口数据空间化研究,形成了UNEP/GRID、GPW及GRUMP、LandScan、WorldPop、中国公里格网人口分布数据集等具有较大影响力的全球人口空间化产品[9-11]。但在许多人口数据空间化研究中,建模方法多为多元回归方法,忽略了人口的空间分布效应,如柏中强等[12]和Zhuo等[13]的研究。

本研究考虑到数据的可利用性与人口的空间分布效应,在NPP/VIIRS(National Polar-orbiting Operational Environmental Satellite System Preparatory Project/ Visible Infrared Imaging Radiometer Suite)夜间灯光、土地利用数据、DEM、路网数据与常住人口数据的相关性的基础上,以福建省为研究区,在县级尺度上采用空间回归模型对2015年福建省常住人口进行回归以构建其500 m人口空间分布数据,并在乡镇尺度上对人口空间化结果进行精度验证,同时与WorldPop及中国公里格网人口分布数据集比较,实现2015年福建省人口数据空间化。

1 数据来源和研究方法

1.1 数据来源

式中:Y为因变量,X为自变量,β为X的空间回归系数,μ为残差,W为空间权重矩阵,ρ为空间自回归系数, λ为空间自相关系数,ξ为因变量误差,ε为自变量误差。μ=μ1时,模型为空间滞后模型(SLM);μ=μ2时,模型为空间误差模型(SEM)。本研究经过模型比较选择最佳空间回归模型。

空间回归模型中R2(相关系数)、Log likelihood(对数似然值)、Akaike info criterion(赤池信息準则)和Schwarz criterion(施瓦茨信息准则)共四个统计量作为模型的评价指标。其中,R2的取值范围为[0,1], R2越接近于1、Log likelihood值越大、Akaike info criterion和Schwarz criterion值越小说明模型的回归拟合效果越好;除了上述评价指标,还需在普通最小二乘回归模型(OLS)的基础上通过拉格朗日乘子检验和稳健性的拉格朗日乘子检验判断模型的回归拟合效果,Lagrange Multiplier 和Robust LM值越大说明模型的回归拟合效果越好[15]。

基于八邻域(Queen)邻接规则的空间样本常常与其周围空间单元具有更加紧密的关联效应。为更能全面地反映行政区域单元空间邻接关系,本研究选择构建基于八邻域邻接关系的空间权重矩阵,认为当两个空间单元存在公共边或同一点即为相邻,权值为1,否则为0[16]。

鉴于人口数量不可能为负值,本研究默认回归模型的自变量系数及常量必须为正值,且还需通过显著性检验。建立好空间回归模型后,将模型中的常量按县为单位平均分配到每个县的各个格网上,即在计算各格网单元上的人口数值时,原模型中的常量发生了变化,其余参数均未变。将各格网单元上的自变量数值代入模型计算各格网单元上的人口数值,实现500  m格网单元的人口构建。

为保证县域上总的模拟人口数与实际常住统计人口数据一致,对各格网单元的人口回归结果分县按式(2)进行校正,最终得到福建省500 m格网单元的人口空间分布数据,实现2015年福建省人口数据空间化。

Pij=Pij′×PiPi′,(2)

式中:Pij为第i个县第j个格网单元上调整后的人口数值;Pij′为第i个县第j个格网单元上的人口回归数;Pi第i个县常住人口统计数据;Pi′为第i个县上初始的总模拟人口数。

1.2.3 精度验证方法

本研究在县级尺度上进行人口数据空间化,在乡镇尺度上选择相对误差(RE)、平均相对误差(MRE)、平均绝对误差(MAE)和均方根误差(RMSE)等评价指标对人口数据空间化结果进行精度验证,并与WorldPop及基于土地利用构建的中国公里网格人口分布数据集比较。其评价指标计算公式如表2所示。

2 结果与讨论

2.1 人口与各要素的的相关性分析

本研究考虑了夜间灯光、路网、DEM、土地利用类型的影响,分析了人口与这些要素之间的相关性。表3中NPP/VIIRS夜间灯光与人口的相关系数最高(为0.866),未利用土地与人口的相关系数最低(为0.034)。相关性分析表明,夜色间灯光、路网、DEM、土地利用数据与人口分布关系密切,具有模拟人口的空间分布的能力。

人口数据空间化过程中建模要素的选择对人口数据空间化的结果具有至关重要的影响,它决定了我们从哪些角度来解释人口分布的影响机制以及模拟人口分布。部分建模要素不仅具有时间分辨率还具有空间分辨率,这些都影响了人口数据空间化最终的结果精度。

2.2 空间回归模型构建

鉴于相关性分析表明了夜间灯光、路网、DEM、土地利用数据与人口具有良好的相关性,本研究以各县的DEM总值、路网总长度以及各土地利用类型上的夜间灯光总强度为自变量待选量,以各县常住人口统计数据为因变量,通过显著性及正值检验确定最终的自变量,建立空间回归模型。最后,经过模型比较选择最佳的空间回归模型。

2.3 人口数据空间化结果

经过上述相关性分析及最佳空间回归模型的选择,结合县域尺度人口分布的校正,本研究估测了500 m格网单元上的人口值,实现了2015年福建省人口数据空间化,图2精细地展现了2015年福建省的人口分布状况。由于水域、未利用土地、海洋这三类土地利用类型最终未参与到空间回归模型的建立,本研究在人口数据空间化实现中将这三类土地利用类型所在网格单元的人口设置为0,认为其无人居住,这也符合人口的实际分布情况。

从图2可以看出,2015年福建省人口主要聚集于建设用地,各县的人口高值区主要集中在县城所在地,其人口最高值为16009,最小值为0,人口呈现出主城区高、四周低的空间分布格局;沿海区域的人口明显高于其他地区,这也间接反映了沿海区域更好的经济发展基础吸引了大量人口的聚集,城市化进程更快。闽北大部分属于山区,经济发展缓慢,常住人口数量明显低于沿海区域。结合2015年福建省人口的实际分布情况,总体来看本研究人口数据空间化结果符合2015年福建省人口的实际分布情况。

2.4 精度验证结果

本研究随机抽取132个乡镇,分别在本研究人口数据空间化结果、WorldPop及基于土地利用构建的中国公里网格人口分布数据集上统计这些乡镇的人口数,然后分别与其常住人口统计数据进行对比分析以分别计算其相对误差(RE)、平均相对误差(MRE)、平均绝对误差(MAE)、均方根误差(RMSE)共四个评价指标并对相对误差进行分级,最后根据其评价指标比较这三种数据集。

表6为人口分布数据集的误差统计表,其评价指标分别为MRE、MAE、RMSE。由表6可以看出,本研究人口数据空间化结果的MRE、MAE、RMSE分别为49.54%、15636、30071,WorldPop数据集的MRE、MAE、RMSE分别为74.39%、15740、32246,中国公里网格人口分布数据集的MRE、MAE、RMSE分别为75.72%、15934、30539。经过数值比较,发现本研究人口数据空间化结果的MRE、MAE、RMSE这三个误差均小于WorldPop与中国公里网格人口分布数据集,这说明在福建省本研究人口数据空间化结果精度比WorldPop与中国公里网格人口分布数据集精度要高。

表7是132个乡镇的相对误差分级统计表。本研究人口数据空间化结果出现准确估计的乡镇个数均大于WorldPop与中国公里网格人口分布数据集,严重低估、低估的乡镇个数略大于WordPop與中国公里网格人口分布数据集,高估的乡镇个数略大于WorldPop数据集又略小于中国公里网格人口分布数据集,严重高估的乡镇个数均小于WorldPop与中国公里网格人口分布数据集。经过比较分析,从RE角度总体来看,本研究人口数据空间化结果精度要高于WorldPop与中国公里网格人口分布数据集。

结合MRE、MAE、RMSE、RE四个评价指标,综合分析,认为本研究人口数据空间化结果精度要高于WorldPop与中国公里网格人口分布数据集。这充分表明本研究人口数据空间化结果精度比较高,在空间上能够精细地展现2015年福建省的人口分布状况,弥补了传统的以县为单位展现人口分布状况的不足。

2.5 讨论

福建省气候条件优越,作为海上丝绸之路的重要起点以及互联互通建设的重要枢纽,吸引了大量外来人口来闽发展和居住。其人口数量一直在不断增长,截止至2015年,其常住人口数量从2000年的3410万增加至3839万。然而由于福建多山的地貌及沿海的地理位置,台风登陆时风力和降雨量会骤增,容易造成泥石流、山体滑坡、和城市内涝等自然灾害的发生,影响了社会、经济的稳定发展。这时,了解到精细的人口空间分布状况能很好地对自然灾害的预防与响应救援起到指导性作用。本研究人口数据空间化结果能够精细直观地反映出2015年福建省的人口空间分布状况,可以定性地预测之后年份的人口空间分布状况,为该地区的经济发展、人口管理、自然灾害的预防与响应救援等提供有力的科学决策依据。

2015年,福建省路网、DEM和土地利用类型与人口具有良好的相关性,有足够能力作为人口建模要素。然而,本研究仅考虑了这些遥感与地理要素对人口分布的影响,未考虑气温、降雨等气候因素以及GDP、房价等社会经济因素的影响,这可能一定程度上造成了本研究人口数据空间化的人口低估与高估现象。此外,土地利用或多越少会存在一定的解译误差问题,并且零碎的建设用地都有可能存在于耕地、林地、草地中,这些在本研究使用的分辨率仅为1 km土地利用数据中无法体现,这也可能是人口出现低估与高估现象的原因。

本研究人口数据空间化结果的MRE、MAE、RMSE均小于中国公里网格人口分布数据集[17],表现为其MRE、MAE、RMSE分别为49.54%、15636、30071,中國公里网格人口分布数据集其指标数值分别为75.72%、15934、30539,且本研究人口数据空间化结果出现准确估计的乡镇个数大于中国公里网格人口分布数据集,这说明了本研究人口数据空间化结果的精度比中国公里网格人口分布数据集的精度要高,表明了在使用土地利用类型数据实现人口数据空间化时结合夜间灯光、路网等数据可以提高人口数据空间化结果的精度。

与已有研究比较,本研究使用空间回归建模方法,而大量已有研究直接采用多元回归建模方法,如梁友嘉等[18],多元回归建模方法未考虑人口的空间分布效应。本研究通过对OLS模型和空间回归模型从R2、Log likelihood、Akaike info criterion、Schwarz criterion、Lagrange Multiplier、Robust LM指标进行比较,得出考虑到人口空间分布效应的空间回归模型比未考虑到人口空间分布效应的OLS模型的回归拟合效果要好的结论。

人口空间分布的影响因素复杂,建模方法也多样,在今后的人口数据空间化研究中,应重点加强建模要素及建模方法的挑选及改进,围绕如何得到精细的人口空间分布和如何提高人口数据空间化的精度开展研究。

3 结论

夜间灯光、土地利用状况、路网、DEM都是影响人口分布的重要因素,成为了实现人口数据空间化的重要数据源。本研究考虑到数据的可利用性和人口的空间分布效应,在分析NPP/VIIRS夜间灯光、土地利用类型、路网、DEM与人口的相关性基础上,通过空间回归模型构建2015年福建省500 m人口空间分布数据,在乡镇尺度上对人口数据空间化结果进行精度验证,同时与WorldPop及中国公里网格人口分布数据集比较,最终得出以下结论:

(1)NPP/VIIRS夜间灯光、土地利用类型、路网、DEM这些因素与人口具有较强的相关性,它们与人口分布关系密切;

(2)对于2015年福建省人口数据空间化,空间误差模型比空间滞后模型的回归拟合效果更好;

(3)本研究人口数据空间化结果符合2015年福建省人口的实际分布情况,人口呈现出主城区高、四周低的空间分布格局且沿海区域的人口明显高于其他地区;

(4)相对于福建省区域的WorldPop与中国公里网格人口分布数据集,本研究人口数据空间化结果精度更高。

参考文献:

[1]叶宇, 刘高焕, 冯险峰.人口数据空间化表达与应用[J].地理信息科学,2006,8(2):59-65.

[2]Weber E M, Seaman V Y, Stewart R N, et al.Census-independent population mapping in northern Nigeria[J].Remote Sensing of Environment,2018,204(Suppl C):786-798.

[3]Alahmadi M, Atkinson P, Martin D.Estimating the spatial distribution of the population of Riyadh, Saudi Arabia using remotely sensed built land cover and height data[J].Computers, Environment and Urban Systems,2013,41:167-176.

[4]Sandborn A, Engstrom R N.Determining the relationship between census data and spatial features derived from high-resolution imagery in Accra, Ghana[J].IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2016,9(5):1970-1977.

[5]李素, 庄大方.基于RS和GIS的人口估计方法研究综述[J].地理科学进展,2006,25(1):109-121.

[6]Li L, Lu D.Mapping population density distribution at multiple scales in Zhejiang Province using Landsat Thematic Mapper and census data[J].International Journal of Remote Sensing,2016,37(18):4243-4260.

[7]陈楠, 林宗坚, 王钦敏.人口经济学中的GIS与定量分析方法[M].北京:科学出版社,2007.

[8]Jia P, Qiu Y, Gaughan A E.A fine-scale spatial population distribution on the High-resolution Gridded Population Surface and application in Alachua County, Florida[J].Applied Geography,2014,50:99-107.

[9]柏中强, 王卷乐, 杨飞.人口数据空间化研究综述[J].地理科学进展,2013,32(11):1692-1702.

[10]董南, 杨小唤, 蔡红艳.人口数据空间化研究进展[J].地球信息科学学报,2016,18(10):1295-1304.

[11]Alegana V A, Atkinson P M, Pezzulo C, et al.Fine resolution mapping of population age-structures for health and development applications[J].Journal of the Royal Society Interface,2015,12(105):1-11.

[12]柏中强, 王卷乐, 姜浩, 等.基于多源信息的人口分布格网化方法研究[J].地球信息科学学报,2015,17(6):653-660.

[13]Zhuo L, Ichinose T, Zheng J, et al.Modelling the population density of China at the pixel level based on DMSP/OLS non-radiance-calibrated night-time light images[J].International Journal of Remote Sensing,2009,30(4):1003-1018.

[14]迈克尔·沃德, 克里斯蒂安·格里蒂奇.空间回归模型[M].上海:格致出版社,2016.

[15]姜磊.空间回归模型选择的反思[J].统计与信息论坛,2016,31(10):10-16.

[16]王守坤.空间计量模型中权重矩阵的类型与选择[J].经济数学,2013,30(3):57-63.

[17]付晶莹, 江东, 黄耀欢.中国公里网格人口分布数据集[J].地理学报,2014,69:41-44.

[18]梁友嘉, 徐中民.基于LUCC和夜间灯光辐射数据的张掖市甘州区人口空间分布建模[J].冰川冻土,2012,34(4):999-1006.

(责任编辑:曾 晶)

猜你喜欢
人口影响因素
我国60岁以上人口数量首超15岁以下人口
2016:全面二孩
人口最少的国家
坐井观天石头国
突发事件下应急物资保障能力影响因素研究
农业生产性服务业需求影响因素分析
村级发展互助资金组织的运行效率研究
基于系统论的煤层瓦斯压力测定影响因素分析
印度人口2025年超中国