基于移动通讯大数据的城市人口空间分布统计

2019-09-20 12:59潘英武
卫星电视与宽带多媒体 2019年8期
关键词:空间分布大数据分析模型

潘英武

【摘要】分析与计算移动通讯空间大数据,ArcGIS和Hadoop的集成计算平台依据Geometry API被构件起来,其中收集手机客户的位置信息数据主要使用的是COO定位技术。地图信息模型的建立要采用ArcGIS中的Voronoi;人口密度模型的建立之前需要计算圈层人口的密度;职住地分布模型的建立要依据DBSCAN密度聚类算法;建立报警电话分布模型的时候主要应用的是核密度估算。本文主要与实际案例相结合,分析与统计移动通讯大数据的城市人口空间分布情况。

【关键词】移动通讯;城市人口;空间分布;模型;大数据分析

在二十世纪七十年代的时候在国外就已经有学者通过GIS技术研究人口空间分布的应用了,较为典型的代表就是美国。自动化技术在1970年-1980年就已经应用在了美国的人口普查之中,并且研发了与其有关的相关文件,使坐标地图编码系统独立的起来。Lanscan通过各种因素对回归方程系数进行计算,得出在1km×1km的空间网格上统计人口数据。在连续的规则网格中表达人口分布情况就是这种栅格模拟技术的含义。在高分辨率的规则栅格上有效的记录数据和提高人口分布数据的准确性是栅格模拟技术的主要优势。

一、收集手机定位信

在1957年我国正式开始研究人口空间分布统计。有学者应用多源数据融合技术把可以影响到人口分布的因素模拟某地的人口在栅格上。

在现今的研究成果也有需要进行改进的地方。人口密度分布可以间接的用自然和社会经济特征综合估计法进行数据统计,具体的人口分布来源情况不能直接的、完整的被表达出来,统计结果的准确性得不到保证,有关部门多需要的人口数据也不是很精准;大数据处理技术没有完全应用到GIS分析之中,也不能及时更新人口分布的统计技术、方法和手段,所以在进行人口分布统计的时候既要花费大量的时间又需要花费较多的成本。

用户的时空信息可以通过短信发送、通话和上网等进行获取。依据移动通讯理论,需要及时更新小区切换和周期性地点,位置和轨迹数据就是通过随时更新这些位置信息而形成的。分析和采集长时间不规则的手机通话位置数据,应用ArcGIS独有的技术和大数据处理架构相结合,就可以有效的统计城市人口的空间分布情况。

把可以统计城市人口空间分布的模型建立在ArcGIS之中,在建立的过程中需要依据手机中的数据资源,模型的主要类型包括地图信息、人口密度、供职人员所住的地点以及报警设置。在城市人口统计平台构建的过程中需要依据ArcGIS和Hadoop集成环境,可以更好的分析与大数据的空间有关的相关性,也可以表述数据的可视化,同时也需要对人口的数量密度分布和职住地分布进行相关的研究与分析,可以使相关人员更好的管理城市人口和公共安全。

不用依靠GPS并前景較好的技术就是手机定位技术,初始蜂窝小区、TOA和七号信令定位技术都是手机定位技术所包含的内容。以下所采集的数据信息主要应用的就是初始蜂窝小区定位技术。

单基站定位技术是初始蜂窝小区定位技术的表现特征,这种技术的移动坐标设备主要是移动设备所属基站,基站覆盖的范围决定了此定位方法是否精确。在城市中较为集中的基站地点,可以有效的控制定位的准确度。越是城市周边,基站分布的也就不是那么密集,所以就会扩大定位的准确度。

手机接打电话时的连接的基站位置信息,都会被记录在初始蜂窝小区定位技术通话位置数据信息之中,其中用户的识别号、通话的长短和基站经纬度等数据都是数据信息中所记录的相关内容。为了使用户的隐私可以得到有效保护,需要把与手机有关的号码信息删除,对ID帐号进行加密。表一表示的是移动用户位置数据的格式:

二、统计城市人口空间分布模型

在统计城市人口空间分布时需要依靠手机在通话过程中所产生位置信息来完成,在网格上标记城市地图,采用有关模型和算法,设立与其有关的模型,如地图信息模型等。

(一)地图信息模型

点图层主要是采用ArcGIS软件把手机通话时的基站地理坐标进行转化得来的。手机基站的覆盖范围主要就是通过构件泰森多边形图所表示的,构件泰森多边形时要参照所有的基站点数据,组成泰森多边形的因素是连接一组两相邻的基站点连线的垂直平分线。

进行地图匹配和和几何校正某市的地图矢量数据。主要内容是:某市行政区规划图;某市相关道路地图;某市小区交通数据信息;某市小区人群生活分布情况等相关信息。转换GIS矢量数据图层,保证一样的地图矢量数据和手机定位坐标数据。

可以使用较多的泰森多边形表达城市的区域划分,参照图一,在把所有的网格进行合并。可以按照有关统计人口需求进行网格划分。

(二)人口密度模型

依照用户的ID对手机通话时的位置数据进行分组,依照用户的ID和使用时间排列样本中的所有用户数据信息。把每一位用户的ID连续一小时之间的通话记录进行整合,把整合后的数据记录在基站位置之中。

对人口密度与城市中心距离之间的关系进行分析的时候要依据圈层结构理论,同时也需要计算圈层人口密度,这样就可以有效掌握城市人口的空间分布情况。

(三)职住地居住模型

依据居家和不同工作时间段内不同的用户通话特征,通过聚类分析识别出居住地和工作地就是职住地分析的关键所在。由经纬度组成的二维向量就是空间聚类分析,每个小点组合在一起组成的多维空间。把这些点分成不同的簇并把较大的点或者是较为相似的点归为一簇就是聚类分析的结果,这样就形成了集聚的职住地通话用户的范围。

基于密度的聚类算法的表达方式是DBBSCAN。在样本空间中稠密样本点可以组成所以的目标簇,噪声的低密度区域分割又可以称作稠密样本点,把低密度地点进行过滤,就可以看见稠密样本点。比较于其它算法,不被聚类数目所影响是DBBSCAN的优势,如果在聚类计算中出现较多的工作地和居住地的时候就可以使用DBBSCAN算法进行计算。

(四)报警电话分布模型

在对报警电话在空间分布的总体情况进行分析的时候主要应用的是核密度分析法,也就是说在几何分布上报警电话点集数据所具备哪些特征。所有报警电话的基站位置上都设定与其对应的核密度函数就是核密度估算,报警电话的空间分布变化情况就是通过此地区所有报警电话的密度函数来表示的。

需要对所有报警电话的空间分布情况急性细化与分析,把分析之后的安全事故结果进行数据统计,制成表格,把这些表格以独有的形式表达在模型上。

三、统计城市人口平台

如要实现ArsGIS和Hadoop的交互就需要依靠Geometry,在Hadoop接收到Geometry API传送的数据时,Hadoop就可以对所有的数据进行分析。

为了可以使大量的数量处理得到一定的满足,就需要设置与其相应的框架,图二所表達的就是框架的位置和内容:简要说明数据源和计算层。数据源:最原始的所有异构通讯数据就是数据源,语言、用户信息以及基站参数是数据源所包含的相关内容,需要随时转化和清洗数据信息,要做到保护好用户的隐私。计算层:对高速数据交换组件和同步数据组件进行相应的研究与开发,通过处理ETL,精准配比所需要的模型,并对其进行计算。模型层:依靠Geometry完成ArsGIS和Hadoop二者之间的交互,并分析转化完成的各种数据信息。应用层:在对其进行分析主要采用的ArsGIS中的相关工具,并且城市人口的数量情况等信息是通过可视化的方式变现出来的。

四、分析结果

本文为实验所选取的移动通话数据主要来自某市2017年3月到2017年5月之间的信息,据有关数据可知,全国有8.35亿的人口都在使用移动通讯,占市场份额比例要远高于其它通讯用户,所以在推算人口数量的时候可以应用此比例来完成。

(一)分析人口密度

在分析人口分布情况时可以使用异常分析工具或者是ArcGIS中的聚类。通过分析移动通话数据可以知道某市的人口密度,图三所表达的是该市的人口密度空间分布图:如图三中的数据可知,集聚是该市人口分布的主要特点。图四所表达的是该市的人口密度圈层分布图。如图四中的数据可知,核心-边缘是该市的人口密度圈层分布图多表现出的空间特点。

(二)分析职住地居住情况

为了确保信息的准确度,数据统计时间以三个月为一个期限,零点到第二天的六点是居住地用户所出现的时间,九点到十七点是居住地用户的工作时间。

图五所表示的是该市职住地居住的分布情况。据图可知,中心居住圈、次中心居住圈以及郊区居住圈是该市的三大主要居住圈。

图六所示的是该市的人口工作分布地情况。人员的工作地点主要分布在该市的各大商圈之中。

(三)分析报警电话的分布情况

把核密度函数设定在报警电话所在的基站空间之上,报警电话的空间规律情况可以通过报警电话的核密度函数体现出来。犯罪案发地的情况可以依据此方法进行识别。

采集某一阶段的数据为样本,分析这一阶段的报警数目,图七是对其进行分析后所得的结果:由图可知,报警次数较多的地点集中在该市的萧山区,该市的拱野区紧追其后。其优势不仅可以利于警方合理的使用资源,升民众的警惕性也可以由此提升。

五、结论

通过分析对比该市2011年-2016年的人口数据情况可知,该市的人口密度情等都符合普查数据分析结果。报警电话分布情况也符合该市相关部门发出的治安消息。由此可知如要统计城市的人口分布情况就可以使用以上模型来完成,在规划城市、疏导城市交通以及公共安全等领域时都可以应用以上模型,并且其发展前景也是非常好的。

参考文献:

[1] 王雪梅,李新,马国明.基于遥感和GIS的人口数据空间化研究进展及案例分析[J].遥感技术与应用,2004,19(5):320-327.

[2] 陈学刚,杨兆萍.基于GIS的乌鲁木齐市人口空间分布模拟与变化规律研究[J].干旱区资源与环境,2008,22(4):12-16.

[3] 王峰,唐美华.基于移动通讯大数据的城市人口管理解决方案[J].移动通讯,2014,23(13):38-41.

[4] 许宁.基于手机定位数据的居民职住地分布特征研究[D].长沙:中南大学,2014.

[5] 高硕,王铭杨,鲁旭,等.基于大数据的城市居民职住瞄点计算方法研究[J].西部人民环境学刊,2017,32(1):31-37.

[6] 周天绮,严奥霞.基于移动通讯大数据的流动人口统计中Hadoop的应用研究[J].软件导刊,2015,14(3):36-38.

[7] 周天绮.基于移动通讯大数据的流动人口统计中的Hive优化[J].软件工程师,2015,18(7):58-60.

猜你喜欢
空间分布大数据分析模型
自制空间站模型
模型小览(二)
圆周运动与解题模型
面向大数据远程开放实验平台构建研究
白龟山湿地重金属元素分布特征及其来源分析
面向大数据分析的信息管理实践教学体系构建
传媒变局中的人口电视栏目困境与创新
江苏省臭氧污染变化特征
离散型随机变量分布列的两法则和三模型