基于多源异构POI融合方法的省级地名地址数据库建设及应用

2019-09-18 03:58张景峰
中国科技纵横 2019年14期
关键词:数据融合

张景峰

摘 要:随着数字城市建设逐步完成,形成了多源海量的POI数据资源,针对不同来源的POI在数据格式、坐标参考、属性结构等方面的差异,综合运用ArcGIS、Geoway、4dConvert软件,通过数据收集分析、数据准备、数据预处理、数据核查、属性赋值、数据入库及元数据制作等生产环节,利用ModelBuilder开发出了与生产相匹配的工具箱,多源异构POI的融合方法,建设统一的、权威的、内容规整、信息量丰富的省级地名地址数据库,最后通过保密技术处理,发布使用,并持续更新。该数据库建设完成后,为“天地图”省级节点提供地名地址在线服务数据集,为数字城市政务版、公众版服务平台提供地名地址数据基础。

关键词:POI;多源异构;省级地名地址数据库;数据融合

中图分类号:P208 文献标识码:A 文章编号:1671-2064(2019)14-0009-02

为满足国家信息化建设中政府部门和社会公众对地理信息在线服务的迫切需求,国家测绘地理信息局提出了构建数字中国地理空间框架建设的战略性决策。数字省区、数字城市、数字县区是数字中国的有机组成部分;地名地址数据是对地名、地址信息的结构化描述与空间化标识,其以坐标点位的方式描述某一特定空间位置上自然或人文地理实体的专有名称和属性,是社会经济信息与地理空间信息通过地理编码或地址匹配进行挂接的媒介与桥梁。地名地址数据是数字省区、数字城市地理空间框架建设、数字县区地理空间框架建设、“天地图”省市级节点建设等项目的基础数据,是地理信息公共服务平台数据的重要组成部分。本文结合笔者多年从事省级地名地址数据库建设及更新的实践,探索出一套基于ArcGIS的省级地名地址数据库建设方法,为省级海量地名地址数据库的建设及动态维护更新提供了一种新的思路。

1 研究框架

本文研究的核心内容为:资料收集完整后,运用ArcGIS作业平台对数据进行分析,制定作业方案,实现多源数据的统一分类、统一属性结构,并完成质量检查等,再将数据入库,形成省地名地址数据库成果。数据生产流程按其先后顺序,可分为数据分析、坐标转换、数据提取、数据组织重构、生僻字处理、数据核查、属性项完善、入库前检查、数据入库及元数据制作10个部分。具体生产流程如图1所示。

2 研究内容

2.1 数据准备

对获取的大量的POI数据进行预处理,处理的过程是首先进行坐标转换,再利用ArcGIS ModelBuilder对数据进行清洗,以保证用于融合的数据的质量。主要包括以下内容。

(1)对源数据进行分析,通过自主开发的4dConvert进行坐标转换,统一坐标系;

(2)数据格式的统一,非汉字字符统一使用英文字符,并对特殊字符进行删除处理,处理属字段中出现的分融符;

(3)政区实体处理,政区实体处理是地名点属性赋值和数据划分作业单元的基础,在铺开作业前必须完成;

(4)数据提取,从多源导构数据中提取地名地址数据,数据提取要求:1)行政区域名提取注记数据,包括注记点位置、名称、分类代码和政区编码;2)街巷名提取注记数据,包括注记点位置、名称和分类代码;3)小区名提取注记数据,包括注记点位置、名称和分类代码;4)标志物名和兴趣点名提取注记数据,包括注记点位置、名称和分类代码;5)门(楼)址名提取注记数据,包括注记点位置、名称和分类代码。

2.2 数据预处理

(1)空值检查,由于数据源的原因,许多地名点并没有NAME属性,而NAME属性又为地名地址数据库属性的的必填字段,在对数据进行转换和分层处理前,需要对NAME属性为空的点进行删除或对确有必要保留的地名点补充NAME属性;

(2)数据分类的初步处理,数据在采集过程中有可能因为分类标准不同而归类到不同的地名类别中,所以为了对数据进行正确的分类,需要对各个数据源的数据分别进行分类的初步处理,通过对照数据源的分类代码表及数据中实际所包含的地名点名称进行对照;

(3)代码转换和分层,将不同数据的地物类代码转换成标准的地名地址代码

2.3 数据核查

以地级市为作业单元,参考省地图院出版的相关图件资料对地名进行全面的检查,并将归类错误的地名点修正到正确的类别中。在进行POI融合过程中,首先通过Python脚本对要进行同名点判别。根据相关文献资料,采用文本名称相似度、距离相似度、门址相似度3个指标进行判别,在判别过程中,根据不断优化和试验,分别赋予0.5、0.3、0.2的权重可取得最好的判别效果。对于两个POI对象,如果总体相似度大于0.8,则判定为疑似同名点,并作标记,采用人工交互处理方式最终判定,并在数据库中进行标识,其次,通过人工核对的方式,进行判断。具体流程图2所示。

2.4 属性项完善

所有地名点全部核查并修改完成后,就要对未赋值的字段按作业单元通过自主开发的《省地名地址生产工具箱》进行赋值,如图3所示。

2.5 涉密地名及兴趣点删除

按照《公开地图内容表示若干规定》及其补充规定的要求,对数据库的涉密地名及兴趣点数据运用批处理工具进行删除,生成政务版和公众版地名地址数据库。

2.6 建立地名地址数据库管理系统

地名地址数据库管理系统旨在提供地名地址数据及相应地理实体数据的组织、建库、维护、更新、安全管理、数据发布和元数据发布等服务。因此地名地址数据库管理系统主要实现地名地址数据及相应地理实体数据的组织、入库、维护 、更新、查询检索、浏览、定位、距离量算以及对入库数据的数据格式转换等功能。

2.7 基于ArcGIS Server及ModelBuilder的模块化自动更新维护

(1)首先制作ModelBuilder数据处理流程模板,主要将POI处理流程的各阶段数据处理过程制作可执行的脚本。

(2)对外源性数据,通过脚本进行自动化处理并更新入库。

3 结语

本文提出了一种基于多源异构POI融合方法的省级地名地址数据库建设及应用方法。该方法通过对多源异构POI空间位置、属性信息进行自动化和人工交互比对,确定POI数据间融合的机率和置信度,最终形成全省统一的、权威的、内容规整、信息量丰富的地名地址数据库,满足数字省区、天地图建设和日益增加的LBS的需要。总体来说,该方法是一种比较实用、高效的方法,为多源POI资源的整合成为省级地名地址数据库,作为基础测绘数据的一部分,数据库建设完成后通过全省统一发布和定期更新,为POI数据的有效利用、降低POI数据的重复生产提供了一种新的思路,本文成果应用在天地图省级节点在线服务地名地址数据集、数字县区、一村一镇一地图等项目中,有效降低了建设成本,取得了显著的经济效率和社会效益。

参考文献

[1] 邵蕾.网络POI数据增量更新技术研究[D].兰州:兰州交通大学,2016.

[2] 高新院.基于空间位置信息的多源POI数据融合问题的研究[D].青岛:中国海洋大学,2013.

[3] 张巍,高新院,李瑞姗.空间位置信息的多源POI数据融合[J].中国海洋大学学报(自然科学版),2014,44(7):111-116.

[4] 陳瑞.基于多源POI数据的匹配融合方法研究[D].兰州:兰州交通大学,2014.

[5] 李瑞姗.基于自然语言处理的多源POI数据融合的研究[D].青岛:中国海洋大学,2013.

[6] 王婷婷.基于位置与属性的多源POI数据融合的研究[D].青岛:中国海洋大学,2014.

[7] 曾李阳,齐华,谭明建,等.基于天地图的POI数据采集系统设计与实现[J].测绘与空间地理信息,2016,39(3):55-58.

[8] 吴张峰,夏兰芳.多源异构POI融合方法及应用[J].测绘通报,2018(3):143-146.

猜你喜欢
数据融合
多传感器数据融合技术在机房监控系统中的应用
《可靠性工程》课程教学的几点思考