基于FME的天地图·福州地名兴趣点数据融合关键技术研究

2019-09-05 01:10刘芙蓉

城市勘测 2019年4期

刘芙蓉

(福州市规划设计研究院，福建福州 350100)

1 前言

天地图是由国家、省、市三级节点构成的国家地理信息公共服务平台。为满足跨省(市)域、跨层级(国家、省、市)的地理实体与地名兴趣点查询、专题信息、挂接、综合统计分析等应用需求，国家测绘地理信息局于2013年启动国家、省、市节点同构试点，旨在通过节点间的基础设施与服务平台软件同构与数据融合，实现更深层次的分布式信息资源集成与协同服务，并为未来基于云架构的分布式服务资源动态调度奠定基础[1]。数据融合包括矢量数据融合、影像数据融合两个方面，其中，地名兴趣点数据融合是矢量数据融合中的一项重要内容。

地名兴趣点数据融合主要工作是对比国家、省、市三级节点数据，分析其现势性、位置精度等指标，按照国家测绘地理信息局下发的最新规范和要求进行数据融合，并进行数据判重、分类代码统一、品牌词、简称及重要度等五个方面的完善优化工作[2，3]。天地图·福州作为市级节点，需要跟省级节点天地图·福建地名兴趣点数据进行融合，但其地名兴趣点数据的组织编码方式与省级节点、国家级节点存在巨大差异，要实现国家、省、市三级节点数据融合还存在较大问题，包括如何进行快速代码转换、数据判重、品牌词自动赋值等问题。

FME(Feature Manipulation Engine空间数据操作引擎)是对语义数据转换方法的具体实现。它是加拿大Safe Software公司推出的空间数据转换处理系统FMESuite，支持数百种不同格式数据之间的相互转换[4]，而且能够将丰富的GIS数据处理功能结合在一起[5]，FME在GIS数据跨平台转换方面具有良好的通用性和可操作性，功能强大[6]。FME语义映射文件应用的是一种宏语言，有自成体系的变量和函数，能够同时识别和处理多种文件格式数据、并且处理速度比ArcMap处理速度快。本文将制定出地名兴趣点融合的技术路线，并基于FME软件，针对这些地名兴趣点数据融合技术路线中存在的问题进行相关技术研究，从而极大限度地提高地名兴趣点数据融合效率。

2 地名兴趣点融合技术路线

2.1 问题分析

按照天地图数据融合要求，分析现有天地图·福州现有地名兴趣点数据情况，其问题主要有三个大方面：①编码标准采用《国民经济行业分类与代码》，与天地图地名和兴趣点数据融合标准采用的国家基础地理信息中心制定的《天地图母库POI分类分级与代码表》规定的编码方式差异较大；②与省级节点地名兴趣点数据存在较大的重复点；③缺少品牌词、重要度、简称等字段。

2.2 技术路线

针对以上问题，我们知道，在进行数据融合之前，首先需对现有数据属性字段按照融合技术要求进行改造，使其每个属性项的名称、类型和长度都与省级节点地名兴趣点数据属性完全相同；属性改造完成之后，从省级节点中提取相应范围内的地名兴趣点数据，将其与市级节点地名兴趣点数据进行对比，查找出重复点，结合现势性、位置精度等优劣对比进行重复点剔除，并将市级节点数据与省级节点数据合并在一起；数据合并完成后，最后对必填属性字段中不一致或者空的字段进行处理，包括代码转换、品牌词、重要度和简称的补充。具体的技术路线如图1所示：

图1 地名兴趣点数据融合技术路线

3 地名兴趣点融合关键技术

地名兴趣点数据量大，给地名兴趣点数据融合带来巨大挑战。对于重要度、简称字段，按要求对一定范围内的数据点进行赋值。融合进来的省级节点地名兴趣点数据自身带有部分重要度和简称，因此这部分工作量较小，而且自动化难度大，基本由人工挑选并赋值。而对于重复点查询、代码转换，需要对所有数据进行查询和处理，工作量大，人工处理花费时间和精力较大，不能保证融合工作按照时间节点完成，因此，需要针对这些问题进行技术研究，从而提高融合的效率。

3.1 数据判重

省、市节点不同来源的地名兴趣点数据存在很多重复点，融合关键步骤是需要进行判重处理，选取现势性好，位置精度高的点作为融合结果。考虑到市级节点地名兴趣点数据为近年来数字福州外业采集来的数据，数据精度较高，现势性较好，因此，本次融合以市级节点地名兴趣点数据作为基础数据，省节点地名兴趣点数据当作更新资料数据。分析数据情况，重复点的出现情况主要有几种，包括：①位置名称完全一致的；②名称相同位置有偏差的；③位置和名称都存在差异等三种情况。

对于第一种情况，将不同数据源都通过名称和坐标信息生成一个组合信息字段TEMP，并通过TEMP字段进行表链接即可查出不同数据源之间的重复点，选择其中一个数据即可。

后面两种情况需要利用FME软件构建名称模糊匹配模块进行查重，其主要思想如下：

(1)首先将任一要素与其一定距离范围内的相同类别的点要素进行名称匹配，取匹配度最高的点要素，并将其匹配度值和匹配上点要素的名称写在其属性里面[7]。

(2)分析匹配结果，匹配度由高到低进行重复点剔除。匹配度为100%，则两个点要素名称完成相同；匹配度小于100%，两个点要素之间名称可能存在一个或者多个不同字符。匹配度值越小，两个点要素名称差异越大，互为重复点的可能性越小，权衡位置精度、现势性等多重因素，选择最优的点作为结果。

重复点查询程序如图2所示，在程序运行过程中，针对不同类别的兴趣点，设定不同的重复点查询的距离，避免漏查。

图2地名兴趣点判重程序

3.2 代码转换

经过分析实践，本文得出利用数据名称与代码表中关键字进行匹配的思想，将数据属性表与代码表进行属性链接，从而将关键字对应的代码链接到对应的数据属性项中。为了保证匹配的正确率，本文采用尾词匹配原理进行匹配，即通过FME中的StringSearcher函数和Joiner函数快速地进行代码转。

StringSearcher函数对指定的表达式执行表达式匹配。如果表达式与模式匹配，则通过匹配端口输出该功能，并且与正则表达式匹配的原始搜索字符串的部分存储在“匹配结果属性”中指定的属性中，否则，它将通过NotMatched端口输出；而Joiner函数主要功能是查询数据库，并获得与要素相关联的属性。

具体处理过程如下：

(1)根据《天地图母库POI分类分级与代码表》中分类关键字制作一个尾词关键字库，并保存为.txt格式，如图3所示。

图3关键字库

(2)利用StringSearcher函数，将要素中NAME字段与关键字词库进行尾词匹配，如图4所示，将NAME字符串与关键字库从右到左进行匹配，完全匹配，则利用Joiner函数将该《天地图母库POI分类分级与代码表》中关键字所对应的TYPE码赋给该要素的TYPE属性字段；未匹配的要素则直接输出。最后的匹配流程图如图5所示。

另外，品牌词字段同样具有一个品牌词赋值表，利用代码转换的原理，对词库进行更换，也能快速地对品牌词字段进行赋值。

图4 StringSearcher函数界面

图5 代码转换

4 总结

天地图数据融合是现阶段各省每年工作任务中的一项重要内容，如何快速地进行数据分析、提取、融合是提高天地图数据融合效率面临的重大问题。解决这个问题的关键在于不断地总结归纳，发现问题的共同点，使问题被自动化或者半自动化处理[8]，特别是地名兴趣点数据融合，查重判重、属性补充完善工作量巨大，利用FME等相关软件开发处理工具，很好地提高了融合的效率和正确性。由于分类代码不够完善，在代码转换过程中还会存在部分点要素无法进行自动化正确分类，需要人工进行补充，后期将不断补充完善分类代码表以及相关的文件标准材料，完善程序工具，进一步提高地名兴趣点数据融合效率。