面向土地信息统筹管理大数据梳理与融合研究

2021-08-26 02:50莫伟生
中国新技术新产品 2021年10期
关键词:实体土地空间

莫伟生

(深圳市爱华勘测工程有限公司,广东 深圳 518111)

0 引言

为实现土地信息统筹智能化自动化管理,常面对规划、现状、地下管线和土地权属等多源异构土地信息数据的融合利用难题,借助大数据的理论和方法,就海量的多源异构的土地信息数据进行梳理与融合技术的研究,实现了多源异构数据的融合利用。该文从大数据自动关联、大数据的清洗、抽取与变换以及大数据的归一化与聚合3项关键技术介绍面向土地信息统筹管理大数据的梳理与融合技术。

1 基于同位、关系、语义、尺度和时序的大数据自动关联技术

针对多源异构的土地信息统筹管理大数据,研究面向聚合主题和目标的关联数据接入方法,进行信息抽取,提出面向位置、语义、关系、时间和尺度5个维度的土地信息统筹管理大数据聚合模型[1]。根据聚合分析主题目标,考虑土地信息统筹管理数据多种类型、不同结构特征,对结构化地理大数据进行抽取、转化、清洗等一系列数据挖掘的前期处理,对于半结构化和无结构地理大数据采用信息抽取,从异构数据源中自动抽取信息得到候选知识单元。根据土地信息中多源地理大数据不同的结构特征,分别进行不同的处理,如下所述。

1.1 结构化数据

结合土地信息统筹管理大数据聚合目标,对结构化数据按照抽取-转换-清洗3个步骤进行特征提取。

1.1.1 抽取

从地理大数据中提取所需要的数据,常采用空间数据和属性数据抽取2种方式。空间数据抽取主要包括相交、擦除和空间连接等,相交是计算输入要素的几何交集,将所有图层和要素类中相叠置的要素或要素其中的一部分写入输出要素类;擦除是将擦除要素的多边形与输入要素叠加来创建要素类,只将处于擦除要素边界之外的输入要素复制到输出要素类;空间连接是基于2个要素类中要素之间的空间关系,将属性从一个要素类传递到另一个要素类[2-3]。属性数据抽取通过使用 SQL查询语句实现。

1.1.2 转换

根据地理大数据聚合分析实际应用需求,对数据格式进行转换。数据格式的转换包括不同数据结构间的转换以及同一数据结构在不同组织形式间的转换。其中不同数据结构间的转换通常使用数据格式转换方式,即采用目前国际上通用的空间数据格式转换标准,遵循完整性、完备性以及可操作性的原则,实现各类数据格式的相互转换,使数据格式统一。

1.1.3 清洗

地理大数据关联接入过程中,通常需要对数据进行清加工,包括检查数据一致性,处理无效值和缺失值等。其中数据插值为常用的数据清洗工具,主要包括 Kringe插值法,IDW插值法以及趋势面法。

1.1.4 特征提取

进行前期处理后,统一对结构化数据采用坐标提取(Add XY)、地址匹配的方法获得数据中的位置信息;采用 SQL查询语句提取数据中的时间信息、语义信息和尺度信息;采用空间关系分析方法获得数据中的空间关系。

1.2 非结构化数据与半结构化数据

信息抽取是一种自动地从非结构数据和半结构数据中抽取实体、关系及属性等形成结构化信息的技术。实体、关系和属性抽取是从异构数据源中自动抽取位置、语义、关系、时间、尺度5个维度特征的信息,从而得到候选知识单元。

1.2.1 实体抽取

实体抽取是从文本数据集中自动识别出命名实体,如位置、尺度等信息,应用监督学习与规则(先验知识)相结合的方法采用字典辅助下的最大熵算法,实现基本的文本提取;采用无监督学习算法使面向开放域的目标数据集能够基于实体的语义特征从搜索日志中识别出命名实体,然后采用聚类算法对识别出的实体对象进行聚类,即获得相似语义环境下的实体对象;采用统计机器学习的方法在面向开放域的目标数据集中抽取与其具有相似上下文特征的实体,从而实现所提取实体的分类和聚类。

1.2.2 关系抽取

即提取实体间的相关关系。采用基于条件的关系抽取,对于没有预先定义好的实体关系模型或者关系数量过多的情况则采用开放域关系抽取方法。而对于目标数据集中拥有关系数量且有预先定义好的实体关系分类模型可采用传统的机器学习算法进行关系抽取。应用基于自监督(self-supervised)学习方式的开放信息抽取原型系统(TextRunner),对于面向开放域的信息抽取方法框架(Open Information Extraction,OIE),采用少量人工标记数据作为训练,得到实体关系分类模型,再根据该模型对开放数据进行分类,根据分类结果训练朴素贝叶斯模型来识别“实体-关系-实体”三元组,并应用上下文分析技术完成支持非动词性关系的抽取。

1.2.3 属性抽取

属性抽取是从不同信息源中采集特定实体的属性信息,如时间等,通常是对实体属性的补充完善,通常采用支持向量机的方法,如文本创建的时间属性。

2 土地信息统筹管理大数据的清洗、抽取与变换技术

2.1 多类型、多尺度大数据抽取与关联技术

针对土地信息统筹管理大数据所具有的空间特征、时间特征和主题特征等多特征,研究面向时空及主题的土地信息统筹管理大数据多元特征提取技术,通过分析地理概念及其属性,研究土地信息统筹管理主题特征词获取、特征词库建立以及基于主题特征词的主题域的划分方法。研究从地理大数据中提取位置地名、地理概念以及地理年代等时空特征的方法。在地理大数据提取时空及主题特征的基础上,研究地理大数据空间信息、时间信息及主题信息融合关联方法,建立以主题为信息单元的地理大数据信息标签及其组织方法。最终形成土地信息统筹管理大数据时空主题特征抽取软件模块,以接口的形式对外提供调用和服务。

在大数据时空统一框架的基础上,研究面向土地信息统筹管理主题的大数据主题-时空关联模型,针对社交媒体大数据主要为文本内容的特点,将词向量技术与机器学习网络技术结合,进行命名实体识别、实体间的关系抽取、实体的属性识别与抽取以及文本聚类,从聚类中产生主题,再从主题的关联性出发,实现面向土地信息统筹管理主题的时空数据关联。

在统一时空框架的基础上,对从文本中获取的属性、关系以及主题进行序化和空间化,从地理观测大数据中可直接抽取空间实体的相关空间位置、属性和拓扑关系等信息,对2类来源的空间实体在统一时空框架中进行基准统一、数据格式统一、“三域”标识统一等。

将土地信息统筹管理主题特征数据作为深度神经网络的输入,利用 Encoder-Decoder 的网络结构对特征数据进行降维,使用同一种网络,在最小信息损失的前提下,可以确保数据降到同一维度的同一个映射空间,由此实现对特征数据的归一化处理。在上述统一的基础上进行特征提取,构建多特征关联度量矩阵,对地理实体的各个特征进行相似性度量,对主题一致、时序关联、空间一致、语义相同的数据进行抽取,建立时空到主题、主题到时空的一体化关联,实现土地信息统筹管理大数据多元特征主题关联,为协同表达提供技术支撑。

通过借助专家经验以及相关的先验知识,建立学习规则,解算地理实体的各个特征参数和影响关系,构建多元特征的地理实体间距离度量指标,根据该指标得到关联系数,进行排序确定最优结果集,并根据用户反馈调节特征参数,修正关联模型,以获得更接近用户所需要的结果集。

2.2 多类型、多尺度时空数据清洗技术

在统一的数据清理框架下,系统研究土地利用/覆盖变化数据、自然环境数据和基础地理大数据等多类型、多尺度时空数据清理的技术方法,包括不一致数据的自动检测与消除技术、噪声数据的检测与平滑技术及缺失数据的自动填补等。

2.2.1 不一致数据的自动检测与消除技术

该研究分别对关系数据、时态数据和空间数据等不一致检测和消除进行了研究,提出了相应的解决方法。

对关系数据以进行关系数据库的第一、第二、第三以及 BC范式检测为主,并根据应用领域专业知识建立了相应的领域知识和规则库,在领域知识库的指导下对不一致数据进行检测和消除。

对时态数据不一致性检测与消除主要依赖专业领域知识的指导完成,如对1个确定的区域在不同时间点,无论其经过多少次的图斑(宗地/地块)的分割和合并变换,但其图斑(宗地/地块)总面积是保持不变的。

对空间数据的不一致检测与消除主要对其进行逻辑一致性和拓扑一致性检查处理。空间数据逻辑不一致主要是指发生在不同图幅以及不同图层数据之间相同实体数据属性数据不一致的情况。不同图幅间逻辑的不一致需要在图幅接边时完成属性检查;不同图层间数据的一致性检查,采用数据对比分析和发现不同图层数据叠加的方法来完成。

2.2.2 噪声数据的平滑技术

该文重点研究了基于回归分析和聚类分析方法的噪声数据平滑技术,如在城市基本地形图高程数据中,对抽样样点数据库采用回归分析方法,发现异常数据,并在系统环境中实现。

2.2.3 缺失数据的自动填补技术

在回归分析、贝叶斯网络、决策树以及空间插值分析算法(Kriging 算法、 趋势面分析算法和样条函数等)的支持下,结合数据源领域知识和规则,研究了缺失数据的自动填补技术,并对土地利用、区域社会经济发展统计数据等数据进行了实践研究。

3 土地信息统筹管理大数据的归一化与聚合技术

3.1 大数据归一化方法

根据土地信息领域数据特点,将其划分为正向数据、反向数据和适度数据,并分别定义了其数据标准化方法。

正向数据标准化定义如公式(1)所示。式中:Xi为标准化指数;Si为量测值;Dimin为要求的低限即最差值;Diopt为要求最优测度(经常取最大值);Ri为i的风险性测定,常用保证率来测度。

该类数据为正向测度数据,如GDP总量对区域发展来说其取值越大越好,即为正向测度。

反向数据标准化定义如公式(2)所示。

公式(2)中的数据为反向数据,即其取值越小越好,例如对机场选址来说,地形坡度值即为负向测度。

适度数据标准化定义如公式(3)所示。

在公式(3)中,该类数据为适度数据,即其取值在某一特定区间范围内是最优的。如对水稻田的适宜性评价中的pH值指标,它要求在6.5~7.5是最适宜于水稻种植的,即可用公式(3)进行标准化处理。

3.2 基于云模型的数据离散化技术

当数据库中属性字段为数字类型时,如果从原始的概念层次发掘,那么最小可性度阀值越小,就会产生越多不感兴趣的规则,而最小支持率和最小可性度阀值较大则不会产生强关联规则。基于以上情形,需要通过属性泛化将属性提升到较高的概念层次,然后在泛化的数据上再进行数据挖掘。属性泛化问题在属性为数字类型时常被称为连续数据离散化。将属性空间划分为不重叠的区间或区域,且将连续数据映射到这些区间或区域,该方法为连续数据离散化常用的方法。这种不允许相邻的区间有重叠的方法称之为硬划分利益法。工作人员可以使用云模型来模拟人类灵活地划分属性空间的机制,而硬化分方法不能模拟人类的划分机制。当每个属性看作语言变量时,对于每一个语言变量,定义几个语言值,相邻的语言值间允许有重叠。可以由用户交互地给定表达语义言值的云,也可以通过云变换的方法自动获得。基于云模型的泛化方法是一种属性软划分方法。

3.3 基于地理大数据场的多类型、多尺度数据融合技术

对数域空间引入场的思想,即视每个数据对象为n维空间中具有一定质量的粒子,数据对象周围形象地存在一个虚拟作用场,位于场内的任何其他对象都将受到场力的作用,因此联合作用的所有对象在空间上就确定了一个数据场。

3.3.1 数据场度量

采用物理场的度量方法,研究了数据场的场强和场势。并将数据对象通过辐射数据能量在数域空间形成一个虚拟的空间场,该场空间中单一数据对象对场空间辐射数据能量的大小用场强来度量。常用场强函数为指数函数模型,如公式(4)所示。

式中:f(x,y)为二维指数函数,x和y为变量,e是数学常数,自然对数的底数,近似等于 2.718281828,还称为欧拉数。

3.3.2 场势与势函数

定义数据场场势为数域空间中某一具体空间点受空间中所有数据对象辐射数据能量之和,即数据场的势是根据场强函数计算得到的数域空间中全部单个数据场强之和。根据标量场和矢量场的不同,其场势函数可分别用以下2个公式表示,如公式(5)所示。

式中:p(x,y)为场势函数;d(x,yi)为第i个数据对象与空间目标x之间的距离;σ为第i个数据对象的辐射因子;n为数据对象的个数。

3.3.3 场域划分方法

数据对象对数域场空间的最大影响半径内的区域为数据对象的场域。根据数据对象的不同特性,场域的划分方法各不相同,对于多场源竞争空间场域类型,一般可用Voronoi图方法进行处理。

4 结语

综上所述,该文基于同位、关系、语义、尺度与时序的大数据自动关联关键技术,着重从土地信息的结构化数据、半结构化数据及非结构化数据展开研究;土地信息统筹管理大数据的清洗、抽取与变换关键技术,主要针对多类型、多尺度的土地信息时空大数据进行研究;土地信息统筹管理大数据的归一化与聚合关键技术,主要从研究大数据归一化的方法、基于云模型的数据离散化技术以及基于地理大数据场的多类型、多尺度数据融合技术寻求突破口。以上3项关键技术的研究突破,为实现面向土地信息多源异构大数据融合利用起到重要作用,为土地信息统筹管理实现智能化自动化提供技术支撑。

猜你喜欢
实体土地空间
我爱这土地
空间是什么?
创享空间
前海自贸区:金融服务实体
对这土地爱得深沉
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
分土地
QQ空间那点事