基于 Apriori算法的点线关联模式在地震空间数据挖掘中的应用

2015-08-10 02:52云南国土资源职业学院云南昆明652501
有色金属设计 2015年3期
关键词:空间数据置信度关联

周 园(云南国土资源职业学院 云南 昆明 652501)



基于Apriori算法的点线关联模式在地震空间数据挖掘中的应用

周 园
(云南国土资源职业学院云南昆明652501)

摘要:该文根据对地震空间数据中的两种数据类型,点要素类型、线要素类型进行分析,基于Apirori算法,提出一种分析地震空间数据的线-点关联规则的数据挖掘算法,对算法进行了描述,并以中国云南省地区发生的地震空间数据作为主要数据来源进行了算法的实验,由于Apriori算法是一种基于概率的挖掘算法,通过算法可以得出云南省地区地震空间数据库线-点数据所蕴含的概率关系,并为进一步进行空间概率分析及推理有一定的意义。

关键词:空间数据挖掘;Apriori;地理信息系统;地震空间数据

0 引 言

地震机制及相关原理表明,地震的发生与地质活动断裂带表现出很大的空间相关性,即地震的发生地点主要集中在地质活动断裂带相邻或相关区域。在空间数据中,把地质活动断裂带抽象为线对象,地震的发生地,即震源抽象为点对象。在数据挖掘方法中,关联规则的挖掘是其中重要的一种类型,关联规则的挖掘中一种重要算法是Apriori算法。在空间数据挖掘中则通过对Apriori算法应用在空间数据上,提出了空间同位模式co -location的空间关联规则的挖掘算法[1][2][3][4],然而co-location空间同位算法主要针对的是空间点-点要素之间的关联规则的挖掘算法,而对线-点关联规则的挖掘则并无提及。

1 地震空间数据

地震空间数据具复杂性、多源性、多维度等特点,空间数据挖掘中,笔者把地震空间数据库进行抽象后,把空间数据划分为点、线、面要素数据。根据对地震空间关联规则挖掘中的关注点,把地震数据主要构成划分为点要素数据及线要素数据。

1.1地震点要素数据

地震记录中最常见的记录是地震编目数据,编目数据是记录地震震源及其能量的最基础的地震记录数据,地震编目数据格式如表1所示,主要记录了地震的位置、日期、震级、深度等信息。

表1 地震编目数据Tab.1 Earthquake catalog data

空间数据库中,地震编目主要记录的是震源信息,即地震发生位置,在一定的比例尺条件下,这些编目数据被抽象为空间中的点要素,每条地震编目数据被抽象成为空间数据库中一个点要素对象。

1.2地震中的线要素数据

地质断裂带是地壳运动产生压力和张力产生的地壳破裂区域、是地壳运动及地震活动的原理,断裂带数据主要包括断裂带名称、活动性质、走向、倾角、走坡速率、侧滑速率、形成时期、产状、地球物理特性等,如表2所示:断裂带空间数据在空间抽象后表现为地理空间中的线要素数据,在空间数据库中,不同的线要素表现为不同的线要素对象。

表2 地质断裂带数据线要素格式Tab.2 Line feature in geological fault zone

地震空间数据构成复杂,从空间数据挖掘的角度,我们仅仅关注其中的点-线两种类型的地震空间要素,并且使用空间关联规则挖掘的方法,分析其中点线要素之间的关联模式。

2 点线关联模式

在空间数据中线要素为连续数据,而点模式为离散数据,应用Apriori算法分析是一种基于事务概念的分析方式,首先要定义在点 -线构成的连续空间数据库中抽象出事务的概念。假设在地震空间数据库中的每一个地理要素用Ti表示,其中T表示是地震空间数据库中的一种空间数据类型,i表示不同空间数据类型中的每个数据项的ID。我们把地震空间数据类型分为两大类:L表示抽象空间数据的线类型,P表示抽象空间数据点类型。定义F是一个以L为中心的缓冲区R(L,θ),表示以L为中心,θ为半径范围的一个缓冲区域。点要素,则表明在空间点-线数据类型之间具有空间关联规则L⇒PYCS%|CC%Y,其中CS%表示关联规则的支持度,CC%表示关联规则的置信度。

在Apirori算法中关联规则的定义都是基于事物(transaction)进行定义的,在空间点线关系中,空间线L缓冲区RYLIθY则表示的是连续变量。首先要从连续空间中提取出事物(transaction)的概念。为此,定义L(A)表示线类型L中的某个特定的一种线类型A,LYAYi则表示空间数据线类型A中的某个具体对象i,如L(A)表示断裂带线数据,则LYAYi为第i条断裂带。根据设定的阈值θ,可以得出LYAYi的相应的缓冲区,同时根据不同的的点要素P可以定义处具体的点要素对象PYAY,P(B),等,其中A、B表示不同的点要素类型、P(A)i则表示点要素A类型的具体点对象i,若P(A)iεR(L(A)i,θ),则可以定义为transaction (L(A)i,P(A)i),在点类型A中具有一系列的子类型,用小写字母表示a,b,c……。其中a∪b∪c∪……=A,并且a∩b∩c=φ,即a、b、c……表示的是其中一个集合A的一个划分。

定义关联规则LYAiY⇒P(a)(CS%CC%),其中表示为关联规则的支持度,CC%表示关联规则的置信度。

图1 点线模式关系图Fig.1 Point-line pattern relationship

如图1所示,图中空心框表示点要素类型B,实心框表示点要素类型A。其中实心框表示的要素中中●∪▲∪★=P(A)=(A)i,P(a)、P(b)、P(c)分别是P(A)的一个划分,L(Ai)表示特定的线要素类型L(A)中的一个对象,根据此对象及设定的阈值θ,有一条带状的缓冲区域R(L (A)i,θ),所有落入带状缓冲区域的点要素则认为和L(Ai)具有transaction关系。如图1所示有transaction(L(Ai),P(a1))表示为一个事物,则,P(A)i)=10,表示落入缓冲带中的所有A类型点要素对象的数量为表示所有的A∪B类型点要,P(ai))=4,即表示所有落入缓冲带中a划分的数量为4。针对上图空间点线关联规则如关系见表3。素对象总数为42,

表3 点线关系支持度与置信度支持表Tab.3 Support degree and confidence degree of point-line relationship

根据上述关联规则的定义可以得出所有的关联规则,在这些关联规则中并非所有的支持度及置信度都有一定意义,根据apriori算法,通过定义相关支持度及置信度的阈值可以从相应关联规则中挖掘处相应的强关联规则,在实际应用具有相应意义,我们分别把支持度及置信度的关联规则阈值定义为θs及θc,通过选取不同的阈值来确定关联规则的关联强度。在整个关联规则的分析过程中,可以看出对于线点空间要素之间关联规则的确定,关键在于几个值即缓冲区设定的范围阈值θ,和关联规则的支持度阈值θs和置信度阈值θc的选取,通过对这三个值的确定,可以从线点空间模式中提取处相应的空间关联规则。下面,我们将分析点线模式关联规则的挖掘算法进行进一步的描述。

3 算法的描述

挖掘算法的输入为一个线性类型及相应的点类型集合,输出为其中的空间关联规则的支持度CS%及CC%,在算法中还需要对相应的线性类型的阈值θ进行指定。通过阈值的确定可以确定出特定线类型的相应缓冲区,根据缓冲区域和点类型的交集计算出相应的CS%及CC%。

输入:a)线类型数据L(A)表示表示断裂带相关的线要素数据集合;

b)点类型数据P(A),P(B)等相关点要素数据集合表示震源点集合;

c)关注类型点要素P(A)的划分子集合P(a)、P(b)、P(c);

d)阈值数据θ,θs,θc,空间缓冲区域阈值,支持度CS%及置信度CC%的阈值。

输出:点线关联规则L(Ai)⇒P(i)YCS%|CC%Y及其对应的支持度CS%及置信度CC%集合。

变量:L(A)k表示线类型A中具有k个线要素对象的集合;

P(B)m表示点类型B中具有m个要素点对象的集合;

P(A)n表示点类型A中具n个要素点对象的集合;

P(a),P(b),P(c)表示P(A)k的三个划分子集合;

R(A)k表示L(A)k中k个线要素以θ为阈值的缓冲区集合;

Rule(L(Ai)⇒P(i),CS%,CC%)表示关联规则及支持度置信度集合。

步骤:R(A)k=generate Region(L(A)k,θ);Count=m+n;i=0;

While(i<k){j=0;a=0;b=0;c=0;

while(j<n){

if(InRegion((R(A)i,P(A)j)&&P(A)j∈P (a)){a++;j++;}

Else if(InRegion((R(A)i,P(A)j)&&P(A)j ∈P(b)){b++;j++;}

Else if((InRegion((R(A)i,P(A)j)&&P (A)j∈P(c)){c++;j++}Else j++;}

If(j/count>=θs&&a/j>=θC)AddRule (Rule(L(Ai)⇒P(a),j/count,a/j);

If(j/count>=θs&&b/j>=θC)AddRule (Rule(L(Ai)⇒P(b),j/count,b/j);

If(j/count>=θs&&b/j>=θC)AddRule (Rule(L(Ai)⇒P(c),j/count,c/j);i++;}

上述算法中generate Region(L(A)k,θ)为根据阈值产生不同的线要素的缓冲区集合,InRegion(R(A)i,P(A)j)表示判断点要素P(A)j是否落入特定缓冲区R(A)i的区域内,AddRule()则表示把关联规则L(Ai)⇒P(a)及CS%和CC%添加入集合内。在上述算法把集合P(A)划分成为了P(a),P(b),P(c)3个子集,运用中根据A的不同类型可以划分出更多的子集合。通过对算法的描述,可以实现对地震空间数据中的线要素及点要素之间的关联规则的挖掘。

4 实 验

笔者对云南省1965-2014年以来的地震数据进行了空间关联规则的挖掘算法实验,实验主要采用ArcGIS地理信息系统平台及Geodatabase空间数据库为主要的实验平台及空间数据库。实验数据如下:云南省自1965年以来地震目录共计122 201次,主要抽象成为了点要素数据格式,云南省活动断裂带数据共计33条,在Geodatabase平台下建立了云南省地震空间数据库。根据地震震源数据首先按震级进行划分,即震级4级以上通常为有感地震,地震影响较大的4级以上地震分为P (A)类,震级4级以下地震分为P(B)类。数据中P(A)=1 342次发生,在总地震数据中约占1%,在选择支持度上必须小于这个值,选择0.4%作为支撑度阈值θs,1%为置信度阈值θc,并且以所有断裂带10 km为阈值进行了缓冲区域的建立,把4级以上地震进一步分为4-5级为一个划分、5-6级为一个划分、6级以上地震为一个划分。根据选择的阈值通过ArcGIS平台,生成了所有活动断裂带的以10 km为缓冲区的缓冲带,按照算法进行了分析,实验平台见图2,得到的实验结果见表4。

表4 云南省地震数据点线模式支持度及置信度Tab.4 Support degree and confidence degree of point-line pattern in Yunnan province

通过实验数据可以看出在地震中断裂地和震源之间一种类似co-location的数据挖掘得出的空间关联规则及其支持度及置信度的具体数据,通过实验可以得出,云南省活动的33条断裂带和地震震源的关系,在活动断裂带以内10 km发生4级地震的概率为0.45%。而在10 km内的4级地震中发生5-6级的概率分别为15.4%、3.6%,可以看出活动断裂带及其10 km范围内发生4级以上及特大地震的具体概率。

图2 云南省地点线模式挖掘实验图Fig.2 Mining experiment of point-line pattern in Yunnan province

5 结 语

根据上述算法及实验得出1种通过类似colocation空间挖掘的算法,找到了空间数据库中线、点要素之间的空间关联,并且把算法应用到的地震空间数据关于活动断裂带及地震震源数据上进行实验,得出实验结果。实验结果表明,地震的活动断裂带和震源及震级存在很大的相关度,实验通过对点线关联规则的支持对及置信度表明了这种相关度。关于算法及实验进一步的分析包括:

1)算法中用于计算的全部点数据构成了全概率的空间,其中的支持度及置信度表示的则为其中的条件概率,通过基于概率的全概率-贝叶斯等方法可以进行进一步的空间推理[5]。

2)实验数据中点数据主要包括震源数据,而地震数据的来源复杂,产生的破坏和人民生活密切相关,在考虑数据构成的时候,还可以把居民点等其它多种点要素数据考虑入分析对象,从概率关系对居民点选址做分析。

3)地震数据是时效性很强的数据,在空间数据建立的时候必须考虑对时间维度的考虑,从而对地震及相关度进行分析及预测。

4)地震编目数据本身记录存在缺陷,历史统计缺乏,造成了数据并不全面等[6]。

该文主要提出了一种基于Apriori算法的空间关联规则的挖掘算法,通过对算法的分析、描述并通过对云南省地震空间数据中的活动断裂带、震源数据进行算法实验得出了相应的实验数据。算法的提出对地震数据通过空间关联规则的方式进行基于概率的分析,为地震活动中断裂带周边地震活动概率分及基于概率的预测有一定的运用意义。

参考文献:

[1]Yan Huang,Shashi Shekhar,hui Xiong Discovering colocation patterns from spatial Datasets A General Approach[C].IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING 2004:1472-1485.

[2]王炜,林命遇,马钦忠,等.数据挖掘及其在地震预报中的应用前景[J].国际地震动态,2005,(12):1 -3.

[3]刘宏涛.数据挖掘在地震预报中的应用研究[D].辽宁工程技术大学,2006.

[4]马荣华,马晓冬,蒲英霞.从GIS数据库中挖掘空间关联研究规则[J].遥感学报,2005,9(6):733 -740.

[5]皇甫岗.云南地震活动性研究[D].中国科学技术大学,2009.

[6]顾元,朱培明,荣辉,等.基于贝叶斯网络的地震相分类[J].地球科学-中国地质大学学报,2013,38 (5):1143-1147.

中图分类号:P208

文献标识码:A

文章编号:1004-2660(2015)03-0063-05

收稿日期:2105-07-09.

作者简介:周园(1981-),女,云南人,讲师.主要研究方向:地理信息系统,空间数据挖掘.

Application of Point-line Association Pattern Based on Apriori Algorithm on Spatial Data Mining of Earthquake

ZHOU Yuan
(Yunnan Land and Resources Vocational College,Kunming 652501,China)

Abstract:The analysis in this paper is based on two data types of spatial data of earthquake,i.e.point feature and line feature.According to Apriori algorithm,a point-line association pattern was used in the spatial data mining of earthquake.This pattern was described and then verified by the earthquake spatial data in Yunnan province.As Apriori algorithm is on the basis of probability,the probabilistic relations in the point-line data of earthquake spatial data in Yunnan province can be obtained,thus enjoying some significance in the further analysis and reasoning of spatial probability.

Key words:spatial data mining;Apriori;GIS;earthquake spatial data

猜你喜欢
空间数据置信度关联
置信度辅助特征增强的视差估计网络
一种基于定位置信度预测的二阶段目标检测方法
硼铝复合材料硼含量置信度临界安全分析研究
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
GIS空间数据与地图制图融合技术
“一带一路”递进,关联民生更紧
正负关联规则两级置信度阈值设置方法
奇趣搭配
智趣
网格化存储的几项关键技术分析