本体相似度计算方法研究

2012-08-06 12:52张路
网络安全技术与应用 2012年12期
关键词:值域实例本体

张路

长江大学工程技术学院 湖北 434020

0 引言

本体映射算法以两个本体作为输入,然后为这两个本体的各个元素(概念、属性或者关系) 建立相应的语义关系。相似性提取是本体映射的一个重要步骤,它主要是进行概念相似度的计算,提高语义相似度计算精度成为提高语义信息检索质量的关键之一。语义相似度一般是指计算本体概念间的相似度,多数方法所考虑的概念是基于一个本体的,跨本体概念间的方法比较少。MD3模型是一种典型的计算跨本体概念间相似度的方法。

1 MD3模型

Triple Matching-Distance Model(MD3)模型是一种跨本体概念间相似度计算框架。计算实体类a和b之间的相似度通过计算同义词集、特征属性和语义邻居之间的加权和,公式如下:

其中w, u, v表示了各组成部分的重要性。特征属性细化为组成部分、功能以及其他属性。概念a和b的语义邻居及其特征属性(即概念的部分、功能及其他属性)也通过同义词集合描述,每一个相似度的计算都通过Tversky公式:

其中A, B分别表示概念a和b的描述集合,A-B表示属于A但不属于B的术语集(B-A相反)。参数(,)abα由概念a和b和在各自层次结构中的深度确定。

2 EMD3模型

MD3模型的不足在于没有考虑对象实例对概念的影响,同时其语义邻居只考虑语义关系中层次之间的相似度,没有考虑非层次之间的相似度。本文在MD3模型的基础上,参考了其概念名称相似度、特征属性,对本体的结构以及概念描述两方面做了扩充,重点讨论了跨本体概念间非层次关系的相似度的比较和实例对概念相似度的影响,把MD3模型扩展到Extension of Triple Mapping Distance model (EMD3)模型。

2.1 概念属性的相似度

属性有属性名称、属性数据类型、属性实例数据等要素,因此判断两个属性是否相似主要从这三个要素来考虑。属性名称、属性类型本身是文本类型,是字符串,因此可以采用字符串相似度计算方法进行判定。例如用Humming distance来比较两字符串。设两字符串s和t,则它们之间的相似度可由下式给出:

其中:若s[i]=t[i],则f(i)=0;否则f(i)=1。由于每个概念的实例对该概念的每个属性都分配了一个相应的值,对于其他类型的数据,可以采用下面介绍的方法进行计算。

设概念A的属性为ai,概念B的属性为bj,两个属性之间的相似度的计算公式为:

其中wi是权重,代表属性名称、数据类型、属性实例数据对属性相似度计算的重要程度,且和为1。设概念A,B之间总共计算出m个sim(ai,bj),并设置相应的权值kl,则概念之间基于属性的相似度为:

2.2 概念名称相似度

知网中概念的语义用义原来描述,义原是描述概念语义的最小单位,一共有1500多个义原。由于所有义原根据上下位关系构成了一个树状的层次体系,所有可以用语义距离计算相似度。假设两个义原在该层次体系中的路径为d,可以得到两个义原之间的语义相似度如下:Sim(p1,p2)=α/(d+α),式中α是一个可以调节大小的因子。在知网中一个概念由多个义原描述,所以我们只要计算每个义原的相似度来考虑其重要性,就可以得到概念之间的名称相似度。计算方法如下:其中m, n为概念c1, c2的义原数,wi为第i个义原所占的权重。

2.3 语义关系的相似度

语义关系包括层次语义关系和非层次语义关系,层次语义关系具有有向传递性,非层次关系不具有传递性(如关联关系)。

(1) 层次语义关系的计算

本文借鉴参考文献[1]中的方法来计算层次语义关系,利用语义邻居的概念,以实体为中心向周围辐射,设定一个语义半径,半径取值的大小反映与实体之间的亲疏关系。划定语义邻居的范围集合进行匹配,取集合中的最大值作为语义邻居之间的相似度。语义邻居计算公式如下:

(2) 非层次语义关系的计算

上位词:定义概念的上位词为概念所有父类的集合,公式如下:UC(Ci, H)={Cj∈C|H(Ci, Cj)}

基于概念上位词的定义,定义概念的匹配公式:

与概念相关的非层次关系:如果关系的定义域或值域是概念c,则称这些关系为与概念c相关的非层次关系,公式如下:

还可以进一步把非层次关系细化为概念的In关系和Out关系(可以认为非层次关系的方向是从定义域到值域,凭此来定义In和Out的关系),In关系指概念c是非层次关系的值域,公式如下:而Out关系指的是概念c是非层次关系的定义域,公式如下:

比较概念的非层次关系,首先应该找出两个本体中与这两个概念相关的同类非层次关系(无需考虑不同类的非层次关系),进而比较这些同类非层次关系的另外一项之间的相似度(如果要比较的概念是非层次关系的定义域,分别找出这个关系的值域,通过概念匹配公式对其进行比较,反之亦然)。

其中i,o为权值,反映的是非层次关系的值域与定义域对概念相似度的影响程度。对层次关系和非层次关系计算结果进行综合,得到概念语义环境的相似度计算公式如下:

其中t,u分别是层次关系和非层次关系的权重,因为在本体中层次关系要比非层次关系的重要性高,所以在计算中应该赋以较大的值,即t>0.5>u,且t+u=1。

2.4 概念实例特征的相似度

基于实例特征计算相似度的理论依据是,如果概念所具有的实例全部都相同,那么这两个概念是相同的;如果两个概念具有相同实例的比重是相同的,那么这两个概念是相似的。对于概念A,B的具体实例,可以用Jaccard系数来计算相似度:

其中P(A,B)表示一个实例既属于概念A又属于概念B的概率,表示一个实例属于概念A但不属于B的概率。

2.5 结论

由上面的分析,综合了各个部分相似度的值,得到跨本体概念间相似度的综合公式如下:

其中m, n, r, t为各个部分所占的权重,根据各个部分重要性的不同m, n, r, t分别被赋以不同的值,并且m+n+r+t=1。

3 结语

本文扩展的模型充分继承了MD3模型的优点,并对MD3模型进行了优化。在选择了适当权重的前提下,EMD3模型能够确保语义相似度的计算更准确,更全面。但是在语义相似度计算过程中存在着大量权重的设定问题,对模型的性能有一定的影响。如何准确高效地设定权重是未来值得深入研究的问题。

[1] Rodriguez M A, Egenhofer M J. Determining Semantic Similarity Among Entity Classes from Different Ontologies. IEEE Trans. on Knowledge and Data Engineering.2003.

[2] 徐德智,肖文芳,王怀民.本体映射过程中的概念相似度计算[J].计算机工程与应用.2007.

[3] 陈杰,蒋祖华. 领域本体的概念相似度计算[J].计算机工程与应用.2006.

[4] 李鹏,陶兰,王弼佐.一种改进的本体语义相似度计算及其应用[J].计算机工程与设计.2007.

[5] Alexander Budanitsky,Graeme Hirst.Evaluating WordNet-based Measures of Lexical Semantic Relatedness[J].Computational Linguis2 tics.2006.

[6] Tversky A.Features of similarity.Psychological Review.1977.

猜你喜欢
值域实例本体
函数的值域与最值
眼睛是“本体”
函数的值域与最值
值域求解——一个“少”字了得
破解函数值域的十招
基于本体的机械产品工艺知识表示
完形填空Ⅱ
完形填空Ⅰ
专题
Care about the virtue moral education