基于本体的相似性计算实现高性能案例推理

2009-03-23 02:40王海棠顾君忠叶兰御
计算机时代 2009年1期
关键词:本体

王海棠 顾君忠 杨 静 叶兰御

摘要:基于案例的推理常常会遇到一词多义、多词同义问题,这会在计算案例相似性时导致错误的匹配,进而导致结论错误。文章提出了基于本体的相似性计算方法,借此来检索相似的案例,解决案例检索中的一词多义、多词同义的问题。实验证明,在基于本体的相似性计算的查全率和查准率上,该方法优于传统的相似性计算。

关键词:案例推理;案例检索;本体;相似性计算

0引言

基于案例推理(case-Based Reasoning,简称CBR)是近年来人工智能领域的一项重要的问题求解和学习的推理技术。案例推理能利用过去经验中的特定知识即具体案例来解决新的问题,即通过检索历史案例,获得与当前相似特征参数相匹配的案例,根据具体情况对匹配案例解决方案进行修正,然后应用于当前情况。

为了在历史案例中检索相似性案例,在案例检索中通常采用相似度计算。但是一词多义、多词同义问题常常导致相似案例的错误匹配。因此,本文提出了一个基于本体的相似性计算的案例推理的新方法,有效解决了案例检索中的一词多义、多词同义问题。

1案例推理

1.1案例推理概述

案例推理是以案例的形式来存储经验和知识,利用先前相似的案例的解决方案来解决当前问题的方法。

CBR的工作原理,就是模仿人们的认知心理过程。在CBR中,以案例为基础进行推理,把人们以往的经验存储成一个个的案例,当面临新的问题时,对案例库进行搜索,找到合适的案例作为参考.这其实是实现经验的重用;如果对找到的案例有不满之处,就可以进行修改以适应当前情况,修改后的案例将被再次存入案例库,以便下次使用时作为参考,这其实是实现经验的自学习。

CBR的生命周期,常常由“4R”组成,包括案例检索(Retrieve)、案例重用(Reuse)、案例修正(Revise)、案例保存(Retain)4个工作过程,如图1所示。CBR把经验和知识存储在案例中,通过案例的推理简化人工的知识获取过程,并且以案例的形式提供知识的共享和重用。

1.2案例检索

案例检索,从以前的案例中查找最有用案例并忽略那些不相关案例,从总体上可分为三个步骤,如图2所示。首先,对新案例充分描述,详细填充特征项。其次,从历史案例中搜索那些对决策支持有潜在作用的案例。通常这种搜索在一定的粗限制条件下进行,故常称过滤。最后,对这些经过筛选的案例进行匹配,并按相似度顺序排列。匹配过程即评价当前案例同上述经过筛选的历史案例相似度的比较过程。

1.3现有的CBR中的相似性计算研究

对于给定的目标案例,如何从案例库中检索和选择最为相似的案例决定了案例推理系统的学习与推理性能。案例间的相似性计算是检索的关键。在案例间相似度的评估中,通常是建立一个相似性计算函数对当前案例与旧案例进行比较。下面简要介绍其中的一些算法。

最邻近算法最邻近算法是CBR系统中最为广泛使用的技术,只用于简单的基于属性的案例表述方式。最简单的最邻近算法是采用加权平均的方法,将所有属性的相似度加权加总后就可以得到2个案例的相似度。

多维空间检索技术虽然结构化的案例表示能够通过结构表示出属性之间的相关性和背景知识,但是很多情况下案例只是简单地表示为属性值对的组合。一个案例能够映射成多维空间的矢量,距离就成为相似度的一种衡量,相似度问题也就转化为在多维空间中寻找最邻近点。

基于归纳技术的相似算法归纳算法根据案例的历史自动构建出决策树。算法识别案例的模式,据此将案例库分割成簇,每个簇存放相似的案例。本质上说归纳法是将相似案例进行归类的一种分类方法。

基于模糊逻辑的相似算法CBR匹配过程可以运用模糊逻辑技术。CBR和模糊逻辑都能够确定相似度,但是他们处理的对象不同:CBR通常是处理属性、集合或结构,而模糊逻辑处理的是人们表示近似概念时的不确定性和模糊性。

这些相似性算法在不同的领域都有各自的应用。但是在历史案例中检索相似性案例时,常常会遇到同义词问题。同样的概念术语在不同的案例中会有不同的意义,相同的概念也可能会使用不同的术语来描述,这些同义词问题可能会在计算案例相似性时导致错误的匹配。因此,本文提出了基于本体的相似性计算的案例推理的新方法,解决案例检索中的同义词问题。

2使用本体和相似度计算来检索案例

2.1本体概述

本体(Ontology)最早是一个哲学的分支,随着人工智能的发展,被赋予了新的定义。现在本体的含义是:共享概念模型的明确的形式化规范说明。它主要包括4个方面:概念化(conceptualization):客观世界的现象的抽象模型;明确(explic-it):概念及它们之间联系都被精确定义;形式化(formal):精确的数学描述;共享(share):本体中反映的知识是其使用者共同认可的。

本体为案例描述提供了一种规范的语义描述。本体的概念或者描述可以分为三个部分:受约束的词汇(有限的术语表),术语表(术语和术语含义表),辞典(同义词之间的联系)。本体的构建可以基于分类的知识或者基于通用的知识。分类的知识被用于拥有许多共同属性的知识分类。通用的知识主要由每个类别的特征组成。它允许用户构造明确的概念,构建有层次的结构,定义概念之间的联系。因此,本体可以更好地描述案例的语义信息,可以解决同义词问题。

2.2基于本体的相似度计算

当新案例产生的的时候,查询语句将会被传递到查询分析器。查询分析器将查询语句分解为动词和名词,再与相似性历史案例进行匹配。由于同义词的问题,被分解的查询语句可能不会与相似案例进行匹配。因此,我们事先要先定义好一个和案例库相关的本体库。术语被传递到本体库中去获得本体树中所有他的孩子术语,然后创建相似性计算的查询矢量Pq(V,N)。这里,V是动词矢量,N是名词矢量。

带有任何术语的V、N矢量的历史案例作为一个案例集,案例库中的某个历史案例i通过Pq(V,N)来描述。由于问题查询矢量和历史案例矢量在长度上是相似的,所以为了计算在案例集和问题查询Pq中的问题的相似性,文中采用相似性系数。

查询矢量pq和历史案例Pi之间的相似性系数计算如下:公式

SC(Pq,Pi)中加权系数Wij在历史案例Pi中表示如下:公式其中fij是历史案例Pi中术语tj出现的次数;fj是历史案例库中所有不同案例的总数;pfij是历史案例库包含术语tj的历史案例数。

猜你喜欢
本体
Abstracts and Key Words
灰铸铁缸体本体抗拉强度提升的研究
眼睛是“本体”
对姜夔自度曲音乐本体的现代解读
领域本体的查询扩展和检索研究
基于本体的机械产品工艺知识表示
本体在产品设计知识管理中的应用研究
《我应该感到自豪才对》的本体性教学内容及启示
一种基于本体的语义检索设计与实现
媒介生存:关于新闻史研究本体的思考