基于本体的兴趣模型和语义相似度计算方法的研究

2018-11-15 01:33阮怀伟胡松华陈艳平邹乐

电脑知识与技术 2018年20期

关键词：本体个性化

阮怀伟胡松华陈艳平邹乐

摘要：本文在基于知识本体库的基础上，提出了个性化用户模型的兴趣树构建方法，并在此基础上提出了基于WordNeT的语义相似度计算方法，为个性化服务提供理论指导，与其他方法相比，本文提出的方法可以为个性化用户提供更为精准的推送服务。

关键词：本体；兴趣模型；个性化；语义相似度

中图分类号：TP391 文献标识码：A 文章编号：1009-3044（2018）20-0183-03

1 领域本体知识库和语义相关度的理论与方法

随着计算机在信息化方面的应用，人们对数字信息的处理需求越来越高。信息技术开始面临知识表示、信息组织和软件复用等各种新的挑战。特别是互联网的迅速发展，使得组织、管理和维护海量信息，为用户提供有效的服务成了一个重要而紧迫的研究课題[1-4]。为了适应信息化处理需求，出现了一个新的概念，本体（Ontology）作为一种能够在知识层面和语义层面描述信息系统的建模工具，引起了国内外许多研究者的关注，并被广泛应用于计算机等知识领域[5-7]。

动态数字语义标引技术主要通过对本体资源的语义标注，充分挖掘用户感兴趣和需要的资源，为用户推送个性化的学习资源和学习计划等。主要在于建立资源领域本体，对资源进行语义标注、审核、加工等，利用本体建立实体与知识点的关联关系，知识点与资源的关联关系，最终为个性化推送服务。

在领域本体知识库方面，当前本体建模缺乏逻辑层知识表达的问题，一般方法是通过阐释符号与符号过程的概念，联系符号框架理论，将知识表达和关联过程分为3个维度，即语法、语义、语用的应用。另外一个是语义相关度计算，是信息检索、文档分类和聚类、推荐系统、机器学习等诸多领域，仍然存在一些关键技术亟待解决。

2 基于本体的个性化用户模型—“兴趣树”构建方法

在基于本体领域资源的基础上，提出了一种基于本体的个性化用户模型——兴趣树构建的平衡方法。核心内容是：基于已经构建了信息系统的领域本体，通过领域本体中的概念关系描述用户模型，并选择用户模型中最广泛的“直接关系”和“对等关系”，从而形成用户模型，一棵树状的“兴趣树”。“兴趣树”的具体思想是在构建良好的领域本体的基础上为用户提供固定的兴趣点，然后分析用户的URL属性，并利用属性中包含的概念构造用户兴趣树[8-10]。构建的用户模型以用户个人信息和用户兴趣树的形式呈现。用户模型的具体构建过程如图1所示。

3 基于WordNeT的语义相似度计算方法

语义相似度的计算需要先确定语义信息的含义，并使用各种语义信息，包括距离、信息系数IC（Information Coefficient）、深度、语义关系和概念特征。距离是最简单、最直观的语义信息。在现有的研究中，都设置了所有的混合语义相似度。相似度的计算方法利用距离的语义信息进行计算。本文提出的计算方法也是一种距离相关计算方法。该距离分为江提出的实际物理距离和语义距离[11-12]。本文提出了一种新的语义相似度计算方法：

[Sim（c1，c2）=e-（α×L（path）+β×L（IC））] （1）

式中的参数说明如下，其中[L（IC）]为与信息系数IC有关的函数，[L（path）]为最短路径距离相关的函数，和语义距离相关的函数，[α]和[β]为参数，参数范围为[α>0]，[β>0]。[L（IC）]与Jiang定义的语义距离公式相同，即：

[L（IC）=IC（c1）+IC（c2）-2×IC（LCS（c1，c2））] （2）

其中[IC（c1）]和[IC（c2）]为分别表示本体概念[c1]，[c2]的IC值，[LCS（c1，c2）]为[c1]，[c2]的公共包含，[IC（LCS（c1，c2））]为概念[c1]，[c2]的最小公共包含IC值。公式中的所有IC的计算方法均使用新的IC计算方法。

为了确定最短路径距离[L（path）]对语义相似度的影响，本文给出如下两种[L（path）]的计算方法：

（1）方法1：

[L（path）=Distance（c1，c2）2×Depthmax] （3）

（2）方法2：

[L（path）=log（Distance（c1，c2）+1）log（2×Depthmax+1）] （4）

其中[Distance（c1，c2）]表示两个概念结点[c1]，[c2]的最短路径距离，[Depthmax]为WordNet的最大深度。在计算IC的过程中，使用了诸如深度和密度等语义信息，在语义相似度的计算中使用最短路径距离和深度，因此所提出的方法属于混合语义相似度计算方法[13]。

4 个人偏好模型构建和个性化推送服务

4.1 个人偏好模型构建

根据语义本体和相似度计算方法，个人偏好模型知识来源如图2所示，分为5个步骤：

1）首先根据个人知识空间、个人显性信息、个人隐性信息构建个人偏好模型；

2）基于个人偏好模型，在教材资源、图书资源、试题资源和视音资源的支持下，进行基于偏好、知识点和主题的资源聚合；

3）然后进行基于偏好的、面向不同用户和不同主题的个性化出版；

4）接着偏好统计分析；

5）最后优化个人偏好信息和偏好模型，从而实现后续的个性化出版优化。

从图2可以看出，主要分为5个部分，分别为：个人信息空间，个人知识空间，个人显性信息，个人隐性信息，个人偏好信息。各部分的具体功能为：

1）个人知识空间：个人知识空间记录学生在当前阶段已经掌握的知识或者技能。

2）个人显性信息：显性信息是指用户注册系统时所填写的信息，例如姓名、年级、联系方式等。

3）个人隐性信息：隐性信息是指用户在学习过程中对某个知识点学习频率、学习时间等网络日志的记录以及用户在学习过程中对不同资源类型（如视频、文档等）使用度等。

4）个人偏好信息：通过对用户的显性信息以及隐性信息进行挖掘分析客户的偏好信息。

将图中的个人知识空间、显性信息、隐性信息构成个人的偏好信息，利用偏好信息构建个人偏好模型。个人偏好模型构建的流程如图3所示。

个人偏好模型构建的流程包括：

1）用户需要创建个人账户，注册个人基本信息，并可以随时修改自己的信息资料，生成个人显性信息，并初始化成用户偏好信息；

2）然后通过网络日志记录用户的学习行为，从而挖掘出用户的隐性信息，用户显性信息與隐性信息构成偏好信息；

3）最后通过用户显性信息与隐性信息的不断变化来更新用户偏好信息，进而形成用户的偏好模型。

4.2 基于个人偏好的资源聚合

在构建了用户偏好模型后，就可以对基于偏好的资源进行聚合，其聚合过程如图4所示。

基于偏好的资源整合具体流程为：

1）用户登录后，系统会自动读取用户的偏好模型；

2）根据用户的偏好信息读取已经标注的试题、教材、图书和视音频等资源信息；

3）若资源符合偏好模型则进行资源聚合，如果不是则继续读取资源；

4）当所有的资源都已经读取完毕则结束，此时基于偏好的资源聚合过程完成。

4.3 基于用户偏好的个性化资源推送服务

根据不同用户的偏好模型推荐相应的资源，以使得用户能够及时有效的获得自己感兴趣的资源。例如用户A偏好于视频类资源，用户B喜欢文档类的资源，系统就分别推荐相应所偏好的资源，而不是由系统统一的推送同一类资源。

5 结论

本文首先介绍了国内外领域本体知识库的相关理论与方法。接着，具体阐述了构建用户模型和构建领域本体的“兴趣树”构建方法的相关理论。然后基于已有的WordNet语义相似度计算方法，提出了一种基于混合式WordNeT的语义相似度计算方法。最后，本文对所构建的用户模型和语义相似度计算方法，用于用户兴趣模型的建立和个性化资源聚合服务，并结合具体实例论证所构建的用户模型和语义计算度的可行性。

参考文献：

[1] 曹恬，周丽，张国煊.一种基于词共现的文本相似度计算[J].计算机工程与科学，2007（3）：52-53.

[2] 潘谦红，王炬，史忠植.基于属性论的文本相似度计算[J].计算机学报，1999（6）：651-655.

[3] 戴弘宁，文贵华，丁月华，等.非结构化数据的可视化编辑系统[J].计算机应用研究，2003（6）：75-76.

[4] 尹坤，尹红风，杨燕，贾真.基于Sim Rank的百度百科词条语义相似度计算[J].山东大学学报：工学版，2014（3）：29-35.

[5] 于东，荀恩东.基于Word Embedding语义相似度的字母缩略术语消歧[J].中文信息学报，2014（5）：51-59.

[6] 吴奎，周献中，王建宇，赵佳宝. 基于贝叶斯估计的概念语义相似度算法[J].中文信息学报，2010，02：52-57.

[7] 蔡圆媛，卢苇.基于低维语义向量模型的语义相似度度量[J].中国科学技术大学学报，2016（9）：719-726.

[8] 魏韡，向阳，陈千.计算术语间语义相似度的混合方法[J].计算机应用，2010（6）：1668-1670.

[9] 曾琦，周刚，兰明敬，等.一种多义词词向量计算方法[J].小型微型计算机系统，2016（7）：1417-1421.

[10] 李青，陈阳，谢浩然，等.一种基于文本相似度矩阵运算的非结构化海量投诉数据分类算法[J].计算机工程与科学，2012（1）：103-107.

[11] Mihalcea R，Corley C，Strapparava C.Corpus-based and Knowledge-based Measures of Text Semantic Similarity[C]//National Conference on Artificial Intelligence and the Eighteenth Innovative

Applications of Artificial Intelligence Conference，July 16-20，2006，Boston， Massachusetts， Usa. DBLP， 2006：775-780.

[12] Thomas K Landauer，Peter W.Foltz，Darrell Laham.An introduction to latent semantic analysis[J].Discourse Processes，1998，25（2-3）：259-284.

[13] Gabrilovich E，Markovitch S.Wikipedia-based Semantic Interpretation for Natural Language Processing[J].Journal of Artificial Intelligence Research，2014，34（4）：443-498.