基于本体的个性化主动推送服务技术的研究

2018-07-11 06:00邹依彤王红霞
电子测试 2018年12期
关键词:特征词本体文档

邹依彤,王红霞

(沈阳理工大学信息科学与工程学院,辽宁沈阳,110159)

1 推送服务的实现形式

推送服务主要体现为如下三种形式:RSS频道推送、邮件推送、推送代理推送。

1.1 RSS频道推送

RSS也称之为聚合RSS,全称是Really Simple Syndication,是一种很受欢迎的资源共享应用,同时也是资源共享模式的延伸,最早的RSS服务器就具备了较为完善的服务推送功能,用户无需自己手动输入搜索内容,另一方面,在时效性方面,RSS也能够根据用户的需求实时的更新所需要的信息。

1.2 邮件推送

是指将用户感兴趣的信息以电子邮件的形式推送给用户,用户也可以选择阅读、下载或删除推送的消息,同时底层的服务及协议均由基本的电子邮件服务提供商提供。

1.3 推送代理推送

这种方式需要在一定程度上依赖用户,用户需要首先描述自己的需求,然后服务器把这份请求传递给推送代理,将用户的需求信息传送至查询代理,筛选信息的所有工作都交由查询代理来完成。因为这种方式需要用户的干预,因此智能性还有待提高。

2 推送流程

2.1 信息获取

首先建立文本数据库,这个步骤又可以细分为:首先选择要使用的文档,然后确定对这些文档所做的操作,构造出文本的模型,进而生成文档的逻辑视图。之后对生成的逻辑视图建立倒排索引。在推送之前还需对推送进行预处理,如根据用户的反馈进行实时的调整,在获得结果之后,还会根据用户的感兴趣程度对结果进行排序,最后反馈给用户。整个过程中,为了提高工作效率,必须先对搜索范围内的文档进行文本预处理,使其成为关键词类的倒排文件,建立倒排文件的流程如下:词法、语法分析→删除无用词汇→词干提取→选择关键词作为索引词。

2.2 文本预处理

这一步骤主要是对词语的切分,主要采用的中文分词方法有:最佳匹配法、反向最大匹配法、逐词遍历法、正向最大匹配法、设立切分标识法。这几种方式由于正向最大匹配法原理简单,而且具有更大的应用范围,因此,这里使用正向最大匹配法来实现词语的切分。

2.3 信息过滤

本步骤的主要目的是进行信息过滤,其目的是把不相关或相关程度较低的文档过滤掉,并将剩下的文档按照与用户兴趣相似的程度进行排序。信息过滤的流程如下:根据用户兴趣关键字搜索并返回一批文档,然后将文档预处理,过滤掉无用的及其他干扰信息,然后计算该文档向量与用户兴趣文档的相似程度,判断相似度是否大于某一阈值,将符合条件的结果反馈给用户。

3 相关算法

3.1 特征词向量模型算法

首先根据用户的反馈行为,计算每个页面的“兴趣度”,然后用户浏览的页面统一用tf/tdf的方法产生每个文件的特征词向量,即1P。之后修改1F中的每个特征词 ijK 的权重 ijKW ,产生新的文件向量,将所有文件向量中的相关特征词按权重和排序,产生新的User Profile。最后将 Fi作为输出,Ii( W)作为期望的输出,从而训练和更新兴趣模型。

3.2 向量模型匹配关键词算法

向量模型中的权重是根据单词出现的频率定义的,现在普遍使用的权重计算方法是:

从上面的公式可以知道,当词条在文章中出现的次数越多,权重值也就越大。

3.3 兴趣模型的更新

由于用户的感兴趣程度是一个抽象的概念,因此考虑对其进行简单的量化,把用户对推送结果的反馈分为五个等级:设置很不感兴趣的值为-2,不感兴趣的值为-1,一般为0,感兴趣为+1,很感兴趣为+2,根据用户的评价值,对用户模型进行学习、反馈和更新。

反馈学习的公式为:P=P+α×*f*D,其中,P为用户兴趣的矢量表示,D为用户评价文档的矢量表示,根据用户的相关反馈信息,不断调整用户的兴趣模型,使它能够更精确地描述用户的兴趣和需求。

4 用户模型本题库

本体在用户兴趣层面上详细描述了概念模型和词与词之间的语义关系,有利于逻辑推理的语义推导,有利于建立用户的个性化兴趣模型,也为根据相似用户进行推荐提供了基础。本体用户模型的形式化表示为:OUM={PI,C,D,S},其中,PI表示用户个人信息,用于标识区分各个用户,C={ 1C,, 2C , 3C ,… nC }表示领域本体中用户感兴趣的概念集合;D={1D,2D,3D,…表示用户对集合C中所有概念的兴趣度集合,表示集合C中所有两两概念之间的语义相似度。其中,每个元素表示 C i和 C j之间的语义相似度。

5 性能分析

实验对326个已登录的用户使用1000部电影标本进行实验,主要测试服务检索和主动推送性能,其中,服务检索方面的性能通过查全率和查准率两个方面进行刻画;主动推送性能利用推送的全面性和多样性来表达,实验结果证明:针对服务检索,引入本体后的模型与传统的推送服务相比,有明显的提高,检索的服务质量也有明显的提升;另一方面,模型对个性化服务的质量、推送的多样性也有了明显的提高。

猜你喜欢
特征词本体文档
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
基于改进TFIDF算法的邮件分类技术
产品评论文本中特征词提取及其关联模型构建与应用
基于本体的机械产品工艺知识表示
基于RI码计算的Word复制文档鉴别
《我应该感到自豪才对》的本体性教学内容及启示
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
面向文本分类的特征词选取方法研究与改进
专题