移动信息服务中用户兴趣建模研究

2012-08-06 12:52宫玲玲乔鸿
网络安全技术与应用 2012年12期
关键词:特征词权值类别

宫玲玲 乔鸿

山东师范大学管理科学与工程学院 山东 250014

0 引言

本文用户兴趣建模过程中充分考虑了用户使用移动设备的特点。通过爬取用户已浏览的WAP页面,从中识别出手机用户的长期、短期兴趣,建立基于本体的加权关键词用户兴趣模型。用户使用手机浏览网页时自动根据用户的兴趣模型调整打开WAP页面的信息界面,使用户能在较短时间找到自己需要的移动信息。

1 构建领域本体

基于本体的研究一直存在一个问题:领域本体的构建一直依赖设计人员的知识和经验,本体的有效性难以保证。本文直接根据ODP(Open Directory Project)开放式目录信息构建领域本体,可避免以上的问题。ODP是目前互联网上最大的、最广泛的网络资源目录。由来自世界各地的志愿者共同建设和维护的,且一直处在不断更新中。

本文领域本体的构建根据ODP的前三个层次,ODP开放式目录将知识体系按多层次化结构来表示,上层主题父类是对下层所有子类的共同属性的概括,而下层子类则是从不同角度对上层父类的细化。第三层根据中文维基百科的分类索引进行特征词的扩充,这样基本能够涵盖大部分概念及其关系。本文使用Stanford大学开发的Protégé 4.1本体编辑器来建立领域本体。

2 基于本体的用户兴趣模型构建

2.1 用户兴趣的收集

用户兴趣模型的创建首先需要收集用户兴趣,这一过程为用户兴趣模型的建立提供必要的数据源。现代个性化系统中,多采用隐式的信息收集方式,或二者结合的方式。由于移动设备屏幕显示的限制,本文采用隐性方式自动构建用户模型。通过移动用户浏览WAP页面的行为来挖掘用户兴趣。用户浏览的过程中,记录下用户浏览页面的完整URL、页面大小(传输的字节数)、用户浏览页面的时间等信息。用户浏览页面的这些信息主要来源于WAP门户网站及相关接入服务提供商(SP)的WAP服务器,这些服务器中详细记录了用户的浏览信息。

用户对于自己感兴趣的内容会花费较多的时间去阅读和思考,所以用户浏览WAP页面的行为从一定程度上能够反映出用户对页面内容的兴趣度。一般,用户浏览的时间和文章的长度成正比,与用户移动终端屏幕显示的字数成反比。综合考虑各个因素,文中依据用户相对阅读速度的不同,判断其兴趣度。相对阅读速度与用户对页面的兴趣度成反比。相对阅读速度即用户i阅读页面j的速度与其平均阅读速度的比率,如式1所示。

公式(1)中,Rateij表示用户i阅读页面j的相对阅读速度,Rij是用户i阅读页面j的速度,Ri是用户i的平均阅读速度。

根据获得的wap页面的大小和用户在页面的停留时间来计算用户的阅读速度,如式2所示。size(j)表示页面j的大小,tij表示用户i阅读新闻j所用的时间。当t1≤tij≤t2时,

其中,t1表示最小阅读时间,t2表示最大阅读时间。当tijt2时,当用户在某页面的停留时间超过设定的阈值t2时,Rij的计算以最大阅读时间t2为准。以免用户打开文档后处理其他事情,但没有关闭文档。这样会使用户在某文档的停留时间超过正常范围,从而无法正确获得用户的阅读速度。设置了最大阅读时间t2能有效解决这个问题。

用户i的平均阅读速度如式3所示:

在公式(3)中,size(i)是用户i所有阅读过的页面的大小之和,time(i)是用户阅读过的页面所花费的时间之和。

根据用户的相对阅读速度可以对应出用户对WAP页面的兴趣度。如表1所示。

表1 页面兴趣度对应表

2.2 兴趣模型的表示

本文采用基于本体的加权关键词兴趣表示方法。用户兴趣模型是用户兴趣领域本体的部分映射。每个用户有一棵用户兴趣树,按用户存储在用户兴趣库中,用户兴趣树如图1所示。同一用户所有兴趣类别的集合构成该用户的用户兴趣集,某个兴趣类别包含的特征词的集合构成兴趣类别的特征词集。该方法通过不同组合的兴趣节点及其权值构成用户个体兴趣本体来表示用户的兴趣。

图1 用户兴趣模型

定义用户兴趣树中节点为三元组,其中每个节点定义为:

node={keyword,weight,time}

其中,keyword是这一节点的兴趣类别,weight为该兴趣类别的权重,用来表示用户对该兴趣类别的偏好程度。time为权重的最新更新时间。

用户兴趣树的生成算法:

(1) 用户兴趣树的根节点为用户ID,用来标识用户信息;

(2) 根据用户的子兴趣类型n创建兴趣类型节点及其父节点,子节点与父节点相连,父节点与根节点相连。

(3) 子兴趣节点n的权值为其下的特征词节点it的权值之和再叠加上自身的权值,如式4所示:

(4) 向上逐个计算父节点的权值,父节点权值为其子兴趣节点权值之和。

在初始状态下,用户兴趣模型中仅存在根节点。本文中手机用户使用手机号码作为识别用户身份的惟一标识,即用手机号码表示用户ID。

2.3 WAP页面归类

根据用户的浏览日志记录,得到用户的浏览历史页面URL,从而获得WML文档。通过WML解析器对WML文档进行预处理,去除其中与用户兴趣挖掘无关的内容,提取出文档的标题和文本。文本采用向量空间模型(VSM)的表示方法。特征词按照其TF/IDF值降序排列,因为权值高的特征词能够更好的反映该文本的内容,而权值低的词与文档本身的内容关系较弱。所以只需要使用最能够代表文档特征的前K个特征词及其权值参与计算即可。

WAP页面的归类通过计算页面特征词向量和兴趣领域本体中兴趣子类的相似度得到,取相似度最高的类别作为该页面的类别。WAP页面D向量表示为D={k1,w1;k1,w2...kn,wn},用户兴趣类别N和页面D的相似度采用余弦相似度计算方式,如式5所示:

twi表示兴趣领域本体中兴趣类别N的特征词的权重,如果N的特征词集中有ki,则权值为1,否则为0。

2.4 兴趣模型的更新

本文用户兴趣模型采用基于本体的加权关键词兴趣表示方法,它随着用户兴趣的变化也进行相应的更新。从移动设备存储的容量和运行的效率方面考虑,需定期淘汰用户次要的和过时的兴趣类别。用户兴趣分为长期和短期兴趣。长期兴趣反映出用户长期的偏好特征,而短期兴趣随着时间的推移发生改变。用户短期兴趣很难与用户偶然性的浏览相区分。本文所建立的用户模型能同时反映出用户的长期兴趣和短期兴趣的变化。

文中当发现用户一个兴趣类别M时,查询该用户现有的兴趣类别。如果此兴趣类别已经包含在兴趣模型中,则对该兴趣类别及其特征词的权重和时间进行修改。如果发现此兴趣类别不在用户兴趣模型中,则直接在用户兴趣模型中生成一个新的兴趣类别,并对应相应的权重和时间。兴趣领域本体中兴趣类别M的特征词集中和WAP页面的特征词相对应的特征词加入用户兴趣模型兴趣类别M下,并对应相应的权重。特征词的权重的更新方法如式6所示,不是将TF/IDF值直接累加,而是将原模型中的所有特征词的权重乘以一个衰减系数。新的特征词的权重也不是直接归并进去,归并的时候需要乘以用户对该页面的兴趣度,兴趣度在用户兴趣收集时已根据相对阅读速度得到。

其中,wi表示特征词ti新的权值;λ(t)为时间衰减系数;wi′表示其原权值;Iij是用户i对当前浏览的页面j的兴趣度;wj是页面j中该特征词的TF/IDF值。λ(t)是与时间相关的函数,如式7所示:

其中,k值的大小决定了特征值权重的衰减速度。k值越大,衰减速度越快。兴趣类别的自身权重的更新方式与以上特征词的更新方式相同,只是公式6中jw表示页面与所属兴趣类别的余弦相似度。更新用户模型时,原模型中所有兴趣类别及其特征词的权重均乘以衰减系数的原因是用户的短期兴趣有随着时间的推移而逐渐消失的特点,使用时间衰减系数能使短期兴趣的特征词的权值逐渐减小直至淘汰出用户兴趣模型。

3 结束语

移动个性化服务是移动网络快速发展的产物,是一个有巨大应用前景的研究领域。本文研究了移动环境下基于领域本体构建用户兴趣模型。根据用户浏览相对速度,分析用户对WAP页面的偏好程度,反映到用户兴趣模型中,能够及时反映出用户兴趣的变化。该模型完全采用自动用户建模,不会给用户带来负担,能够更好的为移动环境下个性化服务提供基础。

[1] 中国互联网络信息中心.第28次中国互联网络发展状况统计报告.[2012-07-19].http://www.cnnic.net.cn.

[2] 曹建.WAP编程与开发实例教程[M].北京:电子工业出版社.2001.

[3] 兰杨.移动个性化信息服务中用户兴趣建模的研究[D].成都:电子科技大学.2009.

[4] 李善平,尹奇,胡玉杰.本体论研究综述[J].计算机研究与发展.2004.

[5] 李强.基于本体论的个性化和社会化元搜索引擎的研究[D].浙江:浙江大学.2006.

猜你喜欢
特征词权值类别
一种融合时间权值和用户行为序列的电影推荐模型
基于类信息的TF-IDF权重分析与改进①
CONTENTS
基于改进TFIDF算法的邮件分类技术
壮字喃字同形字的三种类别及简要分析
产品评论文本中特征词提取及其关联模型构建与应用
基于权值动量的RBM加速学习算法研究
基于多维度特征权值动态更新的用户推荐模型研究
服务类别
面向文本分类的特征词选取方法研究与改进