基于网络信息提取系统中用户兴趣模型建立的研究

2013-05-30 04:52朱强

科技致富向导 2013年8期

朱强

【摘要】介绍了网络信息提取系统中用户兴趣模型建立的方法，在详细分析了现有兴趣模型的基础上，提出了一种由短期兴趣模型和长期兴趣模型组成的混合型用户兴趣模型，采用加入时间因素的二层树状结构表示用户兴趣模型，使模型既具有向量空间模型表示用户兴趣类的特点，又具有类型层次结构模型的层次性。

【关键词】网络信息；混合型用户兴趣模型；二层树状结构

1.存在问题

用户兴趣模型是个性化信息过滤系统实现个性化的关键。目前的个性化信息过滤系统都不能很好的为用户提供个性化服务。分析其原因，用户兴趣模型主要存在以下问题：

（1）描述用户对半结构化的Web数据的兴趣，现有的方法采用一个多维向量或者一组向量来表示。实验证明，这种表示模型不能完全描述出用户的真正兴趣所在，而且独立的向量也给兴趣的更新带来不便。

（2）现有的系统大多要求用户清楚地表述他们的兴趣，然而有时让用户准确而清楚地描述他们的信息需求是相当困难的，因为用户往往对模糊而好奇的东西会产生比较浓厚的兴趣。

（3）现阶段很多系统都假设用户兴趣很少改变，但这与事实情况并不相符。当用户兴趣模型与用户的实际兴趣不一致时，查准率和查全率必然低。

2.模型建立

为了解决现有用户兴趣模型不能区分短期和长期兴趣的问题，本文提出了一种混合用户兴趣模型，将用户兴趣模型分为短期兴趣模型和长期兴趣模型，短期兴趣模型中存储用户的近期兴趣，长期兴趣模型中存储用户的长期偏好。同时提出了基于时间向量的二层树状结构来表示用户兴趣模型，节点采用加入时间因素的向量空间表示法表示，然后通过层次和划分结合的聚类算法把用户兴趣特征项聚类成不同的主题。

系统通过收集用户浏览过的网页，除去不感兴趣的页面，得到用户感兴趣的页面。把用户感兴趣的页面进行预处理后，采用树状向量空间表示，并进行聚类分析得到用户的兴趣度，同时收集用户的浏览行为，调整用户的兴趣度，由此建立短期兴趣模型。系统通过用户初次使用时填写的注册信息建立短期兴趣模型，当用户的某一短期兴趣加入时间间隔达到一定程度，则认为该兴趣为用户的长期兴趣，把此兴趣加入用户的长期兴趣模型中，并在短期兴趣模型中删除此兴趣。用户的兴趣模型采用基于优化时间窗兴趣漂移的遗忘机制进行更新。

3.基于时间的二层树状空间向量模型表示

用户兴趣模型表示是对从网页中抽取的元数据（特征值）进行量化，以结构化的形式描述和存储用户兴趣信息，用户模型的表示决定了模型反映用户真实信息的能力和可计算能力，也在一定程度上限制了建模方法和模型更新算法的选取，同时是决定算法简繁优劣的重要因素之一，用户兴趣模型表示是建立用户兴趣模型的重要工作。

用户通常对多方面的内容感兴趣，并且其兴趣不断变化。用户的一些长期兴趣很少发生变化，而短期兴趣却会经常发生变化。这就要求用户模型既能够考虑到用户的长期兴趣演变，也能够迅速捕获短期的兴趣变迁，表达用户当前的兴趣。鉴于此，本系统需要能区分不同时期兴趣的用户兴趣模型表示方法。本系统要求系统响应时间短，而处理的数据量大，分析现有的用户模型表示方法，向量空间模型能将文本和查询简化为易于数学处理的特征项及权值集合的向量表示，但是向量空间模型不能区分用户的长短期兴趣，所以在向量空间模型的基础上进行了扩展，在其中加入时间向量来表示用户兴趣模型。但同时只采用加入时间向量的空间向量表示法并不能区分用户的不同兴趣类别，易造成用户兴趣混乱，故此本课题参考网易搜索引擎的“开放式目录（ODP）”管理方式，把用户兴趣模型表示成二层树类结构，上层父概念类是对下层所有子类的共同属性的概括，而下层子概念类则是从不同角度对上层父概念类加以细化，所有子节点之间形成平等的兄弟关系，这能满足本系统能区分不同兴趣类别的要求。

综上所述，本系统通过基于时间向量的二层树状结构来表示用户兴趣模型，第一层节点表示用户的兴趣主题，一个主题可以有很多主题特征项，第二层节点表示用户某个兴趣主题下的特征项，兴趣主题和特征项采用加入时间因素的向量空间模型表示，这样的二层树状结构模型既具有特征项和权值表示用户兴趣类的特点，也具有类型层次结构模型的层次性，同时还能通过特征项主题加入时间的不同来区分短期和长期兴趣。

因此整个模型树分为两级节点：第一级节点代表用户的兴趣类别，用一组兴趣主题词（I1，I2，…，In）来代表用户的n个兴趣类别，每一兴趣类 Ii 根据用户兴趣度的高低赋予一定的权值Wi，且记录加入时间Si。因此用户的兴趣可以表示为（（i1，w1，s1），（i2，w2，s2），…，（in，wn，sn））的加权矢量形式。第二级节点，即叶子节点，它代表用户某一兴趣类别下的特征项，以加入时间因素的向量空间表示成（T，W，S）形式。

在向量空间模型中加入时间向量S（s1，s2，...，si，...，sn），记录新的特征项加入的时间，表示用户对某一特征项的兴趣持续程度。这样每个用户兴趣特征项D由一个三元组（T，W，S）构成。其中，T为特征项，W为特征项的权重，S为特征项的时间参数。得到的每个网页表示为一个规范化特征矢量P（d）={（t1，w1，s1），…（ti，wi，si），…（tn，wn，sn）}。当把一张网页加入短期兴趣模型时，首先通过Web网页预处理表示成向量形式P（d）={（t1，w1，s1），…（ti，wi，si），…（tn，wn，sn）}，其加入短期兴趣模型的时间表示为S。文档的加入时间以绝对时间表示，如从2000年1月1日零点到当前时间的秒数，进行程序设计时，使用一个long型变量来表示时间参数。

为了适应用户兴趣的变化，把用户兴趣分为长期兴趣和短期兴趣，对应的也就用两棵兴趣树来分别表示。基于时间的树状模型能够准确地描述用户兴趣所在，根据树状模型的第一级节点，就可以大概地知道用户的兴趣类型，及其对每一兴趣类的兴趣度高低。由于用户兴趣类型是根据对用户浏览的内容页面进行聚类分析所得，每一兴趣类的主题词采用概化的方法在相应聚簇的特征向量中归纳得到，每一兴趣类的权值通过权值计算公式计算得到，所以这样得到的兴趣模型能够满足兴趣模型的准确性和完整性要求。树状模型的第二级节点是加入时间因素的向量空间模型表示的特征项，这样就能通过加入特征项的时间判断此特征项是长期兴趣还是短期兴趣，而且能通过特征项的权值判断用户对此特征项感兴趣程度。

4.总结

现有的信息过滤系统存在不能有效提取用户兴趣、用户兴趣变化得不到及时反馈等问题，究其原因是没有很好地平衡系统准确性、适应性以及用户负担之间的矛盾。本课题拟从统计学习、人工智能相结合的角度研究网络提取系统的关键问题，关注如何在提高系统的准确度和稳定性的前提下，最终达到向用户提供高效率的个性化检索的目的。该系统的研究将促进网络信息提取技术的发展，提高现有的信息过滤技术。

【参考文献】

[1]张卫丰，徐宝文.基于WWW缓冲的用户实时二维兴趣模型.计算机学报，2004，27（4）：461～470.

[2]邵志峰，李荣陆，胡运发.基于中图分类法的用户兴趣模型研究.计算机应用与软件，2007，24（8）：85～86.

[3]张瑜，袁方.基于用户兴趣的个性化信息检索方法.山东大学学报，2006，41（3）：120～125.