混合推荐系统方法浅析

2013-05-30 04:52刘景昊

科技致富向导 2013年8期

刘景昊

【摘要】随着Internet的迅速发展，各种信息以指数级的速度增长，类型也愈来越多。如何有效的解决信息过载带来的种种问题，如何满足各种不同用户的需求，成为新的研究课题。本文提出一种基于混合方法的推荐系统方法，经验性的比较了混合算法与单纯贴近算法之间的表现，并且说明了混合方法较纯贴近方法可以提供更准确的推荐效果。

【关键词】混合推荐系统；内容算法；人工智能

0.引言

在互联网的迅猛发展下，随着信息过载问题的逐年升温，互联网用户对信息需求的日益膨胀，推荐系统在各个领域的数字化进程中扮演着越来越重要的角色.在过去的数十年中，推荐系统在学术研究、工业界各种应用上取得了长足的进步.然而，现有的推荐算法仍然存在特征提取、冷启动、过拟合、稀疏问题，需要不断完善和解决.一些推荐系统通过混合使用协同方法和基于内容的方法，来避免单纯使用基于内容的方法或协同算法中的某些局限[1]。将协同方法和基于内容的方法混合应用至推荐系统有很不同方式，大概可以分为以下几类：

（1）单独分开执行协同方法和基于内容的方法并将其预测合并。

（2）将一些基于内容算法的特征应用于协同方法中。

（3）将一些协同方法的特征应用于基于内容方法中。

（4）建立一个将协同算法和基于内容算法特征结合应用的模型。

上述方法已经被推荐系统的研究者所采用，下面将展开介绍。

构建混合推荐系统的一种方法是单独执行协同算法和基于内容的方法。然后，我们可以得到两种情况。首先，我们可以将从各自的推荐系统中得到的结果（评级）采用线性组合或者投票机制的方法进行处理，以获得一个最终的结果。此外，我们可以采用其中某一种推荐系统，也即在任何情况下都采用一种比其他推荐系统都要好的系统，当然，这里的好是建立在一定的“质量”评价标准之上的。比如，每日学习系统选择了一个可以对推荐给出高置信区间值的推荐系统，同时这个系统能够选择出那些与用户过去的评价更加一致的推荐。

1.混合推荐系统概念与特征

一些混合型推荐系统，包括Schwaighofer[2]和Rashid [3]里描述的“通过内容的协同”，都基于一些传统的协同技术，但是也能够为每个用户保留基于内容的文件。这些基于内容的文件，不是平常的相关项，而是被用来计算两个用户之间相似度的项。正如在曾汇艳，麦永浩[4]中所述，这些措施是用来解决一些纯协同方法中遇到的稀疏性相关问题，从而使许多成对用户拥有大量重要的相关项。这种方法的另一个好处是可以推荐项目给用户，这些项目不仅在拥有类似文件的用户之间取得高的评级值，并且同时能够在拥有不同文件的用户中得到高分。这个项目不仅包含与用户估计值高度相关的一些相似文件，而且也更直接的包含那些与用户文件相反的估计值高的项目。Sarwar[6]介绍了一种使用多种不同过滤方法的相似方法---特别是内容分析代理业作为一种附加的方法加入到了协同过滤算法内。由此造成的结果是，那些与过滤评级评价一致的用户往往可以得到更好的推荐效果。与此相类似，使用了一种协同方法，在这种方法中传统用户评级向量被扩展了，这正是由一种纯粹基于内容方法的预测得到的。

2.混合推荐系统模式

在这个分类中最流行的方法是把一些降维技术应用在一组基于内容的文件中。比如，Herlocker[5]使用了潜在语义索引来创建用户文件集合的协同视图，这些用户文件是用特征向量来表示的，使得性能相比基于内容方法有了改善。

众多研究者近些年一直在研究这个问题。部分研究人员建议使用基于内容和协同特性来应用在一个基于单因素的分类中。Balabanovic[7]建议用一个统一的概率方法用于综合使用协同推荐和基于内容的推荐，这个方法是基于概率的潜在语义分析。然而，另一种贴近使用了贝叶斯混合作用回归模型，也应用了马科夫链等预测和估值方法。更特殊的是使用了用户的文件信息和在单一统计模型使用的项，来估计对于用户i和项目j的未知额定值rij ：

r=Xμ+Zу+ωу+e

e|→N（0，σ）

λ|→N（0，Λ）

у|→N（0，Γ）

这里i=1，……，I并且j=1，……，J分别代表了用户和项；e，λ和у是引入产生噪音的随机变量，并且没有注意到不同用户，不同项目的来源。

Xij是一个包含了用户和项特征的矩阵，Zi是一个用户特性的向量， ω是一个项特性的向量。这个模型中未知参数是 μ，σ，Λ和Γ，它们的值是从已知数据来利用马科夫链方法进行处理得到的。总体上来说，利用用户属性集{Zj} 来创建一个用户文件的一部分，项的属性集{ωj} 用来创建一个项文件的一部分，它们的交集{Xij} 来估计每个项的等级。

无论用户何时对系统发出请求，它的评级都能通过实时按需计算而有效的得到。一种不同的方法被采用，目的是来改善已经存在的协同过滤算法的性能，在这个方法中用户组评级的输入是被精心挑选的，使用的技术包括排除噪音、冗余度还有就是利用了评级数据的稀疏性。此外，在其中的最新发展中，K.Yu[9]提出了一种协同过滤的概率方法，即把基于记忆与基于模型的技术结合起来的方法。特别是在[9]中提出的（1）使用主动学习的方法来了解每个用户偏好的概率模型（2）使用在混合模型中的存储的用户文件来计算推荐。后者提出的方法在一些方面用到了传统的基于记亿的算法思想。

3.总结

混合推荐系统也可以用一种基于知识的技术来讨论，比如基于案例的推理，这样做的目的是为了改进推荐的准确性，并且消除一些传统推荐系统的局限性。比如，基于知识的推荐系统作为主菜，用到一些关于饭店、烹饪风格和食物的知识域，来为它的用户推荐饭店。基于知识系统的主要缺点是一种对知识获取的需要。众所周知，这是大多数人工智能应用的瓶颈。然而，基于知识的推荐系统从应用领域发展而来，这种知识域是从一种机器可以读出的表格所构建的，比如是一种存在论。举例来说，快捷系统使用主题存在论的研究，来对用户在线进行推荐。

此外，许多文章，经验性的比较了混合算法与单纯贴近算法之间的表现，并且说明了混合方法较纯贴近方法可以提供更准确的推荐效果。

【参考文献】

[1]K.Yu，X.Xu，J.Tao，M.Ester，and H.-P.Kriegel.“Instance Selection Techniques for Memory-Based Collaborative Filtering.”Proc.Second SIAM Intl Conf.Data Mining （SDM02），2002.

[2]K.Yu，Tresp，X.Xu，and H.-P.Kriegel，“Probabilistic Memory-Based Collaborative Filtering，”IEEE Trans.Knowledge and Data Eng，vol.16，no.1，pp.56-69，Jan，2004.

[3]A.M.Rashid，I.Albert，D.Cosley，S.K.Lam，S.M.McNee，J.A.Konstan，andJ.Riedl，“Getting to Know You：Learning New User Preferences in Recommender Systems，”Proc.Intl Conf.Intelligent User Interfaces，2002.

[4]曾汇艳，麦永浩.基于内容预测和项目评分的协同过滤推荐[J].计算机应用，2004，24（1）：111-113.

[5]Herlocker J，Konstan J，Borchers A，et al.An Algorithmic Framework for Performing Collaborative Filtering[C]//Proceedingsofthe22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.[S.l.]：ACM Press，1999.

[6]Sarwar B，Karypis G.Item-based Collaborative Filtering Recom-mendation Algorithm[C]//Proceedings of the 10th International World Wide Web Conference.Hong Kong，China： [s.n.]，2001.

[7]Balabanovic M，Shohalm Y.Fab：Content Based Collaborative Recommendation[J].Communication of the ACM，1997，40（3）：66-72.

[8]赵建东，陈小乐.基于Internet 的智能家庭网络控制器的实现[J].电子技术应用，2002，28（12）：46-48.

[9]K.Yu，A.Schwaighofer，V.Tresp，X.Xu，and H.-P.Kriegel，“Probabilistic Memory-Based Collaborative Filtering，”IEEE Trans.Knowledge and Data Eng， vol.16，no.1，pp.56-69，Jan.2004.

[10]杨思忠，刘锦德.家庭网络及相关技术[J].计算机应用，2000，20（7）：24-28.

[11]叶朝辉，杨士元.智能家庭网络研究综述[J].计算机应用研究，2001，18（9）：1-6.

[12]宋倩，李祥珍.基于电力线通信技术的智能家居系统[J].电力系统通信，2004，25（12）：40-43.现代通信网络.