基于用户兴趣建模的个性化旅游信息推荐研究

2018-11-26 09:32李文清

电脑知识与技术 2018年22期

李文清

摘要：用户兴趣建模是通过对用户的偏好信息、行为过程和背景理论等信息综合分析并计算构建用户的兴趣模型。用户兴趣模型的构建是个性化信息推送应用的关键环节，是为用户提供个性化服务的基础部分，用户建模的质量直接决定着个性化推送服务水平的高低。该文依据用户建模的流程依次对用户数据收集、用户模型的表示、用户模型的学习和用户模型的更新四个部分展开研究，最后通过个性化推送方法进行旅游信息推送分析。

关键词：用户偏好；兴趣建模；旅游信息；个性化推荐

中图分类号：TP393 文献标识码：A 文章编号：1009-3044（2018）21-0155-04

用户兴趣模型的构建实质上是经过收集跟用户的兴趣偏好相关的各种数据来分析用户兴趣，最终设计构建一套计算机可识别的模型，这套模型可以精准的将用户兴趣偏好表达出来，并且能有效获取其兴趣的变化。在各类个性化推荐服务平台中，只有建立准确的用户兴趣模型，才能开展下一步项目匹配、智能推送等相关工作。其兴趣建模的过程如图1所示：

1 用户兴趣数据收集

采集用户的兴趣偏好数据是构建兴趣模型以及个性化推荐的直接数据源，所采集到的用户数据质量与格式决定了个性化推送方法的选择与用户兴趣建模所能达到的质量。在抽取用户反馈内容方面，目前主要有两种不同的技术手段来记录各类用户反馈的数据。其中一种是通过用户直接评价项目来获得用户偏好，此类技术称作显式反馈技术；另一种是整个过程中无需用户的实际评价与主动参与，通过系统对用户行为过程的分析与监视，此类技术称作隐式反馈技术，下面将逐一来分析这两种用户反馈技术。

（1）显式反馈：用户的显式反馈主要是通过用户自主给平台反馈其对项目内容的喜好程度，用评价等级的方式来展现，这就需要系统用户积极参与评价。这样获取到的用户数据比较简单易懂，并且能直接反馈出用户对系统相关项目的喜好程度。但是，显示反馈的明显不足是用户不喜欢占用太多时间和精力去反馈其对项目的喜好与否，一般愿意自主去评价项目的用户不多。因此，能获取到的显示反馈数据是极其的宝贵，然而却也十分稀疏，只能反映少部分用户的兴趣偏好，不能准确获取大部分用户兴趣偏好。目前用得比较多的显示反馈方法，有如下三类：

①喜欢/不喜欢。这类方法简单明了，将项目分成两个截然不同的评价体系，非此即彼的二进制评价方式。

②评分。评分是指用打分的形式来评价项目，常见的有五分制和百分制等。

③文本评论。这是指通过用户的文本信息来反馈用户对项目的喜好程度，进而分析判断用户兴趣偏好。

（2）隐式反馈：这类数据收集过程不通过用户的自主参与，而是系统根据后台监控的方式收集用户的搜索次数、访问次序、历史浏览情况、点击次数等信息，进而分析得出用户的兴趣偏好，自动完成信息的收集，无须增加用戶的负担。由于隐式反馈的操作过程全程不影响到用户就能获取到用户对哪些项目感兴趣，哪些项目不感兴趣。因此隐式反馈比显示反馈技术更可靠。但是，问题的关键在于隐式反馈技术需要处理并分析大量的冗余无关数据，这样会大大加重系统的计算成本。

2 用户兴趣模型表示

在众多个性化推荐系统中，用户从平台获取到的推荐信息（项目）一般都可描述成一系列特征词项集合。例如，在个性化旅游推荐系统中，用来描述旅游的特征词项主要有：类别（自然、人文、历史等）、地域（华南、华中，华北，西北，西南等）、风格（清新、厚重等）等等。然而，目前大多数基于内容的推荐服务系统中，项目描述主要是通过各种网页中抽取出来的文本信息进行分析，而计算机无法直接处理分析这些非结构化描述性文本信息。基于此，我们通过一种用户模型表示的手段来将文本内容数据转换成计算机可识别可运算的结构性信息。常用的用户模型表示方法主要有以下两种：

（1）基于关键词的向量空间模型：目前绝大部分基于内容的推荐系统，一般会采用向量空间模型和关键词匹配等方式来进行分析表达。向量空间模型指的是将网页或者系统中的文本内容信息用空间多维表达的方式展现，是现在使用最多的一种用户模型表示方法。在此类模型中，文本文档信息被理解成一系列特征项的集合，文本信息用空间坐标系统中的不同维度来表达，不同的维度代表文本集中不同的特征项。其简易示意图如图2所示：

图2中的[di]和[dj]代表两个不同的n维向量。基于关键词的向量空间模型表示方法最大的优势在于将文本内容信息用特征项和权重的向量这种方式来转换成计算机可运算的结构性数据，并且通过不同向量之间的相关性来计算用户兴趣偏好。但是，基于关键词的向量空间模型表示方法存在的严重不足在于没法精准获取到用户实质上的兴趣偏好中关于语义表达的信息。

（2）概率主题模型：其中心思想主要是将每一个文本信息当作众多主题混合分布在一起，而主题就是相应词项的概率分布。如图3所示，将文档信息拆分成若干主题，每个主题用相应词项的概率来表示其权重大小，其中，两个主题信息都是和金钱以及河流存在关联性，但是每个词项的概率大小不一样，也就是权重不同。因此，对于不同的主题，可以选出若干个不同的词以及其概率分布来表示各个词项对于主题的作用大小。

3 用户兴趣模型学习

用户模型的学习指的是运算分析和推理用户数据中有价值的信息，总结归纳出对用户兴趣偏好有效的内容，这些内容通常以格式化的手段来表达。目前实际使用最多的模型学习算法是[TF-IDF]。

[TF-IDF]法的核心问题是特征选择，目前有诸多平台和系统用此类方法学习，比如[Amalthaea、Letizia]等。[TF-IDF]法的主要思想是把不同用户、不同文本信息用向量的形式表达，其中各个维度都是用各种特征词项组合而成，而特征词项在里边所占的权重比例是根据其词频以及文档的频率来分析计算，整个过程可以分为两个主要学习步骤：

①按照获取的样本数据抽取其中的文档信息特征项集合[T={t1，t2，......，tn}]；

②计算每个特征项的权重大小（概率分布）[wkj]（[tk]在[dj]中的权重大小）；

问题解决的重点在于是提取特征，主要的可行方法有开方检验法、文档频率法、信息增益法等；而对于计算权重大小，可以依据统计分析方法来获取，比如TF-IDF权值、词频权值、布尔权值等。

（1）特征项抽取

特征项的提取算法有很多种，各有利弊，目前最常用的有开方检验法与信息增益法这两种抽取方法，下面将对这两种方法进行分析。

①信息增益法

信息增益法按照各个词项[t]对整体分类所起到的作用大小来衡量计算出[t]的重要性程度，并进一步对词项[t]进行取舍，这和决策树学习分析方法中对属性选择比较类似。词项[t]的信息增益指的是在分类过程中，有词项[t]相比较没有词项[t]时，对整个过程所产生的差别。对于文本分类，信息增益度量主要是指某词项的存在与否对整个分类所产生的信息量差异程度，这个差异程度通过熵来进行计算和分析，如公式（1）所示。

式中，[P（Cj）]指的是类别[Cj]的文档信息存在于语料库里的概率大小，[P（t）]指的是在语料库里含有词项[t]文档的概率大小，[P（t）]指的是在语料库里不含有词项[t]的概率大小，[P（Cj|t）]指的是含有词项[t]的信息文档中属于类[Cj]的条件概率，[P（Cj|t）]指的是没有词项[t]的文档中属于类[Cj]的条件概率。

②开方检验法

开方检验这个方法的核心思想是指对比实际值和理论值差距的大小来判断假定的理论是否是对的。正常而言，首先对两个变量进行假设相互之间是不相干的，两两独立，进而去对比分析实际值和理论值之间的差距是否过大，最后确定能否接受之前的假设。当偏差足够小的时候，则接受之前的假设，当偏差大于某一限值时则否定之前的假设，并接受备选的另一个假设。

公式中，[xi]代表实际值，[E]代表理论值。

通过分析文本分类，发现问题的核心在于词项[t]与类别[Cj，1≤j≤n]，总共有n个类别相互之间存在一定的关联性。如果词项[t]和类别[Cj]之间不存在关联，相互独立，则意味着词项[t]对类别[Cj]不存在表征的能力，同时也说明无法通过利用词项[t]来分析判断类别[Cj]。

（2）特征权重值计算

①布尔权重

4 用户兴趣模型更新

用户模型是决定个性化推荐系统质量好坏的重要部分，一个优质的个性化推荐系统，不仅需要通过用户兴趣模型来精确的分析各用户的兴趣偏好，同时还需要实时的跟踪并更新用户兴趣偏好的变化。用户兴趣的变化过程一般都会经由显式和隐式反馈两种方式反映出来，对于用户模型的更新是需要实时自动跟踪反馈用户偏好随时间的变化过程，也就是能实时追踪用户兴趣的转移。目前常用的用户兴趣模型更新技术一般可以分成下面三类：（1）神经网络技术；（2）自然进化技术；（3）信息增补技术。

5 基于用户兴趣的个性化旅游推荐

5.1 用户兴趣偏好推荐

该推荐方式表示利用核心的用户兴趣偏好信息有根据、有目的的推送给别的用户，比如当一个游客在某一景点驻留的时间过长，超过某一限定阈值，则意味着此游客对该旅游区域比较感兴趣。基于此能够得出用户偏好信息，下面将对用户的兴趣向量进行相关分析。

当存在有[n]个旅游用户，以及有[m]个兴趣景点区域，则可以分别以用户集[U={u1，u2，...，un}]与兴趣区域集[R={r1，r2，...，rm}]来进行表达，每个旅游用户，都存在一个对应的兴趣向量[Vi={ai1，ai2，...，aim}]，并且对于所有游客的兴趣向量可用n×m阶矩阵的方式来表示，当游客[ui]对区域[rj]比较有兴趣，则游客在此景点相关区域逗留的时间超过某一限定阈值，并且对应的兴趣向量为[aij=1]，当游客对区域[rj]没有兴趣，则表示对应的兴趣向量为[aij=0]。

通过核心用户的兴趣向量，可以得出核心用户相应的兴趣矩阵，也就是核心兴趣矩阵，在该矩阵基础之上，计算分析用户的相似度。这个方法具备两大核心优势，首先该方法大幅度降低了计算的复杂度，其次是大幅度增加了推荐的精准度。

5.2 流行景点推荐

5.3 上下文感知推荐

游客选择一个或多个景点时通常会受到几大因素的影响，常见的因素包括天气、当前所处地理位置以及环境上下文等等。比如，游客在搜索景点时，通常更倾向于选择距离相对比较近点的一些景点。按照天气上下文可知，其对我们选择去哪个景点会产生一定的影响。当天气比较晴朗舒适时，我们更倾向于选择公园，当天气不太好时，我们更倾向于选择去图书馆等室内场所，这对在特定环境和天气条件下，对用户进行推荐有一定的作用。再比如，有些景点只在周一至周五对游客开放，那么在周六周日给游客推荐去此类景点则毫无意义。而且，不仅可以通过在线天气服务来实时的获取某一特定区域的天气信息，还能获取到该区域的历史天气信息。

因此，我们通过将目标城市、用户兴趣偏好、流行景点和上下文感知信息这四个影响因子进行综合分析对游客产生个性化景点推荐。

6 结束语

本文从基于用户兴趣建模的个性化推荐系统中用到的用户兴趣建模流程和个性化推荐方法入手，将用户兴趣建模分为用户数据收集、用户数据模型表示、用户数据模型学习，用户数据更新四个流程进行分析，并对个性化旅游推荐过程中用到的用户兴趣偏好推荐、流行景点推荐和上下文感知推荐等方法进行阐述，为用户提供更加高效智能的个性化推送信息奠定理论基础。

参考文献：

[1] 韩旭. 个性化推荐系统用户兴趣建模方式的研究[J].数字技术与应用，2010（11）：44-46.

[2] 付关友，朱征宇. 个性化服务中基于行为分析的用户兴趣建模[J].计算机工程与科学，2005，27（12）：76-78.

[3] 许波，张结魁，周军.基于行为分析的用户兴趣建模[J].情报杂志，2009，28（6）：166-169.

[4] 蒋翀，费红晓. 基于线性衰减的用户兴趣建模[J]. 计算机系统应用，2010，19（6）：140-143.

[5] 张玉连，王权.基于浏览行为和浏览内容的用户兴趣建模[J]. 现代图书情报技术，2007（6）：52-55.

[6] JANNACH D， ZANKER M， FUCHS M. Constraint-based recommendation in tourism： a multi-perspective case study[J]. Journal of Information Technology and Tourism， 2009，11（2）：139-155.

[7] ZHANG M， YI C， ZHANG X H， et al. Study on the recommendation technology for tourism information service[A]. ZHANG M. The Second International Symposium on Computational Intelligence and Desig[C]. New Jersey： IEEE Press， 2009. 410-415.

[8] 徐麟軍，吴飞，李伐. 学习资源个性化检索系统中用户兴趣建模研究[J]. 电脑知识与技术，2008（26）：1788-1791.

[9] 陈抒然. 面向个性化服务的用户兴趣建模及应用研究[D]. 重庆：重庆大学，2007.

[10] 颜端武，刘明岩，许应楠. 基于领域本体的细粒度用户兴趣建模研究[J].情报学报，2010，29（3）：433-442.

【通联编辑：王力】