基于时间效应与隐语义模型的高校图书馆的个性化推荐研究

2018-05-22 07:18李薛剑刘梦雅海健强吴雪扬余雪莉
计算机应用与软件 2018年5期
关键词:语义矩阵维度

李薛剑 刘梦雅 海健强 吴雪扬 余雪莉

1(中国科学技术大学计算机科学与技术学院 安徽 合肥 230026)2(安徽大学信息保障技术协同创新中心 安徽 合肥 230601)3(安徽科技贸易学校 安徽 蚌埠 233000)

0 引 言

随着高校图书馆的不断发展,一方面馆藏图书资源日益增加,另一方面又给读者带来了信息过载现象。对于传统的图书管理系统,读者在手动检索书名或书号,明确喜欢的书目,享受系统的被动式服务的同时,优质却小众的书籍得不到关注,易造成资源浪费。在此背景下,针对图书资源个性化推荐系统的研究发展迅速。然而,高校图书馆与一般图书馆不同,同一学科读者在不同学习阶段具有知识背景相似的特点,采用有针对性的个性化推荐是解决读者个性化阅读需求和提升系统质量的重要方法。本文从理论方法的角度,详细介绍基于矩阵分解的隐语义模型[1]并融合时间信息实现对高校图书的个性化推荐,最后通过实验验证方法的效果和可行性。

1 隐语义模型的建立

1.1 核心思想

隐语义模型LFM(Latent Factor Model)是协同过滤的典型代表,通过隐类联系用户兴趣和物品;通过矩阵分解技术建立用户和隐类之间的关系、隐类和物品之间的关系;通过矩阵分解[2]的方法补全用户物品矩阵[3-4],达到预测用户对物品偏好程度的目的。

图1 隐语义模型示意图

1.2 形式化定义R矩阵是user-item矩阵,矩阵值Rij表示user i对item j的偏好程度,对于一个确定的用户,在计算出其对所有项目的兴趣度后,就可以进行排序并做出推荐。R矩阵表示为P矩阵和Q矩阵相乘,其中P矩阵是user-class矩阵,矩阵值Pij表示user i对class j的兴趣度;Q矩阵是class-item矩阵,矩阵值Qij表示class i对item j的权重,权重越高越可以作为此类的代表[5]。LFM模型的兴趣度[6]定义如公式所示:

(1)

(2)

(3)

(4)

(5)

(6)

式中:α是学习速率,取值需通过反复实验获得。

2 隐语义模型的改进算法

2.1 Bias-SVD

高校图书馆个性化信息推荐系统中的读者-图书矩阵,在和读者图书间交互关系相关的同时,也与读者和图书本身相关,这就是我们所说的偏差或偏置。为了更好地考虑由系统本身,读者和图书无关的固有属性,以及图书和读者无关的固有属性[10],我们在原有隐语义模型中尝试通过偏差解释读者和图书本身的属性。预测评分[11]可重新定义:

(7)

式中:μ表示全局平均数,所有读者-图书对借阅量的平均数,表示系统本身对借阅行为变化的影响;bu表示用户偏置,表示不同年级不同专业读者的借阅量与图书无关的因素;bi表示物品偏置,表示图书接受的评分中与用户无关因素;pu表示读者-类别矩阵;qi表示图书-类别矩阵。

2.2 Time-SVD

(8)

式中:t表示用户进入高校图书馆个性化推荐系统的持续天数,bt是时间偏置,表示图书的借出数目随时间的变化,比如学生在期末之前借书较多,在开学时借书较少;xu和yt分别是隐语义模型中描述每位读者的借阅数目随读者习惯变化的用户矩阵和时间矩阵,用不同年级的学生的借书率来表示;w表示图书进入高校图书馆个性化推荐系统的持续天数,si和zw分别是隐语义模型中描述每种图书的借阅数目随图书流行程度变化的项目矩阵和时间矩阵,用不同种类图书的借书率来表示;guf、hif、ltf分别是隐语义模型中描述用户偏好随时间变化的用户矩阵、项目矩阵和时间矩阵,用不同年级学生的不同种类图书的借书率来表示。

2.3 冷启动问题的解决

为了解决冷启动问题,避免新用户在无借书行为时推荐结果的不准确以及新书无人借阅时无法推荐,造成图书资源浪费的行为。本系统利用用户注册信息,提取出学院和专业数据等,向新用户推荐其同专业的学长学姐借阅量大的书籍,同时基于所推荐书籍进行基于物品的个性化推荐[13]。若本系统是第一次使用,无历史信息可供选择,则根据专业向其推选与专业相似类别的书籍。对于新物品,则根据物品所属种类,计算相似度及热度,根据用户的兴趣推荐以及以新书的方式进行非个性化的推荐。如果是第一批物品,不存在用户对其热度的历史信息,则计算物品之间的相似度,形成聚类[14],向用户推荐同一类的书籍。通过以上办法,提高了推荐结果的准确性。

3 实验分析

3.1 实验数据集本文对算法评估实验的数据集是高校图书馆读者的借阅记录,该数据集包括用户名、图书名、读者的借阅记录用来表示评分矩阵,数据集详细信息见表1。实验过程中将评分数据集分为数据集(80%)和测试集(20%),随机划分为5组,最终实验以5次实验验证得到的MAE平均值和RMSE平均值为最终测试值。

表1 实验数据集说明

3.2 评价指标(1) 平均绝对误差(MAE)

(9)

(10)

式中:参数含义和式(9)相同,均方根误差对评分误差值做平方处理,加重了对评分预测不准确而产生误差评分的惩罚,平均绝对误差和均方根误差均是数值越小推荐结果越准确[12]。

3.3 实验参数

(1) 隐特征维度F特征的F维度代表了保留评分矩阵信息的多少,F越大,保留信息越多,但矩阵处理过程复杂;F越小,保留信息越少,但易造成推荐结果的偏差[6]。

(2) 学习速率α学习速率α代表模型迭代过程参数变化的快慢,α越大,模型收敛速度越快,易错过最优解;α越小,迭代次数增加,收敛速度较慢[6]。

(3) 正则项系数λ正则项系数λ需根据具体实验确定,λ过大,出现欠拟合问题;λ过小,正则化效果不明显。

3.4 结果分析

(1) 隐特征维度F对算法性能的影响 为了研究不同的推荐算法中隐特征维度F对算法性能及结果的影响,我们将进行如下实验,保持参数α=0.005、λ=0.02不变,基于所给训练集迭代100次,通过改变F的大小观察不同模型下预测误差MAE 和RMSE的值(通过五次实验取平均值),根据结果分别对不同的推荐算法进行评价,部分数据如表2所示,分布曲线如图2所示。

表2 隐特征维度F在不同隐语义模型下的预测误差值

图2 不同隐语义模型下维度F变化时MAE和RMSE的分布曲线

图3 模型Base-SVD学习速率和迭代次数的变化曲线

图5 模型Time-SVD学习速率和迭代次数的变化曲线

由图2可以看出,模型Base-SVD和模型Bias-SVD在隐特征维度F不断变化的同时,均方根误差RMSE和平均绝对误差MAE波动幅度较大。在维度F小于80时,变化数量级在10-3左右,在维度F大于80小于1 000时,保持相对平稳的状态,此时维度F的变化对于模型的推荐效果影响不大。且模型Base-SVD在F=500时,模型Bias-SVD在F=400时取得最低值推荐效果最好。模型Time-SVD的RMSE分布曲线接近一条直线,说明此时维度F的变化对推荐效果的影响不大,在参数选取的过程中可以减少对维度F值得考虑。通过三种模型分布曲线的对比我们可以发现考虑偏置项和时间信息的Time-SVD模型分布曲线位于最低位置,相同维度F条件下MAE和RMSE取值均最小,验证了实验中保持相同参数设置的条件下,Time-SVD模型提高了预测的精度和准确性,提高了推荐结果的质量。(2) 学习速率α对算法性能的影响 学习速率控制模型迭代过程中参数变化的快慢,其大小直接关系到模型最后预测结果的准确性。本次实验采用固定隐特征向量F=100,正则项系数λ保持不变,通过改变迭代次数n观察不同模型下学习速率的变化情况,如图3、图4、图5所示。观察图3图4可以看出,模型Base-SVD和模型Bias-SVD在迭代次数从5到760之间变化时,均方根误差RMSE和平均绝对误差MAE均经历取值大幅度减少直到某一确定迭代次数后取值趋于稳定,说明这两种模型的迭代次数到达确定值后,预测误差和推荐效果也趋于稳定,最优的学习速率较容易寻找。对于模型Bias-SVD,学习速率从0.001到0.007变化的过程中,均方根误差RMSE和平均绝对误差MAE均保持相对平稳的状态,变化数量级在10-4左右,说明模型Time-SVD在实验范围内学习速率对预测误差的影响不大,对推荐结果的准确性影响较小,此模型具有很好的健壮性。在迭代次数和学习速率相同的情况下,模型Time-SVD的均方根误差RMSE和平均绝对误差MAE均小于其他两种模型,说明模型Time-SVD的预测结果误差较小,推荐结果的准确性得到了提高。

4 结 语

本文研究了隐语义模型的改进算法Time-SVD在

高校图书馆图书个性化推荐中的应用,该算法基于矩阵分解的隐语义模型与时间信息的融合,首先运用随机梯度下降法求解用户-项目评分矩阵,其次针对冷启动问题提出一种改进的解决策略。另外本文在和Base-SVD算法、Bias-SVD算法的实验比较中对隐特征维度和学习速率对不同模型的影响也进行了简要分析。实验结果表明,Time-SVD在个性化推荐问题上,较其他算法具有更好的寻优性能、更快的收敛速度和更准确的推荐效果。

参 考 文 献

[1] 朱扬勇,孙婧.推荐系统研究进展[J].计算机科学与探索,2015,9(5):531-525.

[2] 孟祥武,刘树栋,张玉洁,等.社会化推荐系统研究[J].软件学报,2015,26(6):1356-1372.

[3] 吴雄峰,贾年.基于用户特征和时间效应的协同过滤算法[J].现代计算机,2016,4(10):21-24.

[4] 周璐璐.融合社会信任关系的改进推荐系统[J].计算机应用与软件,2014,31(7):31-35.

[5] 项亮.推荐系统实践[M].北京:人民邮电出版社,2012.

[6] 李琳娜,江雪琴.推荐系统中的隐语义模型研究[J].情报工程,2016,2(4):30-39.

[7] 张玉连,袁伟.隐语义模型下的科技论文推荐[J].计算机应用与软件,2015,32(2):37-40.

[8] 邓卫钊.随机梯度下降和对偶坐标下降算法的研究与应用[D].河北:燕山大学,2016:13-17.

[9] 王升升,赵海燕,陈庆奎,等.个性化推荐中的隐语义模型[J].小型微型计算机系统,2016,37(5):881-889.

[10] 鲁权,王如龙,张锦,等.融合邻域模型与隐语义模型的推荐算法[J].计算机工程与应用,2013,49(19):100-139.

[11] Xiang L,Yang Q.Time-Dependent Models in Collaborative Filtering Based Recommender System[C]//Ieee/wic/acm International Joint Conferences on Web Intelligence and Intelligent Agent Technologies,2009.Wi-Iat.IEEE,2009:450-457.

[12] 刘恒友.基于时间效应的推荐算法研究[D].哈尔滨:哈尔滨工业大学,2013:21-34.

[13] 刘建国,周涛,汪秉宏.个性化推荐的研究进展[J].自然科学进展,2009,19(1):1-15.

[14] 郑丽姣.个性化推荐技术在高校数字图书馆中的应用研究[D].湖南:湖南科技大学,2015:27-32.

[15] 胡堰,彭启民,胡晓惠.一种基于隐语义概率模型的个性化Web服务推荐方法[J].计算机研究与发展,2014,51(8):1781-1793.

猜你喜欢
语义矩阵维度
真实场景水下语义分割方法及数据集
理解“第三次理论飞跃”的三个维度
认识党性的五个重要维度
浅论诗中“史”识的四个维度
多项式理论在矩阵求逆中的应用
“吃+NP”的语义生成机制研究
矩阵
矩阵
矩阵
情感形容词‘うっとうしい’、‘わずらわしい’、‘めんどうくさい’的语义分析