基于改进的深度兴趣网络推荐系统研究

2023-08-21 10:51赵华锐于瓅
现代信息科技 2023年12期
关键词:推荐系统

赵华锐 于瓅

摘  要:针对推荐系统中用户兴趣度标签消失问题,在排序层提出一种改进的深度兴趣网络模型。首先,将深度兴趣网络模型应用于视频推荐领域,并在改进的模型中加入平衡因子,有效地解决了在训练过程中用户兴趣度标签消失问题。其次针对推荐系统整体召回率问题,在召回层提出一种混合推荐模型。使用Item2vec模型和贝叶斯个性化排序模型组合成一种混合推荐模型。实验结果显示:改进后的深度兴趣网络和混合模型应用在视频推荐系统中很好地提高了推荐效果。

关键词:深度兴趣网络;混合模型;Item2vec;推荐系统

中图分类号:TP391.3;TP183 文献标识码:A  文章编号:2096-4706(2023)12-0081-04

Research on Recommendation System Based on Advanced Deep Interest Network

ZHAO Huarui, YU Li

(School of Computer Science and Engineering, Anhui University of Science and Technology, Huainan  232001, China)

Abstract: Aiming at the disappearance of user interest tags in recommendation systems, an improved deep interest network model is proposed in the ranking layer. Firstly, the deep interest network model is applied to the field of video recommendation, and a balance factor is added to the improved model to effectively solve the problem of disappearance of user interest tags in the training process. Secondly, to solve the problem of overall recall rate of the recommendation system, a hybrid recommendation model is proposed in the recall layer. The Item2vec model and Bayesian personalized sorting model are combined to form a hybrid recommendation model. The experimental results show that the improved deep interest network and hybrid model greatly improve the recommendation effect in the video recommendation system.

Keywords: deep interest network; hybrid model; Item2vec; recommendation system

0  引  言

在信息爆炸式增长的时代,人们很难从丰富而复杂的信息中获取真正感兴趣的信息。如何快速且精准地从大量信息中获得自己想要的信息就成了关键。随着推荐系统的出现,尤其是个性化推荐成功地解决了该问题。

当前,推荐算法已从传统推荐模型过渡到深度推荐模型,尤其是近几年,随着Wide&Deep[1],深度因子分解机(Deep Factorization Machine, DeepFM)[2],深度兴趣网络(Deep Interest Network, DIN)[3]等多種深度推荐模型的提出,以深度学习为基础的推荐模型逐渐成了主流,并在各领域都取得了很好的推荐效果。

本文立足于视频推荐领域,以电影资源推荐为例,在排序层对深度兴趣网络模型改进,在召回层设计一种混合推荐模型,并结合大数据处理模块实现对推荐系统的整体设计。实验结果表明,改进后的推荐模型与常用的几种模型相比,在精确率、召回率等评价指标上具有明显提升,总体的推荐准确性较好。

1  推荐系统设计原理

本文设计的推荐系统严格遵循模块化设计原则,各模块之间相互独立、耦合程度较低,便于后期的维护以及二次开发。推荐系统整体架构如图1所示。

推荐系统各模块可分为数据处理层、存储层、框架层、应用层。各层主要功能如下。

1.1  数据处理层

主要负责处理客户端的实时数据。本文采用Flume分布式的日志收集系统,对用户的行为日志进行采集,并采用Flink[4]和Kafka[5]流处理工具对实时数据进行流式处理。

1.2  存储层

主要负责存储所有的历史数据和线上实时数据。本文设计的推荐系统采用的是分级存储方式,更好地解决了模型线上服务相应的实时性以及海量用户和物品数据的存储问题。由于Hadoop分布式文件系统(Hadoop Distributed File System, HDFS)特点是容量巨大但访问速度较慢,因此HDFS用来存储所有的历史数据,并采用Spark技术可以保证在离线状态下对特征进行批量处理;采用MySQL关系型数据库,用来存储用户注册登录的信息等,可作为网站的后端数据库;针对客户端的实时数据,采用Redis内存型数据库,保证其访问速度,能够最快地加载线上服务所需要的数据;采用Elasticsearch分布式搜索引擎,提供视频相关信息资源的全文检索功能。

1.3  框架层

主要采用TensorFlow平台完成搭建深度学习模型,并进行离线的训练。采用Spark Mllib技术实现对物品Embedding特征處理,进而完成快速的召回过程,而深度兴趣网络模型则是用来对召回的物品进行精准排序,产生最终的推荐列表。针对模型的线上服务,采用TensorFlow Server,后端可以请求并获取到候选物品的推断结果,并通过模型给出的评分完成对当前候选物品的排序,应用于最终的推荐列表。

1.4  应用层

主要负责前端页面和后端管理。包括用户的登录注册页面、视频详情页面、用户的个人中心页面以及全文搜索页面;后端管理包括用户信息管理、视频信息管理、推荐服务管理以及日志管理。

2  推荐算法模型

推荐系统中通常把推荐模型分为召回层和排序层。召回层主要负责将海量的候选物品迅速地缩小到几百甚至几十量级,因此要求模型结构较为简单;排序层主要负责对召回后的物品进行精准的排序,且使用较为复杂的模型对特征进一步挖掘。

2.1  召回层模型

本文在召回层提出一种混合推荐模型,即Item2vec[6]模型和贝叶斯个性化排序(Bayesian Personalized Ranking, BPR)[7]模型。

Item2vec模型源于自然语言处理领域的Word2vec模型,其本质就是把词序列转换成用户的浏览、评论、购买等序列,因此在视频推荐领域,可以将用户已观看序列或已评分序列生成用户感兴趣的推荐序列。假设Item2vec模型中有一用户u,长度为t,其历史记录为ω1, ω2, ω3, …, ωt,可以得到其优化目标为:

Item2vec模型可以将特征向量转换成如图2所示的神经网络结构,最后需要的Embedding就是向量W对应的每一个行向量。

BPR模型本质是一种排序算法,其核心思想是按照用户对物品的兴趣度进行排序,然后根据优先级的高低,将符合条件的物品推荐给用户。在该模型中,训练数据集形式通常表示为三元组< u, i, j >,指用户u对物品i和对物品j的感兴趣程度。由于BPR模型的特性,用户之间的偏好是相互独立的,用户对不同物品的偏好程度也相互独立。根据贝叶斯公式可以得到:

式(2)中,V和W为矩阵因子,通过最大后验估计对概率P进行优化。其中,>u表示用户u对物品的偏好。对式(2)进一步分解,通过梯度上升法使得矩阵因子收敛,最后可以求得预测值xui = VuWi,从而选择排序值较高的几个物品推荐给用户。

综合Item2vec模型和BPR模型,本文设计出一种混合推荐模型,如图3所示。

在混合模型中,Item2vec具有Embedding特征降维、神经网络复杂度低等特点,可以有效地提高视频推荐场景中物品相似度计算,BPR模型具有相互独立性的特点。因此该混合模型能更好地对用户兴趣度进行计算,并最终在召回层实现高效率的推荐。

2.2  排序层模型

深度兴趣网络模型是阿里巴巴公司提出并应用于广告领域,DIN模型的主要特点是在传统深度模型的基础上融入attention注意力机制,通过计算用户的历史行为记录与候选物品之间的相关程度,获得注意力得分,进而实现个性化的推荐目的。针对用户兴趣度标签消失问题(即用户对一部或几部影片的评分过低,同时该影片的类型属于用户的兴趣标签,上述问题易引发模型的错误判断从而使用户感兴趣的标签消失),本文对DIN模型的改进具体如下。

1)为了使DIN模型适用于视频推荐场景,输入数据的特征分别为Movies ID、Rating、Category ID,它们分别代表某电影的编号、电影对应的评分、电影所属的类别。

2)使用PreLU和Sigmoid作为激活函数。

3)对所有输入特征进行初步的筛选,将可能导致用户兴趣度标签消失的特征集取出,单独并为一类再输入到网络中。

4)基于上述操作筛选出的特征集,在计算用户相似度时加入一个平衡因子λ,用于调节用户的兴趣度标签。原用户兴趣度计算为:

式(3)中,{e1, e2, e3, …, ek}表示用户u的所有历史行为,vA表示为候选物品的特征。加入平衡因子λ之后,用户兴趣度计算为:

改进后的深度兴趣网络模型如图4所示,用户对影片的评分通过Sigmoid函数做二分类处理,评分大于等于3的记为1,小于3的记为0。改进后的深度兴趣网络模型通过注意力机制计算用户的评分序列,最终可得到注意力权重值。

3  实验与分析

3.1  实验配置

实验采用64位Windows 10操作系统,8核16线程,16 GB内存,处理器为Intel Core i7-8550U。

3.2  数据集

数据集采用美国明尼苏达大学Grouplens研究组开源的Movielens-1M数据集,该数据集包含用户数6 040个,项目数4 000个,评分数1 000 209个,每个用户至少对15部以上的影片进行评分。

3.3  评价指标

本文采用的评价指标有准确率(Accuracy),PR AUC和ROC AUC。其中准确率指的是分类正确的样本数占总样本数的比例,P表示精确率(Precision),R表示召回率(Recall)。准确率的公式可以表示为:

其中TP表示真正例,FP表示假正例,FN表示假负例,TN表示真负例。

精确率指的是分类正确的正样本数占所有被模型判定为正的样本数的比例,精确率的公式可以表示为:

召回率指的是分类正确的正样本数占真的正样本数的比例,召回率的公式可以表示为:

ROC(Receiver Operating Characteristic curve)称为“接受者操作特性曲线”,可以反映在几种不同标准下所得到的结果,本文中ROC曲线的横坐标表示FP(假正例),纵坐标表示TP(真正例)。AUC表示位于ROC曲线下方的部分面积大小,AUC的取值在0到1之间,通常值越大表示性能越好。

3.4  实验结果与分析

在相同配置环境下,对比原来的DIN模型与改进后的DIN模型,结果如表1所示,对比结果表明:改进后的DIN模型在多个评价指标上具有明显的提升。

本文将改进后的深度兴趣网络模型与4种常用的深度推荐模型进行对照实验,对比的深度模型分别为Wide&Deep模型,多层感知机(Multi-Layer Perceptron, MLP)模型,神经协同过滤(Neural Collaborative Filtering, Netural CF)模型以及DeepFM模型。采用上述的评价指标,准确率,精确率和召回率测试模型效果,实验结果如表2所示。

根据表2可知,MLP即多层感知机模型,该模型损失值最高,准确率最低,它通常使用反向传播算法计算代价函数的最优化问题。Netural CF即传统的协同过滤算法通过神经网络来实现,传统的协同过滤算法是基于矩阵分解的线性结果,而结合了神经网络模型可以实现非线性的效果,因此性能有了一定提升,但总体效果依旧不理想。DeepFM与Wide&Deep模型均达到了理想的评价指标,而本文改进的DIN模型相比上述两种模型,总体上都有较好的提升,这是因为除了DIN模型本身融入了注意力机制,而且在计算用户兴趣度问题上做了相应的优化,尽可能避免了用户兴趣标签消失。

3.5  最优化参数

通过上述各模型的对比数据,改进后的DIN模型基本达到了预期效果。因此,为了让推荐系统最终的推荐效果能达到最优,需要在参数默认设置的情况下,对局部参数进行调优。

如图5所示,实验中分析了当TOP-K取值不同时,各模型在评价指标上的数据,结果表明:当TOP-K值设置为15时,改进的DIN模型可以达到当前最优的效果。

如表3所示,当TOP-K取值为15时,平衡因子最优取值为0.5。

4  结  论

本文通过对深度兴趣网络的改进与优化,以及在召回层设计使用了混合推荐模型,并结合主流的大数据处理平台应用于视频推荐系统。通过与不同深度推荐模型的对照实验,表明本文模型在离线测试环境下取得了较好的推荐效果,在准确率、精确率、损失值等评价指标上都有一定的提升。其中,在推荐系统整体架构中,给出了具体的实施方案,并详细地介绍了各模块的功能与内在联系;在召回层和排序层的推荐模型中,同样给出了具体的改进和设计方案。通过本文的研究,对于设计与优化视频领域的推荐系统具有较好的参考意义。当然,本文研究依然存在一些不足,如选用数据集的量级不大,对比的推荐模型较少等局限性,后续还需要进一步针对上述缺陷进行研究,后续在工业应用中还需考虑在线的模型测试,进而能够取得更全面真实的推荐效果。

参考文献:

[1] CHENG H T,KOC L,HARMSEN J,et al. Wide & deep learning for Recommender Systems [C]//Proceedings of the 1st Workshop on Deep Learning for Recommender Systems.Boston:Association for Computing Machinery,2016:7-10.

[2] SU R,HUANG Y X,ZHANG D,et al. SRDFM:Siamese Response Deep Factorization Machine to improve anti-cancer drug recommendation [J].Briefings in Bioinformatics,2022,23(2):bbab534.

[3] ZHOU G R,SONG C R,ZHU X Q,et al. Deep Interest Network for Click-Through Rate Prediction [J/OL].arXiv:1706.06978 [stat.ML].(2017-06-21).https://arxiv.org/abs/1706.06978v3.

[4] 赵润发,娄渊胜,叶枫,等.基于Flink的工业大数据平台研究与应用 [J].计算机工程与设计,2022,43(3):886-894.

[5] 张文彬,王春梅,王静,等.基于Spark的有效載荷参数解析处理方法 [J].计算机工程与设计,2020,41(2):587-591.

[6] 刘文竹,黄勃,高永彬,等.Item2vec与改进DDPG相融合的推荐算法 [J].武汉大学学报:理学版,2019,65(3):297-302.

[7] 申艳梅,姜冰倩,敖山,等.基于遗忘函数的均值贝叶斯个性化排序算法研究 [J].计算机应用研究,2021,38(5):1350-1354+1370.

作者简介:赵华锐(1993—),男,汉族,江苏盐城人,硕士研究生在读,研究方向:推荐系统;通讯作者:于瓅(1973—),女,汉族,安徽淮南人,教授,博士,研究方向:数据挖掘、区块链。

猜你喜欢
推荐系统
数据挖掘在选课推荐中的研究
基于用户偏好的信任网络随机游走推荐模型
基于个性化的协同过滤图书推荐算法研究
个性化推荐系统关键算法探讨
浅谈Mahout在个性化推荐系统中的应用
关于协同过滤推荐算法的研究文献综述
一种基于自适应近邻选择的协同过滤推荐算法
UGC标签推荐系统的一种新的标签清理方法
网上商品推荐系统设计研究
基于Mahout分布式协同过滤推荐算法分析与实现