融合标签与内容感知的用户群信息推荐仿真

2022-03-01 01:13赵慧娜李国贞王佳伟

计算机仿真 2022年1期

赵慧娜，李国贞，王佳伟

(1. 河南工业大学漯河工学院，河南漯河 462000；2. 重庆交通大学，重庆400064)

1 引言

在大数据和信息挖掘技术快速进步的同时，网络数据呈现出野蛮增长态势，据估计[1]，2025年的世界数据总量可增长至163ZB。面对体量如此庞大的数据集合，要想快速搜索得到所需信息，必须依赖强大的推荐系统[2]。目前，很多网络应用的后台都有推荐系统的支撑。其中的关键技术就是推荐算法，能够通过数据分析处理得到对于用户有价值的信息。

当前大部分的推荐算法可以归纳成三种。其一是协同过滤[3]，即通过评价数据估计出兴趣信息。随着用户数量的上升，数据的稀疏问题表现的尤为明显。此外，新用户的持续出现也催生了冷启动现象的发生。这些都是约束协同过滤实际性能的重要因素。其二是根据内容推荐，通过内容可以获得关于特征的描述信息，有利于改善稀疏性与冷启动[4]。不同的事物往往会存在特征差异，可是如果分析的内容过于单一或模糊，便有可能引起逻辑混淆，影响推荐精准性。其三是混合推荐，通过前述两种算法融合，或者与其它算法的融合，来获得更好的信息推荐性能。文献[5]通过AlphaMF得到用户的反馈，结合环境完成信息推荐。该算法隶属于协同过滤分类，虽然在冷启动方面有一定优化，但是仍然不能有效解决稀疏性问题。文献[6]根据用户的会话次序构建NARM模型，进而对用户需求进行预测，该算法的问题是模型构建的依据单一，会话过程中的操作顺序并不能完全体现用户需求程度。文献[7]结合了情境与交互动作，同时搭建CRNNs模型，该算法在建模过程中增加了依据信息，问题是交互动作不能替代会话的环境信息。文献[6]和[7]都可以看做基于内容的推荐算法。当一些事物存在局部相似性时，这类算法很难对其进行精确刻画和有效的区分。

本文提出了融合标签与内容感知的用户群信息推荐算法，该算法的优势是：通过内容感知能够获取到更多的标签，加上异构图与GCN特征提取，能够提高标签筛选的精准性；基于评价、影响度、时间、相似度多种关联因素建立偏好模型，拓展了标签比较的宽度。因此，将标签与内容感知结合，既得到了信息推荐的查准性，也提高了查全性。

2 基于内容感知的推荐算法

在内容语料库内，将所有的词采取去重处理，得到的唯一词作为节点，用来组成异构图。将词汇的共现作为边，于是可以得到图G(P，B)，P与B分别表示节点与边的集合。图的边分为两种情况，一种是文本与词的连接，一种是词与词的连接。针对第一种情况，利用TF-IDF来确定加权值。TF代表词频率值；IDF代表逆文本频率值。针对第二种情况，利用互信息来确定加权值。综合边的构成情况，将边的加权值计算公式表示如下

(1)

其中，TF表示某词在文本里的频次；IDF表示TF不小于零的所有文本倒数取对数；PMI(i，j)表示词i和j的互信息，为提高共现词的统计效果，对语料库采取滑窗方式得到PMI(i，j)，公式表示为

(2)

其中，N表示累计滑窗个数；N(i，j)表示同时含有词i与词j的滑窗个数；N(i)表示只含有词i的滑窗个数；N(j)表示只含有词j的滑窗个数。互信息描述的是词i与词j间的语义关联度。如果PMI(i，j)>0，说明词i与词j间具有较高的关联程度；如果PMI(i，j)<0，则说明词i与词j间具有较少的关联程度，或者根本不具有关联性。所以，利用异构文本生成图的时候，应该保证只在关联程度较高的词间构建边。

针对前述构建的图G，很容易得出其邻接矩阵A。把A和单位特征矩阵一起采取卷积处理，通过邻域属性进行编码。其过程可以描述为

(3)

hi=βdtanh(Wx·xi+Wu·ui)

(4)

其中，βd表示第d维隐层的加权系数；Wx、Wu分别表示给定文本和隐藏向量的加权矩阵。GCN网络的最终输出向量表示为

(5)

对网络输出z采取分类操作，利用如下公式筛选得到推荐标签

(6)

其中，Nz表示输出向量z中元素数量。在整个网络训练的过程中，采用交叉熵来作为样本训练的评判依据。于是损失函数设计为

(7)

其中，X表示训练的样本集合；x表示文本内容；L表示标签；p(li|x)表示文本x属于标签li的概率大小。

3 融合标签的信息推荐

3.1 标签偏好

用户的兴趣信息体现在标签的偏好上，如何准确判断用户的偏好，是信息准确推荐的关键。本文首先基于评分与影响来权衡偏好，求解公式表示如下

(8)

由于用户所需信息并不是永恒不变的，因此标签的偏好还需要引入时间因素。根据标签的最近使用时间，可以判断用户对其需求性。最近使用时间越近，说明当前对该标签的兴趣越大。基于该思想，将标签偏好关于时间的加权计算表示如下

(9)

引入时间因素后的标签偏好计算方式更新如下

(10)

其中，ν表示时间整定系数。

3.2 相似度分析

相似度分析的目的是为了搜索到更多的用户群信息推荐依据，本文在相似度分析时，包含了用户和项目两个方面。对于网络用户，根据兴趣可以划分出不同的群体，同一群体内的用户通常拥有类似属性。于是，依靠某用户历史数据搜索出相似用户，相似用户的数据标签便很大程度符合推荐条件。

对于任意用户ui，关于标签选择的属性信息可以描述为Ui=(ci1，ci2，…，cim)。这里的cij为用户ui选择标签lj的频次。由此推导得出群内全部用户的标签选择信息为

(11)

根据标签选择频次，采用Pearson计算ui与uj两用户关于标签的相似度，公式表示如下

Sim(Ui，Uj)=

(12)

(13)

与用户相似度计算一样，根据标签选择频次，采用Pearson计算Ii与Ij两个项目关于标签的相似度，公式与式(12)一样。从而得到项目关于标签的相似度矩阵。

利用相似度得到其对标签偏好的影响为

ΔPre=λ1×P×Ui，j+λ2×P×Ii，j

(14)

其中，λ1与λ2分别为两种相似度的加权系数；P为用户的历史偏好；Ui，j为用户i与j相似度；Ii，j为项目i与j相似度。结合相似度，最终的标签偏好计算公式更新为

Pre′=Pre+ΔPre

(15)

4 实验与结果分析

4.1 实验设置

主要是确定仿真数据集、性能评判方式，以及对比方法。由于用户群信息推荐缺乏成熟的数据集，因此本文通过网络爬取统计得到表1所示的数据。从表中数据可以看出，3491位用户一共选择过38618个项目，搜索到累计8107次的用户朋友关系，同时还包括了其它关系和标签规模。

表1 仿真数据集参数

信息推荐算法的主要性能评判指标就是准确率，是用来描述推荐结果查准性的，其计算公式表示为

(16)

其中，R(l)与R′(l)分别表示通过训练集与测试集获取到的推荐结果。为了防止单纯追求准确而遗漏算法的查全性，实验过程中同时观察算法的召回率，其计算公式表示为

(17)

根据式(16)与式(17)可以看出，Precision与Recall具有彼此约束的关系。如果想提升它们中的任何一项指标，都可以独立完成，但是并不能说明算法的性能绝对提升，只有Precision与Recall指标同时提升才能真正说明算法的真实性能。因此，本文还采用综合指标得到它们的调和性能，计算公式为

(18)

作为用户群信息推荐结果的比对，本文采用SociRank[8]、TLSTM[9]和TTLMF[10]算法。其中，SociRank的特点是结合了项目的焦点、交互关系，以及关注情况来确定偏好；TLSTM的特点是通过LSTM模型训练获取项目主题向量；TTLMF的特点是引入了信任关系与时间因素。

4.2 结果分析比较

在本文提出的信息推荐算法中，对结果影响最大的参数是标签偏好计算公式里的影响程度整定系数μ、时间整定系数ν、以及两种相似度的加权系数λ1与λ2。首先分析这四个参数对推荐结果的影响，确定μ、ν、λ1与λ2变化时，推荐性能的变化情况，从而得到合理的参数值。考虑到加权系数λ1与λ2的和为1，实验过程中只需要观察其中一个参数即可。关于μ、ν、λ1参数对推荐结果的影响如图1所示。

图1 μ、ν、λ1对F-Measure的影响

根据F-Measure曲线的变化趋势可以得到，在μ=1.2、ν=0.1、λ1=0.4、λ2=0.6的时候，F-Measure可以取得最大值。基于该结果确定的参数，继续对算法的推荐性能进行验证。

通过仿真确定本文算法的最佳推荐数量。以往的研究表明，推荐数量受算法影响严重，实验过程中的起始推荐数量从5开始，每次的增加步长设置为5，得到推荐数量变化对推荐性能的影响，结果如图2所示。

图2 推荐数量对推荐性能的影响

根据实验结果，在推荐数量达到30之前，算法的各项指标均呈现上升趋势。在推荐数量为30时，Precision值为0.350，Recall为0.583，F-Measure为0.438。在推荐数量超过30之后，各项指标开始出现下降。依据该结果可以确定，在推荐数量为30时，算法可以获得最佳的推荐效果。

基于数据集的多次重复实验，得到本文算法与各对比算法的推荐结果，如图3所示。根据结果可得，本文算法的Precision指标为0.354，分别比SociRank、TLSTM和TTLMF提高了0.053、0.025和0.013；Recall指标为0.592，分别比SociRank、TLSTM和TTLMF提高了0.041、0.029和0.013；F-Measure指标为0.443，分别比SociRank、TLSTM和TTLMF提高了0.054、0.028和0.014。从数据可以看出，本文算法有效提升了用户群信息推荐的性能。

图3 不同算法的推荐性能对比

5 结束语

针对网络信息过载引发信息推荐难的问题，本文提出了融合标签与内容感知的用户群信息推荐算法。该算法的核心是通过内容感知获得项目特征，形成标签，并利用用户兴趣偏好与标签进行比较，从而得到推荐信息。根据仿真，得到了算法中重要参数和推荐数量对推荐结果的影响，确定了参数和推荐数量的最优值；同时也通过Precision、Recall和F-Measure三项指标的提升，证明本文算法有效提高了信息推荐的准确性，能够对数据稀疏性和新用户介入具有良好的适应性。