基于图注意力网络的信息级联外源因素建模研究

2022-06-21 07:47杨彩飘李轩涯
中文信息学报 2022年5期
关键词:级联外源注意力

杨彩飘,鲍 鹏,李轩涯

(1.北京交通大学 软件学院,北京 100044;2.百度在线网络技术(北京)有限公司,北京 100085)

0 引言

随着互联网的发展,社交媒体正逐渐成为人们不可或缺的沟通媒介,用户传播信息时倾向于利用在线社交网络共享内容。受电子商务、金融等行业的催化,社交网络中的用户关系链庞大且复杂,裂变式的演变过程导致信息传播动态极其复杂又富有变化,引起了众多研究者的兴趣。

分析社交网络中信息传播过程的潜在规律,预测信息未来的发展趋势,对病毒营销、谣言检测和发现意见领袖等多个领域的发展具有重大意义。针对社交网络中的传播级联,现有研究从多个角度对其进行分析与挖掘,如社区发现[1]、影响力最大化[2]、流行度预测[3-4]、参与节点预测[5-6]等。

本文研究传播节点预测任务,利用可观测的级联信息构建高性能的传播模型,预测参与传播过程的下一个节点。如图1所示,当给定观测序列(A,B,C,D,E)时,利用模型能够预测下一个参与级联的节点为任意节点的概率,依据概率得出最终预测结果,即t6时刻最可能参与级联传播的节点为F。

图1 信息传播中预测下一个参与节点

早期的传播级联预测模型将信息级联的转发过程看作独立事件,假设信息传播过程中存在先验模型,如独立级联模型和线性阈值模型[2]。此类方法有较多扩展的变体,广泛应用于影响力最大化研究[7]。然而,此类方法的有效性在很大程度上取决于潜在传播模型的假设,依赖于预先设定的信息传播概率及模式,在实践中很难指定或验证,实用性在一定程度上受限。因此,尽管此类方法能够描述信息传播过程,具有较好的可解释性,但不适用于级联预测。

研究人员试图从现有的级联数据中学习传播模型,依赖特征工程来预测节点的激活概率,例如用户节点的社会角色[8]、传播内容[9]和用户节点的交互[10]。此类模型在预测性能上有显著提升,但显式的特征工程需要大量的人工成本和广泛的领域知识,存在一定的局限性。

近年来,随着深度学习技术的蓬勃发展,新的研究工作将级联看作按激活时间排序的节点序列,将级联预测问题表述为序列预测任务,并探索历史传播信息对未来传播趋势的影响。作为序列建模最具代表性的工作,循环神经网络[11](Recurrent Neural Network, RNN)被广泛用于序列预测任务。现有的研究工作中较为常用的序列模型一般为RNN的变体,如长短时记忆网络(Long Short Term Memory,LSTM)和循环门控单元(Gate Recurrent Unit,GRU),有效地建模了历史传播信息对级联预测的潜在影响。

然而,仅靠序列模型无法准确地识别和预测信息传播的方向,节点自身特征、节点间的联系等底层结构信息也对级联预测有至关重要的作用。大多数现有工作忽略了结构信息,尽管文献[12-13]等关注到将序列信息与结构信息整合起来进行建模,但其所采取的结构上下文提取方法忽略了邻居节点对节点影响的差异性,无法有效地衡量节点间的连接紧密程度。因此,本文提出利用多头注意力机制将级联传播的结构信息与节点的特征表示结合起来,提升预测性能。

大多数的级联预测模型假设信息只通过底层社交网络的关系链从节点传递到节点,忽略了社交网络外源因素对信息传播的影响。作为信息传播的渠道,报纸、电视台和在线新闻网站等主流媒体并未在互联网的极速发展态势下消亡,而是承载了传播过程中的网络外效应。文献[14]中发现Twitter中只有71%的信息量可以归因于网络传播,其余29%由外部事件和网络外部因素造成。因此,本文利用卷积神经网络捕捉了信息传播过程中信息级联本身受外部因素的影响,同时建模个体受网络外源因素影响后的信息接收程度,构建了统一模型来刻画社交网络图结构与外源因素对信息传播过程影响。

本文提出基于图注意力网络的外源因素建模的信息传播模型EFAT(External Factors Modeling Based on Graph Attention Network)。采用图注意力机制获取传播级联的结构信息,并将其融入节点的特征表示。通过一维卷积神经网络学习到外源因素对信息级联传播的影响,并采用循环神经网络建模历史传播路径。最后,考虑到个体受外源因素的影响程度不同,预测下一个参与级联的节点。在Twitter、Douban和Memetracker三个真实数据集上的实验表明了本文所提模型相较目前其他模型较优的预测能力。

1 研究现状

近年来,随着深度学习技术的发展,利用循环神经网络模型自动学习历史传播路径表示序列进行级联预测的方法被提出,此类方法不需要预先设定基础的传播模式,显著提升了预测性能。Du等[15]首次提出将循环神经网络与预测事件到达的点过程结合起来的RMTPP模型。Wang等[11]扩展了标准的LSTM模型,提出TopoLSTM方法以学习信息传播路径中的动态拓扑来感知节点嵌入。Wang等[16]构建了CYANRNN模型,利用coverage机制解决传播序列中的交叉依赖问题。Islam[6]等结合表示学习技术和注意力机制来高效利用转发时间戳信息,提出DeepDiffuse模型来预测传播级联中下一个感染的用户和时间戳。Zhuo等[17]提出将参与传播过程的用户嵌入到固定的维度空间,并利用生成对抗网络学习用户表示,利用向量相似度预测下一个用户。

大多数基于传播路径的方法旨在探索历史传播序列如何影响未来的传播趋势从而顺序预测传播用户,但此类方法不考虑社交网络的结构信息,很难准确地识别和预测信息流的方向。最近一些研究工作开始探索从社会关系的角度提高预测性能。Wang等[12]提出SNIDSA模型结合信息传播序列信息和社交网络图的结构特征,并采用基于RNN的框架来对历史传播序列进行建模。Yang等[13]利用结构上下文提取方法,将节点的二阶邻居信息融入到节点表示,并利用强化学习技术构建统一模型同时预测微观和宏观任务。Wang等[18]提出分层注意力网络,利用两个注意力机制分别建模用户级别的非序列依赖及序列级别的时间依赖。

现有的级联预测模型未考虑到外源因素对级联演化过程和用户偏好的影响。同时,现有模型无法高效地提取社交图结构中隐含的结构信息和用户的潜在特征。本文利用图注意力网络提取社交图的结构信息,通过循环神经网络高效地获取传播过程中的隐含信息,并从级联和用户两个层面考虑外源因素对级联预测的影响。

2 基于图注意力网络的信息级联外源因素建模方法

2.1 问题定义

信息传播过程中的级联通常表示参与一条信息转发的用户序列。给定用户集合V,社交关系E,则用户间的底层社交图表示为G=(V,E)。利用C表示级联的集合,则C={c1,c2,…,cm},其中,m为数据集中的级联总数。

针对每条级联ci∈C,用二元组序列集合来表示,即ci={(v1,t1),(v2,t2),(vj,tj),…,(vn,tn)}。其中,n代表级联的大小(即级联的转发次数),vj是V中的节点,tj是转发的时间戳,(vj,tj)表示用户vj在tj时刻参与级联的转发过程,且tj

级联预测的任务是预测下一个参与级联的用户,根据上述定义可将问题形式化为: 给定参与级联的用户序列{(v1,t1),(v2,t2),…,(vn,tn)},预测tn+1时刻参与级联转发的用户vn+1。

2.2 模型框架

现有的基于循环神经网络的序列模型通常关注获取传播序列的长期依赖关系,从真实的序列出发预测传播级联的趋向。大多数方法忽略了底层的社交图结构对信息传播的潜在影响,尽管少数方法考虑到利用图结构信息,但其采用的基于结构上下文提取等方法无法有效地衡量节点间的连接紧密程度,难以获取有效的结构特征。本文提出利用图注意力网络[19](Graph Attention Network, GAT)充分考虑不同相邻节点的不同权重,有效提取传播级联中节点的结构特征。

整体的模型框架如图2所示。首先,依据给定的传播用户序列确定观测序列中参与级联的节点。初始化节点的特征表示,利用已知的底层图结构得到邻接矩阵,采用图注意力网络对特征表示和邻接矩阵进行图卷积操作,得到含有级联结构信息的节点特征表示。将节点特征向量输入到长短时记忆网络中,提取级联序列中的时序依赖关系。利用多个一维卷积核对级联序列的时序信息进行卷积,能够捕获不同外源因素对信息级联传播过程的影响。通过注意力机制将时序依赖和外源因素影响结合,得到整体级联表示,利用softmax层进行映射,得到每个节点的预测概率。最后,依据每个节点受外源因素的影响程度不同,将预测概率与影响因子相乘,得到最终的预测节点。

图2 EFAT模型框架

2.3 基于图注意力网络的特征表示

级联序列的演化过程不仅依赖参与节点的时序特征,也受底层社交图的结构特征的影响。本文利用图注意力网络将结构特征与节点的特征表示相结合,最终得到带有隐含结构信息的表示向量。

利用社交图G得到图的邻接矩阵A,当节点i与节点j之间存在边时,Aij与Aji的值设为1,其他位置默认设为0。将图中的节点用独热编码(One-Hot Code)进行表示,初始化节点的表示向量。假设社交图中包含V个节点,每个节点的特征向量为hvi,维度为d,hvi∈Rd。

利用线性变换矩阵W∈Rd′×d对节点特征向量hvi进行线性变换,得到新的特征向量h′vi,维度为d′,h′vi∈Rd′,如式(1)所示。

h′vi=Whvi

(1)

针对每个节点,利用注意力机制计算节点间的注意力互相关系数eij,得到节点vj对于节点vi的重要性。a(·)为单层前馈神经网络,将节点的特征向量h′vi和h′vj进行拼接,与向量a∈R2d′计算内积,并采用LeakyReLU作为非线性激活函数。‖表示拼接操作,eij的计算如式(2)所示。

eij=LeakyReLU(aT(h′vi‖h′vj))

(2)

为便于比较,得到注意力互相关系数eij后,利用softmax函数对eij进行归一化,计算两个节点间的注意力权重,如式(3)所示。

(3)

其中,Ni代表节点vi的邻居节点,αij表示节点vi与节点vj之间的权重。

通过对节点的邻居节点进行特征聚合,可以得到节点vi的特征表示向量xvi,如式(4)所示。

(4)

为提升模型的效果和稳定性,采用多头注意力机制学习节点特征表示,K为注意力机制的数目,计算如式(5)所示。

(5)

当利用图注意力网络进行图卷积操作时,底层的社交图结构被采用来聚合邻居节点的特征,因而节点的特征表示中隐含了结构信息,可用于接下来的序列建模。

2.4 基于卷积神经网络的外源因素影响力建模

利用图注意力机制对社交网络结构进行图卷积操作后,获取到更新的节点特征向量。本文采用长短时记忆网络LSTM进行序列建模,利用隐藏层的状态建模历史信息,捕获传播序列的长期依赖关系。式(6)~式(11)展示了LSTM的工作过程。

现有的社交网络信息级联预测方法大多忽略了外源因素对信息传播过程的影响。由于外源因素的不可预测性,全面考虑其种类和数量难以实现,人为地设定外源因素可能存在偏颇。同时,不同外源因素造成的级联传播波动可能存在不同的范围和持续时间,很难确定波动的数量和形状。

本文采用一维卷积神经网络[20]分析传播序列的时序信息,自动提取外源因素对级联传播造成的影响。观察图2中随时间变化的短期转发数量曲线发现,外部因素产生的影响使得曲线存在上升和下降过程,会形成“峰”和“谷”。卷积神经网络能够有效捕捉此类具有平移不变性的局部结构。由于不同因素的影响持续的时间范围不同,需要不同尺寸的卷积核捕捉不同尺度的影响。

根据传播序列的时间戳信息,以T为单位划分时间片,计算每个时间片内的级联转发增量。由于卷积神经网络需要固定大小的输入,取一个长度为k的滑动窗口,利用n个不同大小的卷积核对级联序列进行卷积,填充方式选择same,垂直堆叠卷积结果,得到输出序列C={c1,c2,…,ck},ci∈Rn。

为利用卷积操作捕捉外源因素影响下的历史波动模式,需要将输出序列通过时间维度进行合并。利用注意力机制[21]将不同的注意力权重赋予不同的向量,得到将注意力集中在受外部因素影响的时间段上的输出向量。注意力机制的计算过程如式(12)、式(13)所示。

其中,βi表示输出序列中每个时间段的注意力权重,Vi、Wi和bi均为参数。

得到注意力权重后,卷积操作得到的最终输出向量he如式(14)所示。

(14)

将循环神经网络的输出hs与卷积神经网络的输出he利用注意力机制聚合,能够同时捕捉序列的长期依赖关系与受外源因素的影响程度。聚合后的输出向量hf的计算如式(15)所示。

hf=γshs+γehe

(15)

其中,γs和γe是可训练的参数,分别代表hs与he的注意力系数。

直观上,当个体较为活跃时,其获取信息的渠道较多,更容易受外源因素的影响。因此,获取级联受外源因素的影响状况后,进行节点预测时需要考虑个体对外源因素影响的接收程度。本文将个体不通过社交关系参与的级联数与个体参与的总级联数之间的比值的倒数作为其受外源因素影响的影响因子。

EFAT模型预测下一个参与级联的用户为vi的概率如式(16)所示。

Pvi=λvi*softmax(Wfhf+bf)

(16)

其中,λvi代表用户vi的影响因子。

3 实验

3.1 实验集

本文采用三个公开的真实数据集Twitter、Douban和Memetracker进行实验,数据集的统计数据如表1所示。

表1 数据集的统计信息

Twitter数据集[22]: 记录了2010年10月期间包含URL的推文。每个URL被视为在用户之间传播的信息,按照用户转发URL的顺序形成传播序列。用户的社交图结构由用户之间的关注关系构成。

Douban数据集[23]: 是一个中文社交平台,用户可以更新自己的读书或观影状态,并浏览其他用户的状态。每本书或每部电影被视为传播信息,当用户阅读书或观看电影后,即参与到传播过程中。社交关系为用户间的共现关系,当两个用户参加相同的话题讨论超过20次时,其被考虑为朋友。

Memetracker数据集[24]: 收集了来自在线网站的数百万条新闻报道和博客,并跟踪了最常见的引用和短语,即模因,以分析模因在人与人之间的传播。每一个模因被视为一个信息项,网站的每个URL被视为一个用户,当URL中包含模因时,其参与到模因的传播过程中。由于不同URL之间并不存在任何有意义的关系,此数据集不存在底层的社交图结构。

社交关系数代表社交图结构中用户之间的关系数,由于Memetracker数据集没有底层的社交图,此项值为空。本文随机抽取80%的级联进行训练,10%的级联用于验证,其余10%用于测试。

图3展示了Twitter、Douban和Memetracker三个数据集中级联演化时间的统计结果。不同种类的信息传播模式不同,其所依赖的传播平台也会影响级联的演化时间。Douban数据集中的传播信息为书或电影,不同用户阅读同一本书或观看同一部电影的时间跨度较长,因而其演化时间以天为单位,如图3(b)所示。Twitter和Memetracker数据集分别以小时和分为单位,如图3(a)、图3(c)所示。

图3 三个数据集演化时间统计

3.2 对比方法

为评估模型的预测性能,本文选取了五个最新且最具代表性的级联预测方法进行全面的对比实验。对比方法包含了基于传播序列的模型与基于社交图结构的模型。

TopoLSTM[11]: 基于标准的LSTM模型进行扩展,利用社交网络结构为信息传播路径中的节点构建动态有向无环图,学习一个拓扑感知的用户嵌入来进行级联预测。

DeepDiffuse[6]: 采用嵌入技术和注意力模型来利用转发时间戳信息,该模型可以根据先前观察到的级联序列预测社交网络中下一个参与转发的用户和时间节点。

SNIDSA[12]: 计算所有用户对的成对相似性,并利用注意力机制合并以捕获用户之间的结构依赖,从而提取结构信息。该模型设计了递归神经网络框架对序列信息进行建模,并利用门控机制集成结构信息和序列信息。

HiDAN[18]: 利用注意力机制为用户提取非序列依赖信息,通过门控机制将用户表征与上下文表征结合,采用非参数化的方法建模序列级别的时间衰减效应,并通过注意力机制融合两个层次的信息。

FOREST[13]: 利用结构上下文提取方法,将节点的二阶邻居信息融入节点表示,并利用强化学习将宏观的流行度预测任务与基于RNN的微观预测模型统一起来。本文提出基于图注意力网络的外源因素建模的信息传播模型EFAT将该模型的预测性能与多种方法进行对比。为验证模型的有效性,通过删减外源因素影响力建模部分进行消融实验,得到模型EFAT-GAT。EFAT-GAT模型只利用图注意力网络提取结构信息,并利用基于LSTM的序列模型对传播路径进行建模,通过softmax映射得到每个用户的预测概率。

3.3 实验设置

当给定一条级联序列,预测下一个参与级联的用户时,存在大量的潜在候选用户,可以将其看作一个信息检索任务。信息检索中广泛被应用的评估方法为排名指标,通过对候选用户参与级联的预测概率进行排序,使用平均精度(Mean Average Precision,MAP)和HITS得分两种经典的排序方法进行评估。针对两类评估指标map@k和hits@k,分别设置k的值为10,50和100。 对于超参数设置,隐藏层状态向量和用户特征向量的维数d设为128。学习率初始化为1e-3。训练集的批量大小设置为32。参数由Adam算法更新,β1和β2的分别取值0.9和0.999。多头注意力机制的头数从{2,4,6,8,10,12,14}中选择,最后设置为10。卷积核的大小分别设为{1,3,7,11}。Twitter、Douban和Memetracker三个数据集上的滑动窗口k分别设为1h、24h和3min,时间片T分别设为10min、3h和1min。根据验证集上的性能选择最佳参数,并在测试集上进行评估。

3.4 实验结果及分析

表2、表3和表4分别展示了所有方法在Twitter、Douban和Memetracker三个真实数据集上的实验性能,验证了模型的有效性。

表2 Twitter数据集的实验结果

表3 Douban数据集的实验结果

表4 Memetracker数据集的实验结果

实验结果表明,在Twitter数据集上,相比FOREST方法,EFAT的预测性能在map@10、map@50和map@100指标上分别提升2.6%、2.9%和3.5%。在hits@10、hits@50和hits@100指标上分别提升10.0%、10.8%和15.0%。在Douban数据集上,相比FOREST方法,EFAT的预测性能在map@10、map@50和map@100指标上分别提升11.0%、14.8%和17.4%。在hits@10、hits@50和hits@100指标上分别提升11.2%、14.1%和16.0%。由于Memetracker数据集中缺少底层的图结构信息,在此数据集上去除掉TopoLSTM与SNIDSA方法。相比FOREST方法,EFAT的预测性能在map@10、map@50和map@100指标上分别提升6.8%、8.0%和8.7%。在hits@10、hits@50和hits@100指标上分别提升4.6%、5.9%和6.7%。

与TopoLSTM、DeepDiffuse、HiDAN相比,EFAT的性能在hits@100和map@100上都有显著的提升。TopoLSTM和DeepDiffuse模型将真实的传播路径建模为序列,忽略了社交网络图结构信息。HiDAN利用两层的注意力机制提取用户的上下文信息及时间衰减效应,实现了较好的模型性能,但其只利用了传播图结构。由于社交网络可以反映用户的社交关系,在一定程度上会指导传播过程。实验结果表明,考虑用户的社交图结构能够提升信息传播中的节点预测性能。

与SNIDSA、FOREST相比,EFAT在三个数据集上的预测性能的评估指标map@100上绝对提升了3%左右,在hits@100上绝对提升了6%左右。SNIDSA和FOREST都利用用户的社交关系来提升级联预测效果,但其所采取的结构上下文提取方法无法有效地衡量节点间的连接紧密程度。同时,在预测传播路径时,它们只考虑将历史传播路径建模为序列模型,并未考虑外源影响因素对级联传播的影响,不足以对复杂的传播行为和用户受外源因素影响下的行为偏好进行建模,预测性能欠佳。

图4中展示了Twitter和Douban两个数据集上的消融实验结果对比,由于Memetracker数据集不存在社交图结构,未将其进行对比。当去除EFAT中外源因素的影响后,EFAT-GAT在各个hits指标上的预测性能均有所下降,但其性能仍优于其他模型,表明利用图注意力网络能够高效地提取底层社交图结构信息辅助级联预测。EFAT-GAT未考虑外源因素的影响,不能很好地捕捉用户受外源因素影响下的行为模式,其预测性能从侧面验证了模型中外源因素建模的有效性。

图4 消融实验结果对比

利用多头注意力机制,EFAT模型的预测性能显著提升。图5 展示了针对Twitter数据集多头注意力机制头数的不同选择对性能的影响。随着多头注意力的头数增加,模型的预测性能不断提高,表明随着注意力头数的增加,模型能够从底层图结构中捕获更加丰富的信息,有利于对级联传播过程进行预测。当使用过多的头数时,过拟合问题会导致模型性能显著下降,因此本文注意力头数设置为10。

图5 Twitter的注意力头数分析

4 结论与展望

本文提出了一种基于图注意力网络的建模信息传播过程中外源因素影响的级联预测模型,高效地利用级联演化过程中的结构信息与外源因素的影响力。利用图注意力机制获取底层社交图的结构信息,采用循环神经网络对传播路径进行建模,从而捕获序列信息。利用卷积神经网络分析时序信息,自动提取外源因素对信息传播过程的影响。最后,考虑个体对外源因素的不同接收程度,预测下一个参与级联的节点。在Twitter、Douban和Memetracker三个真实的数据集上进行实验,结果表明相比其他模型EFAT预测性能较优。

目前的研究工作通常考虑单个级联的传播过程,可进一步探索多个级联间的相互作用。通过研究同一话题下的多个级联间或不同话题的两组级联间的相互作用,能够更加深入地分析并挖掘社交网络中信息传播的模式。此外,本研究将利用华为MindSpore框架进一步提升模型运行效率。

猜你喜欢
级联外源注意力
具有外源输入的船舶横摇运动NARX神经网络预测
铀浓缩厂级联系统核安全分析
让注意力“飞”回来
外源添加物对自制生物有机肥保存期的影响
中国环境科学研究院外源污染过程与控制研究室
如何培养一年级学生的注意力
A Beautiful Way Of Looking At Things
外源乙烯对植物中糖代谢路径的调控作用及机制研究进展
整体级联式增压空气冷却器的进气模块
一种改进的脉冲级联分离中间组分