基于特征与域感知的点击率预估方法

2022-03-12 05:55武志昊赵苡积

计算机工程 2022年3期

赵越，武志昊，赵苡积

（1.北京交通大学计算机信息与技术学院，北京 100044；2.交通数据分析与挖掘北京市重点实验室，北京 100044）

0 概述

点击率预估被广泛应用于搜索广告［1-2］和推荐系统［3-4］等领域，有助于企业精准营销和提高投资回报率［5］。点击率预估模型构建的关键在于学习能有效反映用户行为的交互特征。例如，在软件商店中，用户1 偏好下载热门的软件，可构造一阶特征［软件名称］，用户2 经常在吃饭时间下载外卖软件，可构造二阶交互特征［软件名称、时间］，男青年3 偏好射击游戏，可构造高阶交互特征［用户性别、用户年龄、软件名称］。

低阶和高阶的交互特征对于点击率预估具有重要意义，但是原始数据只能获取一阶特征。通常依据专家经验手动设计新特征，以获取有效的高阶交互特征。然而，这种方式需要大量的人工成本和丰富的专家经验。随着因子分解机（Factorization Machine，FM）［6］等机器学习算法的发展，自动获取交互特征成为可能，但是该方法需要遍历所有特征组合，受计算资源的限制，通常只能截取二阶的交互特征。基于深度学习的算法［7-9］因其优异的性能受到了广泛关注，将高维稀疏的特征按照特征类别组织为多个域，经过嵌入层得到每个域内的特征嵌入，最终通过深度神经网络来建模高阶特征交互。尽管这类模型具有优异的性能，但是其未考虑冷启动问题。在推荐系统领域中，冷启动问题通常指包含某特征（如用户或产品）的样本极少，导致模型无法对这部分样本进行准确推荐，该样本分为新特征和“小”特征样本两种。在实际应用中，产品的快速迭代会产生包含“小”特征的样本，例如，在软件商店中，某用户下载了小众软件，从而产生一条点击样本，小众软件即为“小”特征，该样本即为包含“小”特征的样本。“小”特征在模型训练阶段出现次数较少而没有得到充分学习，导致模型对这类样本点击率预估不准确。虽然“小”特征在训练阶段出现次数少，但是数量较庞大，如果能准确预估该类样本将产生较高的经济效益［10］。

在点击率预估的实际场景中（如搜索广告、推荐系统），冷启动问题面临诸多挑战［11］。常见的解决方法是通过设计粗粒度的特征交互，获得在极少数样本中更丰富的“小”特征信息。域是特征按照类别划分形成的粗粒度概念，研究人员［12-14］通过引入域交互以更准确地建模特征交互，他们指出，在不同域下的特征交互通常存在差异问题，例如，性别域的特征与软件类型域的特征有强的交互，然而与设备类型域的特征交互相对较弱，显然特征交互的强度受域的影响，所以引入粗粒度的域是通过域嵌入的内积建模域交互，并进一步将域嵌入的内积作为特征交互的系数以体现交互的强度。然而在该类引入粗粒度交互的方法中，因每个样本的域嵌入以及域交互的操作均相同，导致域交互均相同，从而无法捕获样本对域的独特偏好。例如，用户小明喜欢看视频，那么小明偏好［软件类型］域；用户小红喜欢评分高的软件，则小红偏好［软件评分］域；用户小兰喜欢免费软件，那么小兰偏好［是否免费］域，因此粗粒度的域交互需要进行个性化建模。

本文提出一种基于特征与域感知的点击率预估方法FF-GNN。该方法分别通过基于图神经网络的交互模块建模细粒度的特征交互和粗粒度的域交互，利用图神经网络的权重计算模块交叉引用低阶信息，并通过注意力机制融合两个交互模块的结果，从而提升点击率预估的准确度。

1 相关工作

研究人员采用机器学习算法逻辑回归（Logistics Regression，LR）进行点击率预估，该方法不仅无法交互特征且没有泛化能力，从而难以满足实际应用需求。为解决该问题，研究人员［6］开发了基于嵌入的方法，将高维稀疏的输入嵌入成低维稠密的隐向量，提高模型的泛化能力。基于嵌入的方法分为基于FM 的方法和基于神经网络的方法。

1.1 基于FM 的方法

FM［6］方法是通过构建特征隐因子，并将其内积作为交叉特征权重，以有效建模成对的特征交互，但是其计算复杂度高［15］。研究人员对FM 进行改进［12-14］，引入域信息建模特征交互的差异性，例如FFM［12］为特征构建多个隐因子，其与不同域内的特征交互时，使用不同的嵌入计算交叉特征的权重，强调域对特征交互产生的影响，IFM［13］通过构建域交互来计算特征交互的权重，然而该方法中每个样本得到的域交互均相同，无法进行个性化建模。也有研究人员［16］认为交叉特征并非同等重要，因此提出了一些模型。例如AFM［16］引入注意力网络来学习交叉特征的重要性，忽略不重要甚至无用的特征。然而，这些方法只能建模二阶交叉特征，其性能难以满足点击率预估任务的需求。

1.2 基于神经网络的方法

由于神经网络能建模更复杂的特征交互，而特征交互是点击率预估算法的核心，因此基于深度神经网络的点击率预估算法成为研究热点［7］。FNN［8］通过FM 预训练得到特征嵌入后，并将其输入到深度神经网络（Deep Neural Network，DNN）以建模高阶交叉特征。PNN［9］引入新的特征交互操作——乘法层。NFM［17］首先通过双线性层建模二阶交互，然后通过全连接神经网络建模高阶交互。尽管上述方法能成功地对高阶交叉特征进行建模，但是对低阶交叉特征的表达受到限制，从而降低了点击率预估的性能。针对该问题，研究人员提出能够同时建模低阶和高阶交叉特征的方法。Wide&Deep［18］并行组合了FM 和DNN，同时对低阶和高阶交叉特征进行建模。DeepFM［19］两大模块FM 和DNN 共享输入，不依赖特征工程。这些方法通过DNN 隐式的方式建模高阶交叉特征，缺乏良好的解释性。因此，通过设计特殊的网络结构，尝试对交叉特征进行显式建模，使其更具可解释性。DCN［20］构建交叉网络，xDeepFM［21］构建压缩交互网络结构，InterHAT［22］通过构建层次注意力以显式建模交叉特征。这类方法需要根据专家经验指定交叉特征的阶数。随后AFN［23］方法被提出，其核心是对数变换层，不同于之前的方法，它能够从数据中自适应学习表现最佳的不定阶交叉特征。此外，还有一些模型在特征交互之前，通过计算特征重要性筛选特征。例如FiBiNET［24］通过压缩和激励网络（Squeeze-Excitation Network，SENET）学习特征重要性，并对特征进行筛选。FGCNN［25］通过卷积神经网络（Convolutional Neural Network，CNN）过滤不重要的特征，生成新的特征以进行交互。随着图神经网络（Graph Neural Network，GNN）在许多领域的成功应用，Fi-GNN［26］首次将多特征域表示为图结构，并使用GNN 学习复杂的交叉特征。尽管基于神经网络的方法具有良好的性能，但是仍存在一定不足。该方法首先将高维稀疏的特征按照特征类别组织为多个域，然后经过嵌入层得到域特征嵌入，最后通过网络结构建模特征交互。然而这类方法在样本数较少的场景中难以取得理想效果，点击率预估的精度较低。

2 FF-GNN 方法

为了便于形式化描述，本文给定输入特征的域为F，域特征为f，特征值为ν。点击率预估问题定义X={F1：f1：ν1，F2：f2：ν2，…，Fn：fn：νn}，其中Fi、fi、νi分别为样本第i个域及该域对应的特征和特征值，预估用户点击商品的概率。

本文提出一种使用GNN 感知特征和域的点击率预估方法FF-GNN，图1 所示为该模型的结构。模型包括嵌入模块、交互模块、融合模块、点击率预估模块4 个部分。首先，嵌入模块将输入的特征与域编号映射为稠密的特征嵌入Ef与域嵌入EF。其次，交互模块通过GNN 建模特征和域的交互。特征GNN 和域GNN 节点状态分别初始化为Ef和EF，并通过交叉引用彼此信息计算特征图和域图邻接矩阵，随后聚集更新多次迭代以得到高阶交叉特征H1、H2。最后，融合模块将高阶交叉特征H1、H2和低阶的嵌入H0、H3通过注意力机制融合，并利用点击率预估模块得到点击率。

图1 FF-GNN 模型结构Fig.1 Structure of FF-GNN model

2.1 嵌入模块

嵌入模块包括特征嵌入层和域嵌入层2 个部分。假设给定样本X=｛设备：平板；年龄：18；性别：男；待下载应用：音乐播放器｝。其中，冒号（：）前面的信息代表域，冒号后的信息代表该域下的具体特征。

特征嵌入层将样本中的特征转换成低维稠密的特征嵌入。特征嵌入层对X中的特征进行one-hot 编码，并转换为二值向量，如：

因特征总数（|f|）较大，导致二值向量高维稀疏，从而计算效率低。本文通过特征嵌入层将二值向量转换为稠密的低维向量，获得特征嵌入Ef=，其中n是样本中的特征数量，是样本的第i个特征对应的嵌入。类似地，域嵌入层将样本中的域[1，2，…，n]（n=4）转换为域嵌入EF=。

2.2 交互模块

交互模块是模型的核心组件，包括特征交互和域交互两个部分。特征交互与域交互均与GNN 中的节点交互具有对应关系。特征交互可以转化为图中的节点交互，特征交互的强度可以转化为图中节点间的边权。因此，本文采用GNN 中的门控图神经网络（Gated Graph Neural Network，GGNN）［27］构造交互模块，以捕获特征之间或域之间的结构信息。GNN 是一种直接作用于图结构上的神经网络，首先将特征信息和域信息转换为图结构，然后将其输入到GNN 中进行交互。

2.2.1 特征图与域图的构建

特征图和域图的构建步骤如下。

1）特征图。首先将样本中的特征构建成特征图Gf=(Vf，Edgef)，其中节点νi∈Vf对应样本中的第i个特征，节点数量|Vf|=n，边代表特征节点之间具有联系。由于每对特征之间都存在隐藏关系，因此Gf是全连接图。与标准的神经网络不同，GNN 中的每个节点保留一个状态信息，节点聚合邻居的状态并更新自身状态，经过多次迭代后，节点能够收集任意跳的邻居信息。此时，特征交互转化为节点之间的交互，通过边交互及边的权重反映特征交互的作用强度。给定第i个节点的初始状态，所有节点的初始状态集合为。

2）域图。为了挖掘域之间的隐藏关系，本文构建单独的域嵌入，并用GNN 建模域之间的交互。将输入中的域表示为图结构，构建域图GF=(VF，EdgeF)，其中节点νi∈VF对应样本的第i个域，节点数量|VF|=n。由于每对域之间的隐藏关系均不能忽略，因此GF是全连接图。此时域交互转化为节点之间的边交互，边的权重反映域交互的作用强度。同样地，给定第i个节点的初始状态，，所有节点的初始状态集合为。

图神经网络迭代t层后，特征GNN 和域GNN 分别得到高阶交互特征

2.2.2 聚集（交互）过程

GNN 的节点状态经过初始化后，开始迭代聚集邻居节点状态并更新自身状态，具体过程如图2所示。

图2 第t 层GNN 节点v4 更新过程Fig.2 The node v4 updating process in the t-th step of GNN

首先当前节点ν4通过不同的权重和转换方式将邻居节点的信息聚集到一起，然后将聚集结果及t-1层自身信息输入到GGNN，更新ν4的信息，以得到第t层节点状态。假设已经求得第t-1 层节点的状态信息，并进行第t层的操作。当前节点νi的聚集结果表示为邻居节点的状态信息之和，如式（1）所示：

其中：νj为νi的邻居节点；W为将节点的状态信息转换到另一空间的转换函数；A∈Rn×n为特征图的邻接矩阵。邻接矩阵和转换函数决定特征交互的方式。

1）邻接矩阵

（1）特征图。GGNN 的邻接矩阵是二值（0-1）邻接矩阵，仅反映特征之间是否有关系，而无法体现作用强度，从而难以满足特征个性化交互的需求。为区别刻画特征之间的作用强度且反映不同域内特征交互的差异性，本文根据特征对应域的嵌入计算得到特征之间的交互强度，如式（2）所示：

其中：为节点νj、νi之间的边权；Fq、Fp、Fr分别为节点νj、νi、νk对应的特征所属的域；LeaklyRelu 为激活函数；Wwf为转换矩阵。相应地，特征图的加权邻接矩阵如式（3）所示：

（2）域图。通过注意力机制计算域图的邻接矩阵，这样不仅实现域交互的个性化建模，还获得了粗粒度的高阶交互，如式（4）所示，域图的邻接矩阵如式（5）所示：

其中：为节点νj、νi之间的边权；fq、fp、fr分别为节点νj、νi、νk对应的特征；LeaklyRelu 为激活函数；WwF为转换矩阵。

2）转换函数

由于交互过程复杂，除了区别设计每对节点间的边权以外，还需要为每条边分配独特的转换函数。该操作导致模型的参数量与特征图的边数量成正比。为减小空间和时间复杂度，本文参考文献［26］提出一种边分配转换函数方法。从图2 可以看出，通过为每个节点νi分配输出转换矩阵和输入转换矩阵，使得转换函数的参数量与图的节点成正比，既保证了每条边转换函数的独特性，又降低了参数量。特征图和域图的转换函数形式一致，从节点νj到νi的边和从节点νi到νj的边的转换函数如式（6）、式（7）所示：

相应地，特征图和域图的邻接矩阵如式（8）、式（9）所示：

2.2.3 更新过程

当前节点νi得到第t层聚集结果后，还需更新自身状态信息。GGNN 的节点将第t层聚集结果及第t-1 层的自身状态作为门控循环单元（Gated Recurrent Unit，GRU）的输入，通过更新得到第t层节点状态，特征图和域图的更新过程分别如式（10）和式（11）所示：

为了使网络中的信息前后传播更加顺畅以及网络训练更有效，通常会引入残差连接，即加入第1 层的节点自身状态，因此，式（10）和式（11）分别可写为式（12）和式（13）：

GNN 迭代更新至T层后，可以获得图的最终状态信息，每个节点的最终状态都可以看作高阶交叉特征。节点与各个邻居节点完成交互，并更新了自身的状态信息，从而实现了特征级别复杂的交互，捕获特征之间的隐藏关系。

2.3 融合模块

融合模块是通过注意力机制将同类型的交叉特征相融合，并作为点击率预估层的输入。在特征GNN 和域GNN 迭代T层后，图产生的高阶交叉特征分别表示为每个高阶交叉特征对最终预测结果的贡献不同，其权重系数通过注意力机制自适应学习。以特征GNN 的特征为例，第i个高阶交叉特征的权重系数如式（14）所示，高阶交叉特征的融合结果如式（15）所示：

其中：wc∈R1×d，ww∈Rd×d是转换函数；σ为Relu激活函数。类似地，域GNN 网络中高阶交叉特征的融合结果记为H2∈Rd。

为了挖掘低阶特征中的隐藏信息，本文通过注意力机制分别获得特征嵌入Ef与域嵌入EF的融合特征，记为H0∈Rd，H3∈Rd。因此注意力融合层最终输出为Hres=[H0；H1；H2；H3]，Hres∈R4d。

2.4 点击率预估模块

点击率预估层由2 个多层感知机（Multi-Layer Perceptron，MLP）组成，分别用于计算Hres中每项的得分及其贡献，然后将其相加得到预估分数，具体的计算过程如式（16）、式（17）所示：

2.5 训练

模型的损失函数是点击率预估任务中常用的对数损失（Logloss），如式（19）所示：

其中：N为训练样本的数量；yi、i分别为索引i样本的真实标签和预测标签。模型的最优参数通过均方根反向传播法（RMSProp）对最小化损失函数进行求解。

3 实验与结果分析

在公开数据集Criteo 和Frappe 上，本文通过特征和域感知的GNN 方法FF-GNN 与其他方法进行对比，以验证其可行性与有效性。通过消融实验和参数敏感性实验分别探究FF-GNN 中各模块的作用及重要参数对结果产生的影响。

3.1 数据集

实验采用Criteo 和Frappe 两个公开的数据集来评估FF-GNN 的性能。Criteo 数据集广泛用于点击率预测行业，它包含1×106用户在展示广告上的点击记录，72 998 个特征和39 个不同的域（13 个连续特征域和26 个类别特征域）。Frappe 数据集是移动应用程序检索的上下文相关应用程序使用日志，包含2.88×105条日志记录，5 382 个特征和10 个类别特征域，数据集的具体信息如表1 所示。

表1 数据集描述Table 1 Datasets description

本文统计了2 个数据集中包含特征最多的域的特征分布，用于解决冷启动中“小”特征样本的问题。以Frappe 数据集为例，每个域包含的特征数量分别为｛957，4 082，7，7，2，3，2，9，80，233｝，由于特征数量最多的域有可能包含“小”特征，因此取第2 个域（应用软件编号，记作APP ID）做进一步分析。本文统计Frappe 数据集包含不同比例APP ID 的样本数量及样本比例，如图3（a）所示。约80%的样本总共包含APP 比例仅为10%，而剩余约20%的样本总共包含的APP 比例为90%，即只有10%的APP 较热门。虽然90%的APP 不热门，但是数量庞大。类似地，在Criteo 数据集上特征最多的域内包含不同比例特征的样本数量以及样本比例，如图3（b）所示，超过80%的样本总共包含20%的特征，而不足20%的样本总共包含80%的特征。

图3 不同比例APP 和特征的样本数量及样本比例Fig.3 Samples quality and sample proportion of different proportiona of APP and features

3.2 评价指标

本文选用点击率预估任务中常用的两个评价指标交叉熵对数损失（Logloss）和AUC。Logloss 衡量预测值与真实值之间的距离，值越小表示模型性能越好。而AUC 被定义为ROC 曲线下坐标轴包围的面积，衡量模型对正负样本的排序能力，值越大表示模型性能越好。

3.3 基准方法

本文对FF-GNN 与以下10 种模型进行对比。

LR：通过对原始特征线性组合进行点击率预估，通常被用作点击率预估任务的基线。

FM：经典的点击率预估方法，将特征隐因子的内积作为二阶交叉特征的权重系数。

FFM：在FM 的基础上，建模二阶交叉特征时关注了特征域的影响。

Wide&Deep：首个结合低阶特征和高阶交叉特征的模型。

DeepFM：基于Wide&Deep 架构，共享了低阶模型和高阶模型的输入。

DCN［20］：构建特殊的交叉网络显式建模特征交互。

xDeepFM［21］：构建压缩交互网络显式建模特征交互。

FiBiNET［24］：使用压缩-激励网络（SENET）机制学习特征重要性，且利用双线性函数学习特征之间的交互。

AFN［23］：核心是对数变换层，从数据中自适应学习任意阶数的交叉特征。

Fi-GNN［26］：首个通过GNN 建模特征交互的模型。

3.4 实验设置

所有的实验均通过Tesla K80 的GPU、TensorFlow框架实现，实验分别通过验证集和RMSProp 优化器对最佳超参数和最佳模型参数求解。在Criteo 数据集上，特征和域嵌入的维数d=10，批尺寸为128，特征图和域GNN 的迭代层数T=3，学习率为0.000 5。在Frappe 数据集上，特征和域嵌入的维数d=64，批尺寸为128，特征图和域GNN 的迭代层数T=3，学习率为0.001，L2 正则化系数为0.001。

3.5 实验结果分析

在Criteo 和Frappe 数据集上不同模型的评价指标对比如表2 所示。

表2 不同模型的评价指标对比Table 2 Evaluation indexs comparison among different models

传统模型LR 表现最差，无法满足点击率预估任务的需求，需要挖掘交叉特征。因此基于FM 模型的评价指标普遍优于LR 模型，且成功地对特征的二阶交互进行建模，从而提高点击率预估任务的准确度。此外，在基于FM 的模型中，FFM 的性能指标较FM大幅提升。这是因为FFM 为特征建立多个隐因子，能够捕获域对特征交互的影响。

基于DNN 模型的整体性能优于上述两类模型。神经网络具有强大的特征提取能力，能够挖掘特征之间复杂的关系，从而发现有效的交叉特征，大幅提升了模型性能。此外，基于神经网络的模型通常结合低阶和高阶的交互特征，捕获更丰富的信息，因此效果较好。在基于DNN 的模型中，Wide&Deep 和DeepFM 模型性能较其他模型差，其通过全连接神经网络建模高阶交叉特征，网络结构较为简单且缺乏解释性。其他模型均构建较复杂的特殊网络结构，结果具有可解释性且更可靠。

基于GNN 的模型将特征转换为图结构后，通过GNN 建模复杂的交互，以提高模型的预测能力。尽管Fi-GNN 的性能比AFN 差，但是优于LR、基于FM 的模型以及基于DNN 的模型。实验结果验证了GNN 结构在点击率预估任务中的可行性和有效性。

在Criteo 和Frappe 数据集上，本文所提模型FF-GNN 的AUC 指标较同类型方法Fi-GNN 分别提升0.52 和0.85 个百分点，较所有对比模型中的次优模型AFN 和FiBiNET 在两个数据集上分别提升了0.43 和0.24 个百分点，FF-GNN 的Logloss 指标在所有对比模型中分别达到最优和次优。FF-GNN 使用GNN 建模特征交互，重点添加了域的交互模块和边权计算模块，从而提升模型的性能。

3.6 模块重要性分析

本文提出的模型主要有2 个优点：1）同时建模特征级别的交互（记为FG）和域级别的交互（记为IG）；2）构建边权计算模块以交叉引用彼此信息（记为CI）。本文通过消融实验确定促使性能显著提高的模块，去掉FG、IG 和CI 模块分别记为FF-GNNFG、FF-GNN-IG、FF-GNN-CI，其中FF-GNN-CI 中特征交互模块和域交互模块分别用特征嵌入和域嵌入计算交互强度。实验结果如表3 所示。

表3 模块消融实验结果Table 3 Experiment results of module ablation

从表3 可以看出，在两个数据集上去掉任意一个模块，模型的性能均会下降。FF-GNN-FG 模型的性能下降幅度最大，说明特征级别的交互模块包含的有效信息较多。FF-GNN-CI 在边权计算模块中用自身的嵌入计算而不是彼此的信息，其性能下降的原因主要有：1）域交互模块对于所有样本来说都是相同的，无法实现个性化建模；2）特征交互模块中特征交互的重要性用特征嵌入计算而非域嵌入计算，无法建模不同域下特征交互的重要性。本文提出的模型FF-GNN 在两个数据集上性能均最优，验证了在模型中增加域级别的交互模块以及GNN 的边权计算模块的有效性。

此外，本文还进行了其他实验，以研究点击率预估层的4个输入对模型性能的影响。点击率预估层的4个输入分别是特征嵌入（H0）、特征GNN 输出（H1）、域嵌入（H2）、域GNN 输出（H3），实验结果如表4 所示。

表4 点击率预估层模块消融实验结果Table 4 Experiment results of module ablation on CTR prediction layer

从表4 可以看出，在两个数据集上去掉点击率预估层中的任意一个输入后，模型性能较FF-GNN模型都有不同程度的下降，说明每个输入均对最终预估产生影响。除FF-GNN 模型外，FF-GNN-H0 在Criteo 数据集上表现最差，而在Frappe 数据集表现最佳，其原因可能是由数据集的原始特征造成，Criteo数据集的低阶特征包含大量有效信息，而Frappe 数据集的低阶特征设计的不是十分恰当，因此对最终预估的影响不大。FF-GNN-H1、FF-GNN-H2、FFGNN-H3 在两个数据集上较FF-GNN 性能下降幅度也不一致，其原因可能是由数据本身造成的。

3.7 超参数研究

FF-GNN 模型包含2 个重要参数，分别是嵌入模块中特征/域嵌入维度和交互模块中图神经网络的迭代步数（GNN step），因此进一步研究这两个超参数对预估结果的影响。

嵌入维度对模型性能的影响如图4 所示。当模型在Criteo 数据集上的嵌入维度为10 时，AUC 和Logloss 均达到最优。随着嵌入维度不断增大，AUC值逐渐下降，当Logloss 值逐渐上升时，模型的性能逐渐下降。在Frappe 数据集上，当嵌入维度为64时，AUC 达到最优效果，虽然Logloss 仍继续下降，但也在可接受的范围内。因此，为了节省计算资源和存储空间，本文选择64 作为最佳超参数。

图4 嵌入维度对评价指标的影响Fig.4 Influence of embedding dimensions on evaluation indexs

图神经网络迭代步数对模型评价指标的影响如图5 所示。在两个数据集上，当迭代步数为1 时，模型性能最差，说明GNN 聚合一次邻居状态捕获到的信息有限；当迭代步数为3 时，GNN 聚合3 次邻居状态后，成功地捕获到了有效信息，因此模型性能最优；当GNN 迭代步数取4 时，GNN 在迭代多层之后，易出现过渡平滑现象，导致所有节点的特征值均趋于一致，节点之间的差异性缩小，不利于进行点击率预估任务。因此，在两个数据集上最优的GNN 迭代步数超参数取3。

图5 图神经网络迭代步数对性能的影响Fig.5 Influence of the iteration steps of GNN on performance

4 结束语

针对现有点击率预估方法存在的局限性问题，本文提出一种同时关注特征级别和域级别的特征交互方法。通过嵌入层得到特征嵌入和域嵌入，基于图神经网络的交互模块提取特征嵌入和域嵌入的结构信息，以获取特征级别和域级别的交叉特征。在此基础上，通过设计图神经网络的权重计算模块交叉引用低阶特征信息，利用基于注意力的融合层将两个交互模块的结果相融合，以预测点击率。实验结果验证了该方法的有效性，相比Fi-GNN 方法，该方法同时考虑了特征信息和域信息，并利用图神经网络构建复杂的高阶交互。后续将对图的连接进行研究，自动过滤不相关的特征，进一步节省计算时间和存储空间。