基于异构图卷积网络的药物-细胞系响应预测

2023-05-24 09:29郭帅旗闫效莺
智能计算机与应用 2023年5期
关键词:异构细胞系卷积

郭帅旗,闫效莺

(西安石油大学 计算机学院,西安 710065)

0 引言

近年来,卷积神经网络(Convolution Neural Network,CNN)在图像处理、机器视觉和自然语言处理等领域均取得了较好的应用。但随着大量非结构化图数据,如交通网络、社交网络和生物信息学领域中蛋白质作用关系网络(PPI)等的出现,图卷积神经网络(Graph Convolution Network,GCN)应运而生,并迅速发展,已成为图表示学习的重要方法之一。

随着健康理念的发展,精准医疗已成为疾病诊疗的方向,如何在分子水平上精确测定个体病人对药物治疗的响应情况,是精准医疗的基础和关键。然而,对个体病人进行大量药物临床试验是不可行的,因此需要建立模型,预测药物对个体疾病的敏感性响应关系。随着高通量测序技术的发展,药物敏感性数据库,如NCI-60 数据[1]、癌症细胞系百科全书(CCLE)[2]和癌症药物敏感性基因组学数据库(GDSC)[3]等相继发布,这些数据库中整合收录了大量细胞系与药物之间的敏感性关系数据。基于此,近些年国内外学者提出了许多药物-细胞系响应的预测方法。这些方法大致可分为基于回归模型[4]、基于网络推断[5]、基于矩阵分解[6]和基于深度学习[7]的预测方法等等。如:Iorio 等人[4]通过弹性网络和LASSO 构建基因表达值与响应值之间的回归预测模型,但其缺点是忽略了药物的相关信息;Yang 等人[5]利用网络表示学习提取特征,并采用SVM 预测药物响应关系(NRL2DRP);Stanfield 等人[8]提出基于异构网络的带重启随机游走算法预测药物敏感性响应(HRWR);Yan 等人[6]提出一种具有可解释性的三矩阵分解方法,预测药物敏感性响应(TMF);Li 等人[9]提出一种应用堆叠的深度自动编码器方法预测药物敏感性响应(DeepDSC)。

虽然上述算法已极大推动了药物-细胞系作用关系预测的研究,但预测精度仍有很大的提升空间。特别是近几年图神经网络的出现,已成功应用于药物-靶蛋白,药物-药物作用关系预测等生物信息学相关问题研究[10-11]之中。考虑药物-细胞系敏感关系中网络节点的异质性,本文对适用于同构网络的GCN 算法进行改进,提出了一种新的基于异构图卷积网络和深度神经网络的药物-细胞系响应预测方法(HGCNDCP)。该方法首先分别计算药物相似性和细胞系相似性,并融合药物相似性特征、细胞系相似性特征以及药物-细胞系响应关系,构建异构网络;然后在异构网络上使用图卷积操作,通过不断聚合邻居节点特征,可同时捕获异构图网络的拓扑结构特征和节点特征,得到药物和细胞系两类对象的特征表示数据,最后使用深度神经网络(DNN)预测药物-细胞系响应关系,并在GDSC 数据集中对算法进行验证。

1 基于异构图卷积网络的预测方法HGCNDCP

1.1 图卷积网络GCN

GCN 是CNN 算法在图数据领域应用的产物。GCN 模型可用于捕获非欧氏空间中存在的复杂网络关系及对象(或实体)间的各种依赖关系。该模型通过不断聚合邻居节点信息,来更新自身节点特征,可同时获捕图结构拓扑特征和节点特征。因此,GCN 可从原始图数据和节点特征中,更好地进行特征表示与学习。基于同构图的GCN 模型定义如下:

给定图G =(V,E),其中V是n个节点的集合,E是节点之间边的集合;对应的邻接矩阵记作A,其元素aij代表节点vi与vj之间的连接关系,节点特征矩阵记为X∈Rn×p;一 阶GCN 模型定义为为归一化的邻接矩阵,Hl、Wl分别为l 层的节点表示和映射权重矩阵。

1.2 异构网络构建

1.2.1 构建药物相似性矩阵

药物特征描述符主要包括化学结构描述符、分子指纹等。本文采用Pubchem 数据库中记录的药物分子指纹描述符[6],将药物表示为881 维的子结构特征。因此,药物特征矩阵可表示为Fd∈RN×p,p =881,N为药物数目。其中,药物di的特征记为=[si1,…,sil,…,sip]。若第l个子结构特征在药物di中存在sil =1,否则sil =0。由于具有相似化学结构的药物在细胞系中表现出相似的反应,在此使用Jaccard 系数计算药物结构相似性,其公式如下:

1.2.2 构建细胞系相似性矩阵

对于细胞系的基因表达谱数据来说,每个细胞系均包含16 383个基因的表达值,因此细胞系的特征矩阵可表示为Fc∈RM×q、q =16 383,M为细胞系数目,其中细胞系ci的特征记为fci =[gi1,…,gil,…,giq],gil表示第l个基因在细胞系ci中的表达值。由于具有相似基因表达谱的细胞系会表现出相似的药物反应。本文使用皮尔逊相关系数计算细胞系之间的相似性,公式如下:

1.2.3 药物-细胞系响应关系网络

已知的药物-细胞系响应关系可以表示为二分图G =(V,E),其中V ={Vc,Vd}表示药物和细胞系两类节点,E表示药物与细胞系之间已知的IC50 响应值。本文使用Iorio 等人[12]提供的阈值,将已观察响应值划分为敏感性和耐药性两类。其中,敏感响应16 804 个,耐药响应125 647 个,未知响应33 595个,由此构建邻接矩阵为Acd。

由药物相似性矩阵、细胞系相似性矩阵和药物-细胞系响应关系构建形成的异构网络模型如图1 所示。

图1 药物-细胞系响应异构网络Fig.1 Drug-cell line heterogeneous network model

1.3 基于异构图卷积的药物-细胞系响应预测算法

基于异构图卷积的药物-细胞系响应预测模型如图2 所示,算法实现步骤如下:

图2 HGCNDCP 网络模型图Fig.2 The flowchart of HGCNDCP pipeline

Input:药物相似性网络Sd、细胞系相似性网络Sc、药物-细胞系二分图网络Acd(边权重“1”和“0”,分别表示敏感性和耐药性响应类别);

Output:药物-细胞系响应关系预测得分。

Step 1对Sd、Sc以及Acd按如下方式重构,得到异构网络邻接矩阵A和特征矩阵S。

Step 2矩阵归一化

Step 3基于异构网络的图卷积操作,得到药物和细胞系嵌入特征表示为F':

Step 4特征向量聚合,将药物嵌入特征和细胞系嵌入特征拼接形成药物-细胞系对的特征X∈RK×P,K为样本数,P为样本特征的维度,见公式(6)。

Step 5构建预测器。使用深度神经网络(DNN)作为HGCNDCP 的预测器。

其中,Zout和Zk(k =0,…,l)是DNN 模型中对应权重Wout、Wk和偏置bout、bk的隐层神经元,Z0=X。y∈RK×t为K个药物-细胞系样本对的预测值。

2 数据来源与实验方法

本文使用开源的GDSC[3]作为基准数据集,网址为http:/ /www.cancerrxgene.org/,其中包括256 个药物、1 001 个癌症细胞系,以及药物和细胞系的对数变换半抑制浓度值IC50[13]。该值代表要使50%的细胞生长受到抑制所需的药物浓度,是药物-细胞系响应的测量值。考虑到实验的具体进行,需要对GDSC 基准数据集进行筛选、清洗等预处理。经预处理后,本文得到183 种同时具有化学结构特征和药物反应数据的药物,962 种同时具有基因组特征和药物反应数据的细胞系。在这些药物与细胞系之间,药物-细胞系响应总共有176 046 个,其中敏感响应16 804 个,耐药响应125 647,未知响应33 595个。

使用PyCharm 集成开发环境,Pytorch 1.7.1 作为框架。采用文献[5]的验证方法,基于上述预处理后的数据集,采用5-CV 交叉验证方法进行实验,即将数据随机分成大致相等的5 份,每一份轮流作为测试样本,其余4 份做训练集。对测试集中每个药物-细胞系对样本进行预测,并将预测结果与实际标签进行对比。使用ROC曲线下面积AUC表征模型预测性能。AUC值越大,表示算法性能越好。

3 实验结果与分析

3.1 损失函数与参数设置

本文算法包括基于异构GCN 的特征表示和DNN 预测器两部分,其中第一部分的损失函数采用二元加权交叉熵,第二部分采用二元交叉熵,见公式(10)、公式(11)。

公式(10)中,p(aij)为aij的真实标签,q(aij)=是由异构GCN 生成的两类节点嵌入特征向量内积计算出的预测概率,Wpos为负样本与正样本数目比的权重;公式(11)中,s(aij)是DNN预测的得分值,其值越大表示该样本呈现敏感性的概率越大,T为类别数量,β为权值衰减系数。式子前一项旨在对所有类别计算平均损失,后一项旨在为权值矩阵和偏置矩阵提供L2 范数约束。两部分均使用Adam 优化器[14]、ReLU 激活函数和批量归一化[15]处理。通过寻找损失函数的最小值和最佳精度对参数进行网格搜索。其中,基于异构GCN 的特征表示部分,分别设置嵌入特征数ne ={5,25,50,75,100},并根据式(10)计算训练损失。由图3 可见,不同数量的嵌入特征,训练过程相似,在200 轮训练之前,损失快速下降,在1 000 轮之后,陆续趋于收敛状态。其中潜在因子数ne为75和100 时,损失值相差无几,误差可缩小至10-3数量级。本文设定ne =100,学习率lr =0.01。DNN 预测器的各层维度分别为[200,128,96,64,2],lr =3.25e-5,衰减系数β =1e-5。

图3 隐层节点数对异构图GCN 特征提取的影响Fig.3 Influence of the number of latent factors on the heterogeneous GCN feature extractor

3.2 方法比较

采用5 -CV 交叉验证方法,将本文算法HGCNDCP 与HNMDRP[16]、HRWR[8]、NRL2DRP[5]和TMF[6]算法进行比较。数据集中敏感性数据为正样本,耐药性为负样本。ROC曲线下面积AUC结果详见表1。

表1 算法性能比较结果Tab.1 Performance comparison

由表1 可见,HGCNDCP 的AUC值比HNMDRP提高了20.97%、比HRWR[8]算法提高了10.14%、比NRL2DRP 提高了16.06%、比TMF 提高了12.32%,证明HGCNDCP 具有更优的预测性能。

3.3 k-CV 交叉验证对模型性能的影响

为了评估不同k-CV 对模型性能的影响,本文分别进行2-CV、5-CV 和10-CV 交叉验证,其对应AUC结果如图4 所示。

图4 不同交叉验证方法下预测性能Fig.4 Prediction performance under different cross validation methods

结果表明,预测精度随着训练数据集的增多而增加,10-CV 验证的训练数据集大于2-CV 验证和5-CV 验证,其AUC值也高于两者。

4 结束语

为了更高效地预测药物-细胞系之间的敏感性响应关系,本文在图卷积神经网络的基础上提出了基于异构图卷积网络的药物-细胞系响应预测方法(HGCNDCP)。研究表明:

(1)使用药物结构分子指纹特征数据、细胞系的基因表达谱数据和药物-细胞系作用关系数据,对学习药物、细胞系的特征提取有重要影响。

(2)通过构建异构网络,使用图卷积神经网络,能够有效地聚合邻居特征信息,得到较好的药物和细胞系的表征。

(3)通过使用GDSC 数据集,并与其它算法的一系列实验比对,HGCNDCP 具有较高的预测精度,能够较好地预测药物细胞系响应,从而为药物细胞系响应预测提供有效的思路和方法。

猜你喜欢
异构细胞系卷积
试论同课异构之“同”与“异”
基于3D-Winograd的快速卷积算法设计及FPGA实现
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
异构醇醚在超浓缩洗衣液中的应用探索
overlay SDN实现异构兼容的关键技术
LTE异构网技术与组网研究
STAT3对人肝内胆管癌细胞系增殖与凋亡的影响
抑制miR-31表达对胰腺癌Panc-1细胞系迁移和侵袭的影响及可能机制
E3泛素连接酶对卵巢癌细胞系SKOV3/DDP顺铂耐药性的影响