基于Transformer网络的抗癌肽的预测

2022-12-08 07:23标,葛成,徐晴,陆翼,孔韧,常
现代计算机 2022年18期
关键词:标准差抗癌氨基酸

蔡 标,葛 成,徐 晴,陆 翼,孔 韧,常 珊

(江苏理工学院生物信息与医药工程研究所,常州 213001)

0 引言

每年有数百万人死于癌症[1-2]。传统的物理和化学方法,包括靶向治疗、化疗和放射治疗,仍然是治疗癌症的主要方法,这些方法侧重于杀死癌细胞,但正常细胞也会受到不利影响,导致严重的副作用。更重要的是,这些治疗方法昂贵且低效。抗癌肽(ACPs)是一系列由10~60个氨基酸组成的短肽,其具有较强的阳离子特性,是一种新的癌症治疗方法[3]。抗癌肽具有多种优势,包括高特异性、易于合成和修改、生产成本低等[4-6]。抗癌肽只能与癌细胞的阴离子细胞膜成分相互作用,因此,它们可以选择性地杀死癌细胞[7],而对正常细胞几乎没有伤害。近年来,抗癌肽治疗方法成为研究热点,用于治疗不同临床阶段中的不同类型的肿瘤[8-10]。然而,只有很少一部分的抗癌肽能够最终被用于临床治疗。此外,通过实验方法识别潜在的新抗癌肽的过程耗时、昂贵,并且实验室资源有限。因此,迫切需要开发高效的抗癌肽预测技术。

目前,已有一些关于抗癌肽预测的研究。Tyagi等[11]开发了一个支持向量机(SVM)模型,并以氨基酸组成和二肽组成作为特征信息输入到SVM模型进行抗癌肽预测。Hajisharifi等[12]开发了两种预测抗癌肽的机器学习方法,使用Chou[13]提出的伪氨基酸组成模型(pseudo amino acid composition,PseAAC)和本地对齐核(local alignment kernel)方法得到特征信息,结合SVM模型进行预测。Vijayakumar等[14]提出了一种使用支持向量机和蛋白质相关度测量特征向量的计算方法预测蛋白质中的抗癌肽。Chen等[15]提出将二肽组成和伪氨基酸组分信息作为特征,结合支持向量机构建了抗癌肽的预测算法,是当时最优的抗癌肽预测模型。LeYi等[16]采用了氨基酸组成、二肽组成、氨基酸理化性质以及每种氨基酸在序列中的出现频率等信息,结合支持向量机构建了40个子模型,再以40个子模型的输出作为输入来搭建模型进行抗癌肽的预测。近几年来,深度学习技术发展迅速,基于深度学习的抗癌肽预测方法成为了研究热点。Yi等[17]将抗癌肽序列使用独热编码和K-mer稀疏矩阵进行特征表示,再结合长短期记忆[18](long short-term memory,LSTM)神经网络模型进行抗癌肽预测。

虽然这些方法取得了很好结果,但是它们都需要提前将肽序列通过复杂的特征提取算法映射为特征向量,再输入到机器学习模型或深度学习模型中进行抗癌肽预测,整个过程十分繁琐,并且其性能在很大程度上依赖于特征提取算法的设计。因此,迫切需要一种更加简单、高效的抗癌肽预测方法。值得注意的是,方春等[19]提出了一种仅使用LSTM神经网络进行抗癌肽预测的方法,该方法不需要额外的特征提取算法,仅将肽序列作为输入,采用文本处理中的字符嵌入方法,自动将序列映射到特征向量表示,模型自行抽取特征进行训练和预测。但是该方法最终的结果较基于特征提取算法结合机器学习的方法相比,并没有提升。Ahmed等[20]使用二进制轮廓信息(BRF)、基于物理化学的信息(AAIs)表示和基于进化信息(BLO62)的表示三种氨基酸序列特征,利用多头神经网络解决抗癌肽分类问题。

本文提出了一种使用深度学习Transformer网络模型来预测抗癌肽的方法。该方法仅需要将肽序列作为输入,模型自动将序列信息通过字符嵌入的方法映射为特征向量,无需使用复杂的特征表示方法,实现了使用Transformer网络模型来自动识别抗癌肽和非抗癌肽,并在两个数据集上对模型进行了评估实验。此外,本文还将模型与现有的机器学习模型,如SVM、随机森林(RF)、朴素贝叶斯(NB)和深度学习模型ACP-DL进行了比较,五倍交叉验证实验结果表明,本文方法能够有效地预测抗癌肽,明显优于现有方法。模型的工作流程如图1所示。

1 材料与方法

1.1 数据集

为了将本文方法与ACP-DL方法进行比较,使用了Yi等[17]公布的两组抗癌肽数据集,数据集的详细信息如表1所示,每个数据集都包括相同数量的正样本和负样本,其中正样本表示该样本是抗癌肽,负样本表示该样本非抗癌肽。

表1 数据集的统计

1.2 数据长度分布

两组抗癌肽数据集肽序列的长度分布统计如图2所示。ACP240数据集中肽序列长度分布在10~209个残基之间,样本的平均长度为30.5个残基;ACP740数据集中肽序列长度分布在10~97个残基之间,样本的平均长度为26.4个残基。因此,在接下来对序列进行字符嵌入时,每个序列被填充或者截断为接近平均长度的固定值30。

1.3 序列表征

本研究使用的方法不需要额外设计复杂的算法来提取特征,如氨基酸理化性质,氨基酸组成特征等,只需将肽序列作为输入,具体的序列表征流程如图3所示。创建了一个氨基酸与其对应编号的字典,每个氨基酸都有一个整数可与之对应,因此输入的肽序列首先会被整数编码;之后将序列固定统一长度,不够固定长度的序列需要在末尾位置补0,超过固定长度的序列将会被截断,舍弃超出的部分;然后通过Transformer进行词嵌入训练,使20种氨基酸中每个氨基酸都能由一组向量表示。如图3所示,假设输入的肽序列为“FALAKA-LKKAL”,首先需要将序列用整数进行编码,此时的序列长度为11,如果设置固定长度为12,那么序列的末尾位置将会自动补0至固定长度。通过神经网络的不断训练,每个氨基酸都会由一组向量唯一表示。最终,每条肽序列可被编码为M×N矩阵,M为设置的固定长度,N为设置的特征向量维度。

1.4 Transformer模型

Transformer最早用于自然语言处理方面的研究,如今被大范围地应用与拓展[21-22]。在这之前,自然语言处理的相关研究主要采用循环神经网络(RNN),LSTM和GRU等模型。Transformer与LSTM等模型的最大区别在于LSTM等模型的训练过程是迭代的、串行的,需要逐一处理输入字符。而Transformer的训练是并行的,即所有字符是同时训练的,这样就大大提高了计算效率。由于Transformer模型没有LSTM的迭代操作,所以需要将每个字符的位置信息传给Transformer,从而识别出序列中的顺序关系,即需要对序列进行位置编码,以获取顺序信息。完整的Transformer包括编码和解码两部分,主要用来进行自然语言处理方面的工作,如机器翻译,语言建模等。本文研究属于文本分类的范畴,所以只需要用到Transformer的编码部分。完整的编码部分主要包括字符嵌入、位置编码、自注意力机制、残差连接和全连接层。

1.5 算法流程

本文提出的算法流程如图4所示。首先,将肽序列进行字符嵌入得到序列的嵌入矩阵,并将其与位置编码后的矩阵进行叠加,得到特征矩阵。接着,特征矩阵经过N次重复的多头注意力机制与残差连接,以及线性映射与残差连接模块。最后,通过全连接层和Sigmoid激活函数层得到一个概率值,设定一个阈值,当概率值大于该阈值时,输出为1;反之,输出为0,其中1表示该肽序列为抗癌肽,0表示该肽序列为非抗癌肽。

1.6 评价方法与评价指标

本研究采用五倍交叉验证来评估Transformer模型的性能。在每次验证中,数据集被随机分成5等份:4等份数据作为训练数据,其余1等份数据作为测试数据。确保训练数据与测试数据之间没有重叠。最终验证结果取五倍交叉验证结果的平均值。为了便于比较,采用与ACP_DL相同的评价指标,包括准确性(accuracy,Acc)、敏感性(sensitive,Sens)、特异性(specificity,Spec)、精确率(precision,Prec)和马修斯相关系数(Matthews correlation coefficient,MCC),定义如下:

其中,TN表示真反例,TP表示真正例,FN表示假反例,FP表示假正例。同时,也采用了ROC曲线和AUC来评估性能。

2 结果

2.1 设备选择与模型参数设置

本文采用Keras深度学习框架,在一台Tesla K80机器上进行训练,其显存为11 G。抗癌肽的预测实质是二分类问题,因此,本文选择模型的损失函数为binary_crossentropy,优化函数选择adam,激活函数为sigmoid,批大小设置为2。通过多次参数调优,在ACP240上的训练轮数设置为200,在ACP740上的训练轮数设置为100。

2.2 实验设置

为了将本文模型与ACP-DL模型以及其他机器学习模型进行比较,在相同的数据集上执行了本文模型,如表2所示。

表2 实验设置

模型都采取五倍交叉验证,并取五次的平均值进行比较。需要注意的是,三个机器学习模型与ACP-DL模型的五倍交叉验证结果在Yi[31]的论文中已经给出,这里不再进行重复实验。

2.3 实验结果与分析

本文模型在ACP740和ACP240数据集上的五倍交叉验证结果如表3所示。从表3可以看到,在ACP740数据集上,模型的平均准确率(Acc)为83.75%,标准差为5.97%;平均敏感性(Sens)为84.89%,标准差为7.64%;平均特异性(Spec)为85.26%,标准差为3.27%;平均精确率(Prec)为82.06%,标准差为9.37%;平均马修斯相关系数(MCC)为67.39%,标准差为12.13%。其ROC曲线下面积(AUC)为0.898,如图5所示。在ACP240数据集上,模型的平均准确率为87.92%,标准差为2.72%;平均敏感性为85.93%,标准差为4.87%;平均特异性为93.05%,标准差为1.65%;平均精确率为82.06%,标准差为6.82%;平均马修斯相关系数为76.04%,标准差为5.08%。其ROC曲线下面积为0.910,如图6所示。模型在ACP740上的训练损失函数和训练正确率如图7所示,在ACP240上的训练损失函数和训练正确率如图8所示,可以看出模型的训练损失整体呈下降趋势。

表3 模型在两个数据集上的五倍交叉验证结果

模型在ACP240数据集上的训练损失出现多个短暂峰值,这是由于该数据集的样本数量相对较少,导致训练波动。表4展示了不同方法在同一数据集下的性能比较。从表4可以看出,与其它四种模型相比,本文模型提升显著。这表明该模型能够很好地完成抗癌肽预测任务,并且不需要额外设计复杂的特征提取算法,较其他模型相比更加简单、高效、高准确率。

表4 不同方法在同一数据集下的性能比较

3 结语

本文提出了一种基于Transformer模型的抗癌肽预测方法。该方法具有如下特点:

(1)与现有方法相比,具有较优的抗癌肽预测性能;

(2)仅需将肽序列作为输入,模型自动将序列信息通过字符嵌入的方法映射为特征向量,无需复杂的特征表示方法,实现了使用Transformer网络模型来自动识别抗癌肽和非抗癌肽。

猜你喜欢
标准差抗癌氨基酸
胰岛素受体底物氨基酸相互作用网络鲁棒性研究
鹅掌柴蜂蜜氨基酸组成识别研究
低蛋白日粮平衡氨基酸对生长猪生产性能的影响
小巷中的“抗癌厨房”
小巷中的“抗癌厨房”
小巷中的“抗癌厨房”
订正
阎维文 陪妻抗癌30年
脑卒中后中枢性疼痛相关血浆氨基酸筛选
方差中亟待澄清的两个错误观点