一种快速准确区分Ⅲ型、Ⅳ型分泌效应蛋白的计算方法

2020-07-08 05:43柳凤娟余乐正李益洲
关键词:宿主准确率蛋白质

柳凤娟, 杨 庆, 陈 倩, 余乐正, , 李益洲

(1. 贵州师范学院地理与资源学院, 贵阳 550018; 2. 贵州师范学院化学与材料学院, 贵阳 550018;3. 四川大学化学学院, 成都 610065)

1 引 言

蛋白质分泌在协调细菌与其周围环境间相互作用中发挥着重要作用. 通过各种分泌系统,细菌可将自身合成的蛋白质释放到细胞外,或直接注入真核宿主及相邻细菌细胞内,进而发挥其毒力效应[1]. 目前,经实验证实的革兰氏阴性菌分泌系统至少已有9种,它们分别被称为Ⅰ型至Ⅸ型分泌系统[2].在这些分泌系统中,Ⅰ型、Ⅱ型、Ⅴ型分泌系统可将各种酶转运到周围环境中,而Ⅲ型、Ⅳ型、Ⅵ型分泌系统则可将各种效应蛋白直接运输到宿主细胞内,其对应的分泌蛋白也分别被命名为Ⅲ型(T3SEs)、Ⅳ型(T4SEs)、Ⅵ型(T6SEs)分泌效应蛋白[3].作为介导宿主细胞信号转导的关键分子,细菌效应蛋白(Effector proteins)的输入可使宿主细胞功能发生紊乱,以便细菌在宿主体内更好的生存、繁殖与感染,故效应蛋白在病菌与宿主相互作用机制研究中扮演着重要角色.

5 总 结

鉴于细菌效应蛋白重要的生物学意义,研究人员提出了多种可准确识别细菌效应蛋白的预测方法,但它们大都只能识别某一类分泌效应蛋白,如T3SEs[4-9],T4SEs[10-15],T6SEs[16-18].在这三类分泌效应蛋白中,由于T3SEs、T4SEs均不含N端信号肽,且二者可能具有相似的进化保守性或序列模体(Motifs)[10],故现有计算方法极难区分这两类效应蛋白[19]. 为了解决这一问题,基于支持向量机(SVM)算法和伪位置特异性得分矩阵(PsePSSM),本文构建了一个二元分类器以快速准确地区分革兰氏阴性菌Ⅲ型、Ⅳ型分泌效应蛋白.本方法对测试集总的预测准确率为82.76%,表明其对T3SEs和T4SEs具有较好的区分能力,可作为一种辅助工具用于分泌效应蛋白在病原菌-宿主相互作用分子机制方面的研究.

2 材料与方法

2.1 材 料

本文从细菌分泌效应蛋白数据库(SecretEPDB)[20]中得到了实验所需的大部分数据. SecretEPDB收录了T3SEs、T4SEs、T6SEs三类分泌效应蛋白的相关数据,并提供了蛋白质的特征、功能、二级结构、Pfam结构域、代谢途径、进化细节等信息. 通过该数据库,共收集得到1 230条T3SEs和731条T4SEs. 此外,我们从文献[4]和[13]中分别得到35条T3SEs和30条T4SEs. 移除重复序列(即训练集或测试集中已有蛋白质序列)后,独立测试集中这两类效应蛋白各剩25条.

2.2 建模方法

分泌效应蛋白预测作为一种常见的蛋白质分类问题,已有越来越多的机器学习算法参与其中,如支持向量机(SVM)[8, 10-12, 14-15, 17]、隐马尔可夫模型(HMM)[5-6, 18]、随机森林(RF)[4]、深度学习(DL)[9]等. 在这些机器学习算法中,SVM是应用最广泛的算法[3]. 此外,由于SVM在前期革兰氏阴性菌分泌蛋白的分类研究中[2, 19]已有成功的应用,故本文也选取SVM来构建预测模型.

2.3 模型的性能评估参数

本文中,灵敏度(SE),特异性(SP),准确率(ACC)和马氏相关系数(MCC)[21]分别被用于模型预测能力的评估.

(1)

(2)

(3)

MCC=

(4)

其中,TP为真阳性,即正样本的准确识别数;FP表示假阳性,即负样本的错误识别数;TN表示真阴性,即负样本的准确识别数;FN表示假阴性,即正样本的错误识别数.

3 实验部分

3.1 实验数据

为去除实验数据中相似的蛋白质序列,增强预测模型的稳健性,采用CD-HIT Suite[22]对原始数

表1 本文所用实验数据集

据进行处理后(序列相似度阈值25%),得到302条T3SEs和375条T4SEs. 通过MATLAB工具箱对序列随机后,选取其中的70%作为训练集,其余30%作为测试集[23]. 结合2.1节所述的独立测试集,本文所用实验数据集均列于表1中.

3.2 特征提取与替代模型

不同类型的分泌效应蛋白,通常在序列、结构、功能等方面存在一定差异. 为准确区分T3SEs与T4SEs,本文分别采用氨基酸组成、位置特异性得分矩阵、自协方差变量以表征蛋白质序列中氨基酸残基的频率信息、进化信息及邻接效应.

氨基酸组成(AAC)常用于表征20种天然氨基酸在蛋白质序列中出现的频率信息,每条蛋白质均被转化为一个20维的数字向量.

进化信息在蛋白质的分类研究中发挥着越来越重要的作用,而位置特异性得分矩阵(PSSM)则常用于表征蛋白质序列中氨基酸的进化信息[24]. 以期望值阈值为10-3,通过PSI-BLAST程序搜索Swiss-Prot数据库,经3次迭代后,可得到每条蛋白质的位置特异性得分矩阵. 通过相关计算公式[25]对这些矩阵进行转换后,每条蛋白质均被表征为一个20维的数字向量.

为有效表征蛋白质序列中氨基酸残基间的相互作用关系,自协方差(AC)变量常用于计算残基间的邻接效应.自协方差(AC)变量的有关计算公式已详细描述于相关论文中[25],故本文不再赘述. 经自协方差变换后,每条蛋白质均被转换为一个25维的向量.

基于AAC、PSSM和AC,我们共构建了4个蛋白质替代模型:模型1仅含AAC;模型2仅含PSSM;模型3为AAC与AC合并而成的伪氨基酸组成(PseAAC);模型4为AAC与PSSM合并而成的伪位置特异性得分矩阵(PsePSSM).

3.3 模型的构建

本文通过libsvm-3.22 (http://www.csie.ntu.edu.tw/~cjlin/libsvm/)工具箱构建了最终的SVM预测模型.模型核函数为径向基函数(RBF),且通过网格搜索法对其正则化参数C和宽度参数γ进行优化.虽然目前已有多种交叉验证方法被用于统计预测中,留一法(Leave-one-out)被认为是最客观公正的[26],故本研究也采用留一法建立了最终的预测模型.

4 结果与讨论

4.1 替代模型的确定

根据3.2节描述的4个蛋白质替代模型,我们构建了4个SVM预测模型,它们对训练集的测试结果均列于表2中.

表2 不同替代模型对训练结果的影响

由表2可看出,模型2的训练效果最差,表明T3SEs和T4SEs在序列进化保守性上的确可能存在一定的关联性. 模型3、模型4与模型1、模型2的训练结果表明,替代模型中所含特征越多,其包含的信息量就越大,模型的预测性能也越强. 此外,模型4的训练结果优于模型3的,表明PSSM所包含的信息量可能多于AC的. 由于模型4的训练结果最好,且其核函数参数也较为合理,故本文拟选择该模型作为最终的蛋白质替代模型.

4.2 模型的实际应用

测试集数据首先被用于模型3与模型4实际预测性能的进一步比较,相关测试结果均列于表3中.

表3 不同SVM模型对测试集的预测结果

Tab.3 Prediction results of different SVM models obtained by analyzing the test sets

类别T3SEsT4SEs合计测试集数据91112203模型3准确预测数7789166准确率/%84.6279.4681.77模型4准确预测数7692168准确率/%83.5282.1482.76

如表3所示,模型4准确识别出测试集中76条T3SEs和92条T4SEs,其对这两类效应蛋白的预测准确率均超过80%,且总的准确率为82.76%,略优于模型3的81.77%,表明将模型4作为最终的预测模型是正确的.

根据不同方法间交叉验证测试结果[3],BEAN 2.0对T3SEs的预测性能最好,而T4Effpred则被认为是T4SEs预测的最佳工具.利用2.1节构建的独立测试集,我们进一步探讨了本方法、BEAN 2.0及T4Effpred对这两类分泌效应蛋白的预测性能,相关测试结果如表4所示.

表4 三种方法对独立测试集的预测结果

Tab.4 Prediction results of the three methods obtained by analyzing the independent test sets

类别T3SEsT4SEs合计测试集数据252550本方法准确预测数221638准确率/%886476BEAN 2.0准确预测数23--准确率/%92--T4Effpred准确预测数-7-准确率/%-28-

由表4可看出,本方法准确识别出独立测试集中22条T3SEs和16条T4SEs,总的预测准确率为76%. 作为T3SEs的专业预测软件,BEAN 2.0准确识别出23条T3SEs,预测准确率高达92%,但25条T4SEs有3条被错误预测为T3SEs. T4Effpred仅准确识别出25条T4SEs中的7条,预测准确率仅为28%,且25条T3SEs中有10条被错误预测为T4SEs. 这些实验结果再一次表明,T3SEs与T4SEs的确可能具有相似的序列模体和进化保守性,故两者之间难以完全区分. 此外,虽然本方法对T3SEs、T4SEs的区分能力仍不是特别理想,但从整体上看是较为准确可靠的.

分泌效应蛋白重要的生物学意义推动了相关计算方法的开发,而这些计算方法的快速发展又反过来促进了对宿主与病原体间相互作用、细菌感染与毒力特性等方面的深入研究. 基于支持向量机和伪位置特异性得分矩阵,本文构建了一个可快速准确区分T3SEs与T4SEs的二元分类预测器. 实验结果表明,本方法对革兰氏阴性菌Ⅲ型、Ⅳ型分泌效应蛋白具有较强的区分能力,可作为辅助工具用于分泌效应蛋白的进一步研究. 此外,实现对T6SEs的准确预测仍是一项具有挑战性的任务,这也为我们下一步的研究指明了方向.

猜你喜欢
宿主准确率蛋白质
蛋白质自由
人工智能与蛋白质结构
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
龟鳖类不可能是新冠病毒的中间宿主
抓住自然宿主
绦虫大战,争夺宿主控制权
人乳头瘤病毒感染与宿主免疫机制