革兰氏阳性菌蛋白结构域特征分析

2020-05-16 14:28高晓伟李凤敏
生物信息学 2020年1期
关键词:细胞质结构图阳性菌

高晓伟,李凤敏

(内蒙古农业大学 理学院, 呼和浩特 010018)

革兰氏阳性细菌是指在革兰氏染色剂染色后仍保持原来的蓝紫色结晶的细菌,它广泛存在于人体中,对人体的健康危害极大,因此,研究革兰氏阳性细菌的蛋白质亚细胞定位具有重要的生物学和医学意义。到目前为止革兰氏阳性菌蛋白亚细胞定位的研究相对较少,2007年Shen和Chou[1]建立了一个分为五类的革兰氏阳性菌数据集,利用Gene Ontology-Pseudo Amino Acid离散模型和Optimized evidence theoretic-K-nearest neighbors方法,然后通过Jackknife测试和独立数据集测试,成功率分别为82.7%和84.1%。2009年Shen和Chou[2]重新建立了四类革兰氏阳性菌亚细胞定位数据集,结合基因本体等特征信息,最后总的成功率达到了82.2%。2012年Hu等人[3]构建了GP25革兰氏阳性菌亚细胞定位数据集,利用Localization motif算法对革兰氏阳性菌蛋白质亚细胞定位进行预测,总成功率达到了85.9%。2016年在第九届电气与计算机工程国际会议上,Julia Rahman等人[4]分别利用Amino Acid Composition和Pseudo Amino Acid Composition特征信息与Physiochemical Property Model特征信息融合对革兰氏阳性菌蛋白质亚细胞定位进行预测,预测成功率均为73.2%。2017年XiaoXuan等人[5]采用新的算法对四类革兰氏阳性菌亚细胞定位进行预测,取得了较好的预测结果。在这些预测研究中,提取的特征信息没有考虑蛋白质的结构域(Domain)特征,结构域通常是由50~400个氨基酸残基构成的球状实体,它在蛋白质中可以独立稳定的存在,并且和完成蛋白质功能有着密切的关系[6]。本文基于Swiss-Prot数据库构建了4类共700条革兰氏阳性细菌蛋白质的数据集,对其结构域进行搜索和功能分析,找到了细胞壁区域蛋白质的结构域、细胞外区域蛋白质的结构域、细胞质区域蛋白质的结构域以及细胞膜区域蛋白质的结构域。在PDBsum数据库中进一步搜索找到了部分结构域所对应的二级和三级结构图,观察这些结构图找到结构域的特征,这些结构域的特征有助于革兰氏阳性细菌蛋白质亚细胞定位预测,可以进一步了解革兰氏阳性细菌的发病原理,有望对相应的疾病进行针对性治疗。

1 数据集

数据集严格按照以下标准构建:(1)从UniProtKB/Swiss-Prot (2018-09)数据库中检索关键字“Firmicutes”和“Actinobacteria”的所有蛋白序列;(2)在“Subcellular Location”注释中选择该蛋白的不同位置,去除“By similarity”、“Probably”等含糊或不确定的术语;(3)在“Sequence”信息中选择50-3 000 aa蛋白序列;(4)剔除片段“B”、“X”、“Z”注释序列;(5)为避免同源性偏差,采用软件CD-HIT对蛋白序列进行相似比对,序列相似性为25%。完成上述步骤后,得到700条革兰氏阳性菌蛋白质序列,它们分成4个区域分别是:细胞壁(Cell wall)22条、细胞外(Extracell)214条、细胞质(Cytoplasm)252条、细胞膜(Cell membrane)212条。

在Swiss-Prot数据集中的Family&Domains条目下提取每条革兰氏阳性细菌蛋白质的结构域信息,最后发现细胞壁区域含有结构域信息的革兰氏阳性细菌蛋白质有10条,细胞外区域有67条蛋白质有结构域信息,在细胞质区域中有78条,而细胞膜区域则有61条。进一步在PDBsum数据库找到了这些结构域所对应的二级和三级结构图。表1~表4分别为革兰氏阳性菌4个位置蛋白质所对应的结构域的名称和数量,其中小于2条结构域的蛋白质区域没有列出。

表1 细胞壁蛋白质结构域个数Table 1 Number of cell wall protein domain

表2 细胞外蛋白质结构域个数Table 2 Number of extracellular protein domain

表3 细胞质蛋白质结构域个数Table 3 Number of cytoplasm protein domain

表4 细胞膜蛋白质结构域个数Table 4 Number of cell membrane protein domain

2 革兰氏阳性细菌蛋白质的结构域分析

2.1 细胞壁区域蛋白质的结构域

由于细胞壁的蛋白质数量只有22条,所以细胞壁蛋白质的结构域数量也不是很多,其中出现次数不小于2次的结构域只有PE结构域和NEAT结构域,在这里分别介绍下这两个结构域。PE结构域是高度保守的N端亲水性结构域[7]。PE结构域是对蛋白质的翻译和定位起着重要作用的功能结构域,PE结构域大约有110个氨基酸残基。在细胞壁区域中一共有5条蛋白质含有PE结构域,它们都属于PE家族。在PDBsum库中没有找到PE结构域相对应的二级结构图和三级结构图。

NEAT结构域是调控铁元素表面蛋白的特异性保守结构域,大约由125个氨基酸残基构成,它的二级结构由1个螺旋束和C端的β发夹组成,其中包含9个平行的β折叠片。革兰氏阳性细菌中摄取血红素的最佳系统是lsd系统,在lsd系统中细胞壁作为受体将与血红素结合,在细胞壁中发挥主要作用的就是高度保守的NEAT结构域[8]。图1给出的是NEAT结构域的二级结构图和三级结构图。

图1 NEAT结构域对应的结构图Fig.1 Diagarm of NEAT domain

2.2 细胞外区域的结构域

从表2可以看到细胞外区域出现次数不少于5次的结构域有PINc结构域、N-acetylmuramoyl-L-alanine amidas结构域、PE结构域和Peptidase S8结构域。其中PE结构域是细胞壁和细胞膜共有的结构域。在这里我们主要介绍出现次数最多的PINc结构域,PINc结构域属于PIN家族,它具有高度的保守性,通常由150个氨基酸残基构成。在真核生物中,PINc结构域参与mRNA衰变的过程,而且具有核糖核酸酶的功能。在原核生物中,PINc结构域是抗毒素(TA)系统的毒性成分,它们的毒性是由于核糖核酸酶活性产生的。PINc结构域蛋白的活性位点由四种保守的酸性氨基酸组成,这些氨基酸参与二价金属离子结合和酶的活性过程[9]。在PDBsum库中并没有找到PINc结构域相对应的二级结构图和三级结构图。

2.3 细胞质区域的结构域

Response regulatory结构域、Histidine kinase结构域和S1 motif结构域是出现在细胞质区域不少于5次的结构域。由于在PDBsum库中没有Response regulatory结构域的二级结构图和三级结构图,在这里主要介绍Histidine kinase结构域和S1 motif结构域。Histidine kinase结构域属于HWE家族,Histidine kinase结构域是由二聚组氨酸磷酸受体子域(DPH)和与催化ATP结合的子域(CA)构成,其中DPH是由两个螺旋束和一个发夹环连接,形成了4个螺旋体束,而CA是一个高度保守的αβ三明治结构,由3个α螺旋和5个β链构成。大多数原核生物信号转导系统和少数真核细胞转导途径都和Histidine kinase结构域有关。在革兰氏阳性细菌的细胞质当中,Histidine kinase结构域起到了同源反应调节剂的作用[10]。在图2中给出Histidine kinase结构域的二级结构图和三级结构图。

S1 motif结构域大量存在于RNA结合蛋白质中,该结构域使用特殊的方式和RNA结合,在细胞质区域当中和mRNA、核糖体相互作用,它对蛋白质的翻译起到重要的作用。S1 motif结构域和shock蛋白的结构相似,S1 motif结构域一般由70~90个氨基酸残基构成,由5个反向平行β的折叠片构成[11]。图3是S1 motif结构域在PDBsum数据库的二级结构图和三级结构图。

图2 Histidine kinase结构域对应的结构图Fig.2 Diagarm of Histidine kinase domain

图3 S1 motif结构域对应的结构图Fig.3 Diagarm of S1 motif domain

2.4 细胞膜区域的结构域

细胞膜区域出现的次数不小于5次的结构域有ABC transmembrane type-1结构域、Histidine kinase结构域、HAMP结构域,Protein kinase结构域和ABC transporter结构域。其中Histidine kinase结构域是细胞膜和细胞质区域共有的结构域,在细胞质区域的结构域中已经介绍过Histidine kinase结构域,在这主要介绍HAMP结构域和Protein kinase结构域。HAMP结构域是原核生物中跨核膜受体中最后一个没有被人类发现结构但已经被人广泛熟知存在的结构域。原核生物通过跨膜受体来感应环境的变化,其胞内和胞外通常由HAMP结构域连接,而且连接点始终位于HAMP结构域的C端,根据以上特征人们猜想HAMP结构域的结构是由两个具有卷曲线圈特性的螺旋体构成[12]。

从革兰氏阳性菌到人类,Protein kinase结构域的功能在进化上是高度保守的。Protein kinase结构域是由6个β发夹,7个β凸起和13个螺旋体构成的。Protein kinase结构域在多种细胞过程中发挥作用,包括细胞的分裂、增殖、凋亡和分化。在真核生物中Protein kinase结构域蛋白酶是一类非常广泛的蛋白家族中的酶,与丝氨酸、苏氨酸和酪氨酸蛋白酶一样都具有保守的催化功能。Protein kinase结构域蛋白酶催化ATP转移到蛋白底物侧链上的一个或多个氨基酸残基,导致其结构改变从而影响蛋白功能[13]。图4给出的是Protein kinase结构域在PDBsum数据库的二级结构图和三级结构图。

图4 Protein kinase结构域对应的结构图Fig.4 Diagarm of Protein kinase domain

3 结果与讨论

对革兰氏阳性细菌蛋白质4个亚细胞位置上的结构域种类和个数分别进行了统计,发现PE结构域是革兰氏阳性菌细胞壁和细胞外两个区域共同含有的结构域,其对蛋白质的翻译起着至关重要的作用。而Histidine kinase结构域是细胞质区域和细胞膜区域共同含有的结构域,Histidine kinase结构域在同源中反应起到了调节剂的作用。NEAT结构域是细胞壁区域独有的结构域,它的主要作用作为细胞壁受体与血红素结合。PINc结构域是细胞外区域独有的结构域, PINc结构域参与核糖体RNA的过程同时也具有核糖核酸酶的功能。细胞质区域独有的结构域是S1 motif结构域,它对蛋白质的翻译起着重要的作用。Protein kinase结构域是细胞膜区域特有的结构域,它影响着蛋白质的功能。随着数据库的不断完善,会找到更多的结构域特征,利用这些特征信息可以更深入的了解革兰氏阳性菌蛋白质的结构和功能。

猜你喜欢
细胞质结构图阳性菌
2020年全国细菌耐药监测报告(简要版)
中国共产党第二十届中央组织结构图
动物细胞里的成员
肿瘤医院感染患者革兰阳性菌分布与耐药性及经验性抗MRSA的研究
概率知识结构图
替考拉宁与盐酸万古霉素治疗革兰阳性菌感染疗效和安全性分析
第十九届中共中央组织结构图
喹诺酮类药物的发展史话
高中生物细胞质作用研究
洋葱细胞质雄性不育基因分子标记研究进展