肿瘤相关Smads家族蛋白的计算机模拟修饰

2019-01-03 03:48许宏宣刘小强
关键词:相似性氨基酸家族

许宏宣,刘小强,常 凯

(1.西南大学a生命科学学院,b西南大学-西藏农牧学院药用植物联合研发中心,重庆 400715;2.成都市实验外国语学校生物教研组,成都 611130;3.中国人民解放军成都军区总医院检验科,成都 610083;)

0 引 言

Smad蛋白(Drosophila Mothers Against Decapentaplegic Protein)为重要的蛋白家族,其主要功能为将细胞外信号经TGF-β受体传递到细胞核内进而激活下游靶基因转录[1]。该家族蛋白广泛分布于人体各大系统,并参与生物体的整个生命进程,是调控细胞生殖及分化的重要因子。Smad蛋白可通过调节能量供给参与胚胎构建,组织修复,细胞增殖,分化与迁移等多种生物进程[2]。

至今Smad家族在全物种中共发现9种,其中8种发现于哺乳类[3]。根据这些蛋白质的功能差异可人为分成三个不同大类:其一为受体调节型(receptor-regulated Smad,R-Smad),包括 Smad1,2,3,5和 8;其二为共同调节型Smad(common-mediator Smad,Co-Smad),仅包括Smad4,其作用于 R-Smad并参与相关通路的信号转导;最后为抑制型 Smad(inhibitory Smad,I-Smad),包含 Smad6和 Smad7,其功能为限制 R-Smad和 Co-Smad蛋白的活性[4]。

在基础医学研究中,Smad家族蛋白往往是骨病、肾病、皮肤病及消化系统疾病研究的热点[5]。近年来,Smad蛋白家族在血管形成、纤维化和肿瘤发生的研究热度日益增加[6]。Smad蛋白主要参与TGF-β信号通路负调控细胞生长,它可使细胞生长发生停滞在 G1期。现有的研究多关注于Smad蛋白功能与疾病的关系研究,对Smad家族蛋白质自身的结构、理化特性分析和蛋白稳定性修饰研究较少。而离体环境下对蛋白质研究中其对其结构的稳定性要求更高,在Smad蛋白研究中,离体蛋白的稳定性缺乏往往是阻碍实验进展的重要因素[7]。因而本研究通过信息生物学方法对多组Smad超家族成员进行比对研究,比较Smad家族的各成员结构和理化性质差异,并基于分子生物学和蛋白质工程原理对不稳定的目标蛋白进行模拟修饰和突变预测,以期得到更加稳定的蛋白结构,为深入的开展Smad功能相关研究奠定基础。

1 材料与方法

1.1 数据来源

在NCBI及PBD数据库中应用BLAST比对程序,检索Smad蛋白家族的核酸序列和氨基酸序列备用,Edit Seq软件和DNA Master 5.22.1软件用于剔除过长序列或过短的蛋白。最终确定涵盖Smad1~8的核苷酸序列和氨基酸序列。

1.2 Smad蛋白家族的核酸及蛋白序列的生物信息学分析

利用Edit Seq软件和DNA Master 5.22.1软件对Smad家族各成员进行核酸序列比对分析,并应用Prot-Param程序进行统计和比较分析Smad蛋白的理化特性,内容包括:分子量、等电点、氨基酸数目、疏水系数、脂肪系数等。在Proteomics Server平台中使用ProtScale软件对Smad家族蛋白氨基酸序列进行疏水性分析。DNA Master 5.22.1软件和weblogo平台进行氨基酸保守序列评测。应用WoLF PSORT平台预测Smad蛋白的亚细胞定位情况并对其基数进行测评。TMHMM Server v2.0平台和Tmpred平台预测Smad蛋白跨膜区域。综合GOR、GOR III、GOR IV、HNN、DSC和SOPMA 6种计算方法对Smad蛋白的序列进行二级结构进行联合预测。Smad蛋白结构域三维建模比对分析和结果评估通过Clustal X、MEGA7.0、Swiss-Modle、Swiss-PdbView和WebLab ViewLite完成。应用I-Mutant2.0程序基于SEEF方法对蛋白稳定性修饰与突变进行模拟与评估。

2 结 果

2.1 氨基酸序列的聚类对比分析

应用NCBI和PBD数据库检索源自人、小鼠、原鸡等各物种的Smad蛋白共147个,筛选去除冗余和错误序列后对最终确定的64个蛋白氨基酸序列进行聚类分析。应用CLUSTAL X软件和MEGA 7.0软件对各氨基酸序列进行聚类分析,并基于Neighbor-Joining(N-J)算法构建遗传进化树如图1所示,结果表明Smad1~Smad8家族分属于8个不同的大分支,且每个大分支聚类明确[8]。该氨基酸聚类分析结果与Smad亚家族间的差异保持一致,并未展现出物种间的差异。这表明Smad各家族内部的氨基酸序列在不同物种间相似性极高。各聚类小分支中物种进化的等级越高,进化距离便越远,可见人类Smad蛋白结构多元化且功能相对多样。

2.2 Smad蛋白特性对比分析

应用SignalP 3.0 Server和TMpred平台对Smad蛋白质的氨基酸序列进行跨膜区的预测分析,应用Wolfpsort平台分析Smad蛋白的亚细胞定位。结果发现Smad1,2,3氨基酸序列不具跨膜区域且定位不具体;Smad4含有跨膜氨基酸区段(6~26)且无明确定位;Smad5中含跨膜氨基酸区(1~21)且无明确定位;Smad6中含跨膜区(243~264)且定位于线粒体;Smad7中具有跨膜氨基酸区(403~425)定位于线粒体;Smad8中具有跨膜氨基酸区(1~18)定位不明确。在上述8个家族的细胞定位中,仅Smad6和Smad7定位于线粒体中,其余家族的亚细胞结构定位均不具体。各Smad家族蛋白质跨膜区域相对位置多变,表明各蛋白质功能具有较大差异,这与已有报道一致[9-10]。

在ExPASy网站上用ProtParam软件对Smad蛋白进行理化性质分析,统计内容包括:等电点、不稳定系数、脂肪系数、消光系数和GRAVY系数等,其中GRAVY系数(-0.585~-0.335)和分子量(41631.56~60461.17)在不同物种、不同Smad亚家族间不具有典型的规律性分布;然而在同一Smad亚群中具有稳定的等电点和消光系数,其不受分子量大小和氨基酸多少影响。因而认为通过等电聚焦电泳和消光系数测定能够初步的对Smad蛋白进行分类,有效降低实验成本。各Smad家族的蛋白质不稳定指数差异性显著,Smad1~8的不稳定指数均>40,表明这8个家族的成员在体外稳定性均很差(图2)。脂肪指数结果显示:脂肪族氨基酸指数 >70的有 Smad2(74.45±0.75),Smad3(75.59±1.86),Smad4(75.69±5.41),Smad7(73.79±1.58);脂肪族氨基酸指数 <70的有 Smad1(65.36±0.34),Smad5(67.99±0.27),Smad6(69.83±0.35),Smad8(69.93±1.76)。GRAVY值均为负值,表明 Smad蛋白均为亲水性蛋白[11]。

图1 基于 M EGA7.0软 件应用 N - J算 法检建 S mads进 化树

2.3 氨基酸序列比对与高级结构比对

利用Vector NTI、NCBI BLAST软件对 Smad蛋白进行比对分析,进行 Smad全家族氨基酸的同源性为29.5%,相似性为1.6%。Smad亚家族成员内的比对分析,发现Smad1同源性为95.5%,相似性为58.9%;Smad2同源性为99.8%,相似性为66.2%;Smad3同源性为94.7%,相似性为70.8%;Smad4同源性为63.6%,相似性为19.9%;Smad5同源性为95.9%,相似性为71.5%;Smad6同源性为66.3%,相似性为16.3%;Smad7同源性为89.0%,相似性为62.8%;Smad8同源性为86.7%,相似性为49.5%。上述比对结果可以看出,Smad家族间的一级序列相似性高但同源性低,具有较大的氨基酸序列差异。Smad超家族各成员间的分析得出同源性在30%左右,但相似性却只有2%左右,说明Smad的各成员虽同起源于Smads,但其物种间蛋白的一级结构列具有较大差异。

综合GOR、GOR III、GOR IV、HNN、DSC和SOPMA 6种计算方法对Smad蛋白的序列进行二级结构进行联合预测,结果如表1所示:Smad各成员均具有较高比例的随意卷曲和 α-螺旋。Smad2、3具有较高的 α-螺旋,是由于两个蛋白质同为R-Smad蛋白质,功能相似;Smad4、7具有较多的β转角,β转角常出现于球形蛋白质表明并含有极性和带电荷的残基,过高的β转角往往会影响蛋白质的稳定性。结合蛋白质一级序列与二级序列结果对高度保守的Smad蛋白C-末端结构域MH2进行家族间保守性分析如图3所示,保守位点具有相似结构域,且氨基酸构成差异较小。

图2 Smads 蛋白序列物理性质统计分析

基于蛋白质结构数据库,对Smads蛋白的高级结构进行分析预测,有利于进一步解析结构及其功能的关系。该研究使用同源建模对Smads蛋白分子的三级结构进行模拟。应用WebLab ViewerLite软件和Swiss-Modle平台构建Smad1~8蛋白质的三维图像,结合拉式构象结果对蛋白模拟结果进行准确性评估。Psi和Phi角的置信分析结果可以看出≥92%的氨基酸残基分布于置信区间范围内,表明该结构分布稳定,建模方案可行,结果可靠[12]。

Smad1~8均为同源三聚体,但各Smad的单体均具有其特殊的功能域、结合域、齐聚反应域和保守的功能位点(图 4)。Smad1,2,3,5和 8为 RSmad蛋白,需要与受体结合而具有活性。Smad1具有结合位点Lys45和Arg69;Smad2具有结合位点Ser103和Ser105;Smad3具有结合位点Arg104和Glu107;Smad5存在结合位点 Lys46和 Arg70,Smad8存在结合位点 Lys49和 Arg73[13]。Smad4作为唯一的 Co-Smad存在结合位点 Glu417和Arg420[14]。在 抑 制 型 I-Smad成 员 Smad6和Smad7,Smad6存在结合位点为Glu442和Arg443,Smad 7存在结合位点为 Arg379和 Glu384[15]。

表1 Smad蛋白质二级结构联合预测结果

图3 Smads 保守序列的氨基酸序列比对分析

2.4 不稳定蛋白的修饰与预测

蛋白质功能及活性往往受其稳定性的直接影响,因而稳定性的好坏是评价蛋白的一个重要参数。蛋白稳定性受到其所处环境和自身结构的两方面作用。针对不稳定蛋白质而言,目前常用分子生物学和蛋白质工程手段进行定点修饰,从而准确高效地达到提高稳定性的目的。在Smad家族中Smad1~8的体外实验不稳定指数均>40,表现出较差的稳定性。在临床基础研究中,共同型 Smad(Smad4)和抑制型 Smad(Smad6,7)是近年来的研究热点,且具有较强的研究价值与应用价值。基于疏水相互作用和二硫键的应用,对Smad4进行两个突变位点 Tyr322Cys和 Glu330Cys的稳定性预测。同样对 Smad6进行模拟突变 Tyr347Cys和Tyr476Cys,Smad7模拟突变 Tyr375Cys和 Lys373Met。应用 I-mutant2.0软件结合 Auto-Mute软件 DDG值(Kcal/mol)进行稳定性评估如表2,该预测方法基于模拟程度较高的 SEEF算法,其 DDG>0表示蛋白质稳定性增高,DDG<0表示蛋白质稳定性降低[16]。结果表明:pH7.0时15~50℃区间内(常规蛋白质功能实验条件),Smad4蛋白 Tyr322Cys和 Glu330Cys突变随温度增高稳定性增加,Smad6蛋白的 Tyr347Cys和Tyr476Cys同样随温度增高稳定性增加。Smad7突变位点Tyr375Cys随温度增高稳定性增加,但Lys373Met突变后稳定性增加幅度不随温度增高而变化,DDG稳定在0.241±0.009的水平。该修饰预测结果有助于为进一步研究Smad蛋白的功能提供参考。

图4 Smad家族四级结构建模与分析

Smad蛋白约由500个氨基酸组成,氨基酸序列的相似性在Smad亚家族内极高;亚家族间则较低[1]。氨基酸聚类分析可见Smad蛋白家族能明显分为8个独立的分支。然而Smad1,5,8在聚类的分支中存在少许交叉,表明三者遗传关系较近,可能在结构和功能上有相似之处。在保守序列分析与3-D结构建模的分析中可见Smad1,5,8具有极为相似的结构域和功能域,这与Smad1,5,8同为R-Smads相一致。二级结构与三级结构分析表明Smad蛋白均由一个连接区域连接两个球形的高度保守结构域。一个为N-末端结构域MH1,另一个为C-末端结构域MH2[17]。信息学预测出Smad6和Smad7亚细胞定位于线粒体中且具有相似跨膜区域,预测其功能可能与线粒体内的信号转导和核酸转录调控相关。X-Ray对Smad蛋白质的晶体结构剖析结果表明:几乎所有的R-Smad和Co-Smad均具有相对保守的发夹结构且与MH1相连。理化性质的比较分析表明通过等电聚焦电泳和消光系数测定两种方法能够有效的对Smad蛋白进行快速分类。

表2 不稳定Smad蛋白突变后的稳定性预测

Co-Smad和I-Smad日益受到肿瘤研究人员的关注。有观点认为经磷酸化后R-Smad能够与Co-Smad结合穿过细胞核膜与其他转录子形成抑制复合物,进而影响靶基因的表达[18]。临床回顾性分析结果表明,Smad4在膀胱癌和大肠癌等多种癌症疾病中均表现出与血管组织生成和肿瘤细胞生长相关[19]。研究发现肿瘤发生与激活的原因可能与Smad6和Smad7的超表达有关[20]。在癌基因小鼠研究中,Smad7能够促使鳞癌恶化,而 Smad6不具有该功能[21]。因而本研究重点关注 Co-Smad和 I-Smad。并对体外极不稳定的Smad4,6,7其进行蛋白修饰预测,预测结果表明突变位点的选择达到预期,具有增加蛋白稳定性的作用。Smad蛋白质的稳定性评估有益于对蛋白质功能研究提供稳定可靠的条件[22]。更为重要的是,对体内Smad基因的SNPs和突变体进行预测能够有助于病情的诊断与预测。

猜你喜欢
相似性氨基酸家族
一类上三角算子矩阵的相似性与酉相似性
浅析当代中西方绘画的相似性
HK家族崛起
月桂酰丙氨基酸钠的抑菌性能研究
《小偷家族》
UFLC-QTRAP-MS/MS法同时测定绞股蓝中11种氨基酸
家族中的十大至尊宝
HPLC法同时测定阿胶强骨口服液中4种氨基酸
低渗透黏土中氯离子弥散作用离心模拟相似性
纯手性的三联吡啶氨基酸—汞(II)配合物的合成与表征