植物三萜皂苷代谢中细胞色素P450的生物信息学分析

2019-11-14 08:52赵志新鹿鹏鹏
西南农业学报 2019年10期
关键词:信号肽三萜进化树

赵志新,鹿鹏鹏,2,王 通

(1.商洛学院生物医药与食品工程学院,陕西 商洛 726000;2.海南大学热带农林学院,海南 海口 570228)

【前人研究进展】作为植物次生代谢的重要产物,三萜皂苷在自然界中广泛存在,尤其是以双子叶植物中的分布最多,目前主要在人参[1]、桔梗[2]等植物中的研究比较成熟。而在动物体内也发现少数三萜类成分,并且在海洋生物中如海参、软珊瑚中也得到各种类型的三萜类化合物[3]。三萜皂苷也是部分中药材中的重要主要成分,极具有很大的药用商业价值[4]。三萜皂苷的结构与生物合成过程比较复杂,在植物中的合成关键酶也比较多,已经成为研究三萜皂苷中的一个热点,其中之一的重要关键酶就是细胞色素P450 (Cytochrome P450, CYP450),同时也是植物三萜皂苷合成代谢中的一个重要的限速酶[5]。利用当今的生物手段对该系列关键酶序列进行生物信息学分析,从基因的水平进行研究已成为了一种趋势[6]。【研究意义】作为三萜合成通路关键酶,细胞色素P450基因的克隆使植物内代谢调控机制和植物抗病机理深入到分子水平,为在分子水平探讨三萜皂苷生物合成机理及其在植物中的应用具有重要意义[7]。【本研究切入点】本文主要是利用生物信息学工具,查找已经公布的植物中的细胞色素P450基因数据,对其理化性质、开放阅读框、蛋白质信号肽、蛋白二级结构、保守结构域及进化关系等方面进行研究。【拟解决的关键问题】以便更加深入的理解细胞色素P450的蛋白特性,并预测不同植物之间细胞色素P450的亲缘关系,为以后研究细胞色素P450酶学特征及三萜皂苷代谢提供借鉴。

1 材料与方法

1.1 细胞色素P450数据的获取

检索有关植物细胞色素P450的文献资料,并从NCBI中查找并下载已公布的植物的相关基因序列,共获得包括白菜等21种植物的23条序列(表1)。

1.2 数据分析使用的软件工具

细胞色素P450氨基酸序列的理化性质分析使用Expasy网站提供的的ProtParam在线工具(https://web.expasy.org/protparam/);ORF预测分析利用NCBI中的ORF查询工具ORFfinder(https://www.ncbi.nlm.nih.gov/orffinder/);同时利用SignalP4.1在线工具(http://www.cbs.dtu.dk/services/SignalP/)分析研究细胞色素P450是否含有信号肽;利用SOPMA软件预测分析细胞色素P450的潜在二级结构(https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html);CYP450保守结构域的预测分析使用NCBI数据库中的CDD工具(https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi);最后通过MEGA6.0软件构建系统进化树。

表1 获得的植物细胞色素P450信息

2 结果与分析

2.1 不同植物细胞色素P450氨基酸序列的理化性质分析

由表2可以看出,这23条序列的长度除拟南芥(>3000 bp)外,其余均在1000~2800 bp;氨基酸数目除人参(709)外,其余的大多在500左右;pI值除人参为5.29和拟南芥3为5.11以外,其余均大于6;不稳定指数都在40左右;脂肪指数在92左右;Leu、Ala、Glu、Lys、Gly是所有植物中含量最为丰富的氨基酸,而Pyl和Sec为所选植物中都不存在的氨基酸。

表2 细胞色素P450的氨基酸理化性质

续表2 Continued table 2

植物种类基因全长(bp)氨基酸数目原子总数分子量(KD)正电荷残基(Arg+Lys)负电荷残基(Asp+Glu)pI含量最丰富氨基酸(%)不含有氨基酸稳定指数脂肪指数籼稻1690516817857.8462627.28Leu(12.6) Ala(11.0) Arg(10.1)Pyl Sec51.57(不稳定)97.77烟草2759517838559.3164666.59Leu(10.3) Lys(7.5) Val(7.2)Pyl Sec30.63(稳定)90.87拟南芥14980525842259.3664666.55Leu(10.3) Glu(7.4) Ile(7.4) Pyl Sec49.86(不稳定)94.47拟南芥23028491799056.1564549.26Leu(11.2) Ser(9.0) Lys(8.1) Pyl Sec49.54(不稳定)95.44拟南芥347026921074576.77761065.11Leu(9.2) Ala(9.0) Glu(8.2) Pyl Sec33.15(稳定)83.18银杏2025485770154.8457606.59Leu(10.9) Ala(7.8) Glu(7.8) Pyl Sec38.89(稳定)82.91紫茉莉1485495791455.8854576.44Leu(11.5)Ile(6.9) Val(6.7) Pyl Sec39.77(稳定)97.29

2.2 不同植物细胞色素P450核酸序列的ORF分析

利用ORFfinder在线工具对不同植物细胞色素P450核酸序列进行ORF(开放阅读框)预测,结果见表3。

除了拟南芥(<400 bp)和人参(2130 bp)以外,其余植物的细胞色素P450的ORF长度均在1000~1600 bp,而拟南芥可能由于蛋白编辑剪切不同,所以稍有差异。从上面这些也可以看出,细胞色素P450的ORF也存在一定的保守性。

表3 不同植物的细胞色素P450核酸序列的ORF分析

图1 龙胆的信号肽预测Fig.1 Signal peptide prediction in G. rigescens

图2 胡椒薄荷的信号肽预测Fig.2 Signal peptide prediction in M. piperita

2.3 不同植物细胞色素P450蛋白质信号肽的预测分析

使用Signal P 4.1 Server在线工具首先对龙胆的细胞色素P450序列中的信号肽进行分析(图1)。龙胆的细胞色素P450蛋白序列中不存在信号肽,并且从图1中可以看出,S值和Y值都是比较低的,所以推断龙胆的细胞色素P450蛋白经过核糖体合成后,所得到的蛋白质为非分泌蛋白。同时其它10条序列(大麦、陆地棉、罗汉果、落葵、拟南芥1-3、人参、芜菁和彩虹菊)的预测分析结果与龙胆类似,即都不具有信号肽。

图3 美洲商陆的信号肽预测Fig.3 Signal peptide prediction in P. Americana

从图2可知,虽然S-score在20~30氨基酸位置在阈值(粉色的横线)上方,但C-score和Y-score不显著,故软件显示胡椒薄荷CYP450的细胞色素P450蛋白中也无信号肽。通过对另外的8条序列(金银花、梨果仙人掌、罗勒、籼稻、烟草、银杏、紫茉莉和白菜)进行分析得到与胡椒薄荷相近的结果,即无信号肽。

由图3可以看出,S值和Y值以及C值在20~30的区间中均超出所设定的阀值, 软件显示在氨基酸22~23位置存在信号肽。因此可以进一步推测美洲商陆的细胞色素P450蛋白通过核糖体合成之后,生成的蛋白质属于分泌蛋白。另外有2条序列(甜菜和甜椒)分析得到的结果与美洲商陆相近,即有信号肽。

2.4 不同植物细胞色素P450的蛋白质二级结构预测分析

表4 不同植物细胞色素P450二级结构元件比例

续表4 Continued table 4

植物α-螺旋(%)无规则卷曲(%)延伸链(%)β-转角(%)甜椒53.8030.8010.534.87彩虹菊49.7133.2711.745.28芜菁52.4732.8910.274.37籼稻49.2233.9111.825.04烟草43.9138.3014.123.68拟南芥145.0437.2113.174.58拟南芥247.2536.0512.634.07拟南芥343.7938.4413.584.19银杏46.3934.8514.234.54紫茉莉49.4033.5411.315.25

从表4可以看出,这23条序列的二级结构具有明显的一致性,即α-螺旋最高为50 %左右,其次为无规则卷曲为35 %左右,然后是延伸链15 %~8 %,最低的为β-转角5 %左右。从而可知,α-螺旋和无规则卷曲是植物细胞色素P450多肽链中主要存在的结构元件,并且分散在整个多肽链中。

2.5 不同植物细胞色素P450的保守结构域预测分析

利用NCBI提供的CDD(Conserved Domain Database)在线工具对23条序列的蛋白质保守结构域进行分析。

表5 不同植物的细胞色素P450保守结构域

图4 Maximum Likelihood算法所构建的进化树Fig.4 The phylogenic tree based on Maximum Likelihood algorithm

由表5可以看出,植物细胞色素P450主要为P450超家族,除了人参和拟南芥3,后二者属于FNR和FMN超家族,同时大麦有段序列(428~530)为Atrophin-1超家族。并且E-值具有极大的统计显著性,故可以判断大多数植物细胞色素P450其实同属于P450超家族,这与细胞色素P450具有较高的保守性相一致。

2.6 不同植物细胞色素P450系统进化树构建

使用MEGA6.0系统进化树,分别使用4种不同算法(Maximum Likelihood、Neighbor-joining、Minimum Evolution Tree和Maximum Parsimony算法)以便比较所构建的进化树,更进一步地明确它们之间的亲缘进化关系。

2.6.1 Maximum Likelihood Tree算法 依据Maximum Likelihood算法(图4),21种植物的23条序列可以划分为4类,分别为彩虹菊与大麦、拟南芥1、人参和银杏及剩余的18条序列。除了这彩虹菊等5条序列距离差异较大之外,剩余的18条序列距离差异都较小,显示这18条序列进化上差异较小,说明细胞色素P450在进化上有较高的保守性。

2.6.2 Neighbor-joining Tree与Minimum Evolution Tree算法 从图5和图6可以看出,这2种算法所构建的进化树一致,说明这2种算法所得进化树对这21种植物的23条序列没有差异。同时可以看出,这23条序列遗传距离差异不大,综合来看可以分为4类,第一类为白菜、芜菁、人参、拟南芥1和拟南芥3,第二类包括陆地棉、罗汉果、大麦、龙胆、胡椒薄荷和籼稻,第三类为落葵、拟南芥2、甜椒和银杏,最后一类有彩虹菊、金银花、罗勒、甜菜、美洲商陆、梨果仙人掌和紫茉莉。

图5 Neighbor-joining算法所构建的进化树Fig.5 The phylogenic tree based on Neighbor-joining algorithm

图6 Minimum Evolution Tree算法所构建的进化树Fig.6 The phylogenic tree based on Minimum Evolution algorithm

图7 Maximum Parsimony算法所构建的进化树Fig.7 The phylogenic tree based on Maximum Parsimony algorithm

2.6.3 Maximum Parsimony Tree(s) 算法 使用Maximum Parsimony算法(图7)可以看出,这23条序列中梨果仙人掌和紫茉莉、罗勒和甜菜、白菜和芜菁、拟南芥1和拟南芥3、落葵和甜椒它们两两之间距离最近,而拟南芥2与其余22条序列距离最远。

但综合来看,这23条序列总体距离比较接近,并且Maximum Parsimony算法所得结果与Neighbor-joining Tree和Minimum Evolution Tree算法结果比较相近,说明细胞色素P450序列总体变异不大,进化上比较保守。而Maximum Likelihood Tree算法所得结果与其他3种算法差异较大,说明此算法可能不太适合于植物细胞色素P450系统进化树的构建,同时也表明算法对进化树构建结果影响较大,要审慎选择不同的进化树构建算法。

3 讨 论

本文首先检索并收集了21种植物共23条细胞色素P450序列,然后利用生物信息学工具对细胞色素P450理化性质、蛋白特性及进化亲缘关系进行了较为全面的分析。从理化特性方面可以看出,这23条序列在基因序列长度、氨基酸数目,pI及富含与不含有的氨基酸方面,均表现出较强的一致性,显示细胞色素P450在植物中具有高度的保守性,这与细胞色素P450为三萜皂苷代谢的关键酶的特性相符合[8]。对于ORF(开放阅读框)的分析显示,大多数植物的ORF在1000~1600 bp,说明细胞色素P450的表达蛋白长度较接近,这与理化性质分析的结果也相一致。蛋白信号肽预测分析表明,23条序列中只有3条序列(美洲商陆、甜菜和甜椒)具有明确的信号肽,推测这3种植物的细胞色素P450蛋白通过核糖体合成之后,生成的蛋白质属于分泌蛋白;同时研究发现细胞内的细胞色素P450主要存在于合成蛋白质的平滑内质网和线粒体上,并且主要负责内源性底物和外源性化合物的氧化还原过程[9],说明大多数细胞色素P450不需要分泌转运到外部,这与我们的分析结果相符合。二级结构预测表明这23条序列具有明显的一致性,并且α-螺旋和无规则卷曲是细胞色素P450多肽链中主要存在的结构元件,并且分散在整个多肽链中。保守结构域结果显示大多数植物细胞色素P450其实同属于P450超家族,这与其他人的研究结果相一致[8]。虽然这23条序列来源于不同的植物科属,并且系统进化树呈现较多的小分支,但由于氨基酸序列总体比较相似,因此进化树在也表现出距离差异较小的特点。这些较小距离的出现可能是在植物进化过程中存在着核苷酸的变异,从而使氨基酸产生了一定的转变,但总的来说细胞色素P450序列是比较保守的[10]。因为酶的功能表现最终是催化代谢反应,对于药用植物来说与有效成分的生成或积累相关,本研究显示细胞色素P450在保守结构域和进化中都显示较高的保守性,因此建议下一步研究与该酶表达相关的三萜皂苷产物是否也有类似的特性,以指导人们开发和利用相近的植物资源。

4 结 论

综合6种不同的生物信息学工具对21种植物的23条细胞色素P450的研究表明,这21种植物的细胞色素P450蛋白特性差别不大,进化距离也比较近,显示细胞色素P450具有较高的保守性和稳定性。同时许多基因组数据表明,糖基转移酶基因在进化上不是独立的,而是与其他基因有较强的关联性;同时代谢途径中存在基因共调节和蛋白相互作用[11]。对细胞色素P450蛋白特性及亲缘关系的解析能够更清楚的揭示酶的保守结构域及进化变异,为进行基因工程改造和分子进化研究提供借鉴。本文对细胞色素P450的生物信息学分析,也可为研究细胞色素P450酶学特征及三萜皂苷代谢提供帮助。

猜你喜欢
信号肽三萜进化树
太白银莲花地上部分三萜皂苷类化学成分的研究
信号肽筛选优化提高耐热α-环糊精酶在枯草芽胞杆菌中的表达
灵芝三萜提取工艺优化*
西藏白肉灵芝三萜高效液相检测分析及含量测定
响应面法优化桦褐孔菌总三萜回流提取工艺
大学生对进化树的常见误解
全基因组预测褐环乳牛肝菌的分泌蛋白
谈信号肽及蛋白质分选转运
福州2009—2014年甲型H1N1流感病毒株HA基因进化分析
艾草白粉病的病原菌鉴定