艾草等10种精油植物单萜合成酶生物信息学分析

2023-08-26 20:10景炳年魏磊谢晓阳刘雨晴周雍王伟
安徽农业科学 2023年15期
关键词:生物信息学分析

景炳年 魏磊 谢晓阳 刘雨晴 周雍 王伟

摘要 [目的]分析比较10种富含精油植物mono-TPS核苷酸和氨基酸序列。[方法]通过生物信息学相关软件和网站比对和分析10种mono-TPS基因及蛋白序列,对其结构、理化性质、磷酸化位点、亲/疏水性、跨膜结构域、亚细胞定位、二级结构、功能域、三级结构及进化关系进行预测和分析。[结果]10种精油植物mono-TPS氨基酸序列结构与理化性质基本一致,具有亲水性,多不稳定,不含跨膜结构域;可能定位在质膜、线粒体内膜、细胞核或线粒体基质中;二级结构以α螺旋和无规则卷曲为主要构件,序列中包括底物结合区、镁离子结合位点和天冬氨酸富集区,具有典型的植物萜类环化酶活性结构域,是Isoprenoid-Biosyn-C1超级家族成员之一,是一种类异戊二烯生物合成酶。通过进化树分析单萜合成酶,艾草与玉米进化程度相似。[结论]该研究结果可为精油植物单萜化合物的研究提供理论基础。

关键词 精油植物;单萜合成酶;生物信息学分析

中图分类号 Q 946文献标识码 A文章编号 0517-6611(2023)15-0088-05

doi:10.3969/j.issn.0517-6611.2023.15.021

Bioinformatics Analysis of Monoterpene Synthase in Ten Essential Oil Plants Including Artemisia argyi

JING Bing-nian,WEI Lei,XIE Xiao-yang et al

(Henan Plant Natural Products Development Engineering Technology Center,Henan Academy of Sciences,Zhengzhou,Henan 450002)

Abstract [Objective]To compare and analyze the nucleotide and amino acid sequences of mono-TPSs from ten essential oil rich plants.[Method]The nucleotide and amino acid sequences of ten mono-TPS genes were analyzed using bioinformatic softwares and websites,and the physical and chemical properties,secondary/tertiary structures and functional domains were predicted.[Result]Results showed that the structure and chemical properties of mono-TPSs from the ten essential oil plants were basically consistent,which were hydrophilic,unstable and did not contain transmembrane domains.The ten mono-TPSs might be located in plasma membrane,mitochondrial inner membrane,nucleus or mitochondrial matrix.The α-helix and random coil were found the main component of all the mono-TPS secondary structure.The sequence included substrate binding region,magnesium ion binding site and aspartic acid enrichment region,and had a typical plant terpene cyclase activity domain,belonging to the isoprenoid-biosyn-c1 superfamily.The phylogenetic anylysis showed Artemisia argyi was similar with Zea mays in degree of evolution.[Conclusion]These analysis results can provide a theoretical basis for the study of monoterpenes in essential oil plants.

Key words Essential oil plants;Monoterpene synthase;Bioinformatics analysis

單萜类化合物在植物中广泛存在,种类繁多,赋予植物特殊的香气和生物活性,是植物精油主要的组成成分,广泛应用于食品、化妆品和医药行业[1]。如艾草精油,以桉油精、龙脑、马鞭草烯醇、α-蒎烯、莰烯、β-蒎烯、4-蒈烯、桉叶油醇、γ-松油烯、樟脑、甲酸異莰酯、4-萜烯醇(4.66%)等单萜类化合物最为丰富[2],既是重要的香味物质,又具有良好的抗菌抗病毒效果。互叶白千层精油,主要成分为蒎烯、柠檬烯、1,8-桉叶素等单萜类化合物[3],广泛应用于化妆品和食品保鲜剂。傣药紫色姜精油,包含α-侧柏烯、β -侧柏烯、α-异松油烯、桧烯、γ-松油烯等单萜类物质[4],在治疗多种真菌皮肤疾病及其皮肤保健护理方面颇具独特疗效。

单萜类化合物在植物体内的生物合成途径较为复杂,由多种酶进行表达、催化及合成调控。其中,单萜合成酶(monoterpene synthase,mono-TPS)是重要的关键限速酶之一,调控2-C-甲基-D-赤藻糖醇-4-磷酸途径下游,将共同前体香叶基焦磷酸进行环化和异构化,生成多个立体化学构象不同的单萜类化合物[5-7]。生物信息学是一门结合现代生命与信息科学、数学、计算机科学等重要学科而形成的新兴的交叉学科,它以计算机为工具对蛋白质及核酸序列等生物信息进行储存、检索和比对分析,从而预测其分子的结构与功能及两者之间的相互作用关系[8]。生物信息学快速发展对生命科学影响深远,并极大促进其他相关发展领域的进步。

笔者利用生物信息学方法对艾草、紫色姜等10种富含精油的药用或食用植物的mono-TPS基因及编码的氨基酸序列的一级结构(包括组成、理化性质、亲-疏水性和亚细胞定位)、二级结构、功能结构域、三级结构和亲缘进化关系等进行分析预测,以期为今后开展mono-TPS的表达、转化及功能鉴定等深层次研究提供理论基础。

1 材料与方法

1.1 材料

艾草(Artemisia argyi)mono-TPS mRNA序列来自参考文献[9],紫色姜(Zingiber montanum)、互叶白千层(Melaleuca alternifolia)、檀香(Santalum album)、铁观音茶(Camellia sinensis)、合欢(Albizia julibrissin)、蓖麻(Ricinus communis)、小果咖啡(Coffea arabica)、中华猕猴桃(Actinidia chinensis)和玉米(Zea mays)mono-TPS mRNA序列来自National Center of Biotechnology Information (NCBI)基因序列数据库,登录号和cDNA长度见表1。

1.2 方法

10种精油植物核苷酸和氨基酸序列通过NCBI网站在线分析;相对分子质量、等电点、不稳定系数等理化性质通过Protparam进行在线分析;蛋白质磷酸化位点通过NetPhos 3.1 Server进行预测;跨膜结构域通过TMHMM Server v.2.0进行预测;亲/疏水性通过ProtScale进行预测;亚细胞定位通过PSORT Prediction进行分析。二级结构通过SOPMA进行分析,功能域通过Conserved domains软件进行预测;通过SWISS-MODEL完成mono-TPS蛋白高级结构同源建模;通过MEGA7.0.26软件构建mono-TPS系统进化树。具体网址见表2。

2 结果与分析

2.1 核苷酸及其氨基酸序列的结构和理化性质

10种精油植物mono-TPS序列的理化性质通过ProtParam在线网站进行分析预测(表3)。可知mono-TPS核苷酸序列起始密码子都是ATG,终止密码子是TAG、TGA或TAA;编码氨基酸数在527~621,平均为584.7个;各蛋白相对分子质量在61 162.97~70 468.28 kD,平均为67 442.74 kD;理论等电点在5.42~6.01,平均为5.68,表明mono-TPS为酸性蛋白。从氨基酸组成上可知,酸性氨基酸残基比例较碱性氨基酸残基比例高,表明mono-TPS蛋白为酸性;10种植物mono-TPS蛋白中,亮氨酸(Leu)、天冬氨酸(Asp)、丙氨酸(Ala)、谷氨酸(Glu)、丝氨酸(Ser)和异亮氨酸(Ile)为含量最多的氨基酸残基。总原子数范围在8 549~9 838,平均为9 437,消光系数为1.298~1.741,平均为1.507。檀香和蓖麻的不稳定系数小于40,属稳定蛋白,其余均不稳定。

2.2 磷酸化位点

磷酸化在蛋白质翻译后修饰中最为普遍,通过对底物蛋白的苏氨酸、丝氨酸和酪氨酸进行磷酸基团转移而调节蛋白质活性和功能,从而调控各种细胞活动,因而磷酸化位点的确定非常关键,是认识蛋白质作用分子机理的基础[10]。该研究中10种精油植物mono-TPS蛋白磷酸化位点通过NetPhos 3.1 Server进行分析预测,个数最小的是艾草(41个),最多的是玉米(63个)。以艾草为例,共有41个磷酸化位点(图1),其中19个丝氨酸磷酸化位点,分别是S35、S39、S54、S78、S146、S163、S184、S189、S195、S224、S234、S268、S270、S336、S387、S435、S460、S490、S515;12个苏氨酸磷酸化位点,分别是T19、T82、T95、T193、T196、T209、T210、T313、T405、T409、T450、T475;10个酪氨酸磷酸化位点,分别是Y84、Y97、Y190、Y340、Y343、Y380、Y414、Y448、Y452、Y522。

2.3 亲-疏水性、跨膜结构域和亚细胞定位特征

2.3.1 蛋白亲-疏水性的分析预测。

蛋白质亲-疏水作用是其折叠的主要驱动力,对亲-疏水性的分析和验证对蛋白质的稳定性、构象和功能具有重要意义[11]。笔者采用 Protscale进行预测分析,以艾草为例,多肽链第47位氨基酸亲水性分值最低(-2.644),第396位氨基酸疏水性分值最高(2.800),亲水性和疏水性氨基酸占比分别为65.8%和34.2%,推测为亲水性蛋白。其余9种mono-TPS肽链亲水性氨基酸占比在铁观音茶的62.8%到紫色姜的71.5%,推测均为亲水性蛋白。

2.3.2 跨膜结构域特征。

跨膜结构是蛋白质与膜内在蛋白的静电相互作用和氢键键合相互作用与膜结合的一段氨基酸片段,一般由20个左右的疏水性氨基酸残基组成,主要形成α螺旋,常由跨膜蛋白的效应区域所展现[12]。该研究中10种精油植物mono-TPS蛋白跨膜结构通过TMHMM Server v.2.0进行分析預测,结果表明(以艾草为例),10个mono-TPS蛋白均没有跨膜结构域,说明mono-TPS蛋白不是膜蛋白(图2)。

2.3.3 亚细胞定位特征。

大多数在细胞质中合成的蛋白质会被转运到特定的亚细胞位置中发挥生物学功能,且只有位置正确时才能正确行使功能,因此对蛋白质亚细胞定位的分析预测能极大加速对其结构和功能的研究[13]。该研究中10种精油植物mono-TPS蛋白亚细胞定位通过PSORT Prediction进行分析预测。结果表明(表4),10种精油植物的亚细胞定位各不相同,其中艾草mono-TPS最有可能定位在质膜上,其肯定度为0.700;蓖麻mono-TPS最有可能定位在线粒体内膜上,其肯定度为0.570;合欢和小果咖啡最有可能定位在细胞核上,分别为0.760、0.674;互叶白千层则在线粒体基质中,为0.653。

2.4 10种精油植物mono-TPS蛋白二级结构预测

在生物信息学领域,很难从蛋白质一级结构预测其高级结构,因而蛋白质二级结构预测受到很多人重视。二级结构是多肽链局部空间结构,是构成蛋白质高级空间立体结构的基本要素,二级结构的预测分析对研究蛋白质的结构和功能有着极其深远的意义[14]。通过SOPMA分析预测10种精油植物mono-TPS蛋白二级结构,可知10种精油植物mono-TPS中均有4种二级结构元件,包括α螺旋(所占比例最高)、无规则卷曲、β折叠和延伸链。以艾草mono-TPS为例,α螺旋占比72.30%、无规卷曲占比20.87%、β折叠占比3.80%和延伸链占比3.04%。其余9种mono-TPS蛋白4种结构元件组成与艾草mono-TPS相似(表5)。由于α螺旋占比大于45%,而且β折叠占比小于5%,因此10种精油植物mono-TPS蛋白均属于全α型蛋白。

2.5 蛋白质功能结构域的分析预测

功能结构域通常是由50~400个氨基酸残基构成的球状实体,它在蛋白质中可以独立稳定存在,并且与完成蛋白质功能有着密切的关系[15]。该研究以艾草mono-TPS为例,其保守区和功能域通过Conserved domains进行分析预测,结果如图3所示。艾草mono-TPS蛋白保守区域为底物结合口袋、镁离子结合位点和2个天冬氨酸富集区,具有典型的植物萜类环化酶活性结构域,能将无环的异戊二烯二磷酸进行环化,是Isoprenoid-Biosyn-C1超级家族成员之一。其余9种植物mono-TPS与艾草相似,均属类异戊二烯生物合成酶。

2.6 10种精油植物mono-TPS蛋白三级结构的预测分析 蛋白质的三级结构是蛋白质分子处于天然折叠状态的三维构象,是在二级结构的基础上进一步盘绕、折叠形成的[16],因此预测分析蛋白质三级结构对于认识其功能具有重要意义。笔者以艾草mono-TPS为例,其三级结构通过SWISS-MODEL进行分析预测,同源建模匹配到的模板蛋白为来自杨柳科杨属植物银灰杨(Populus canescens)的异戊二烯合成酶(ACCESSION:3n0f.1.A)。2个mono-TPS蛋白序列一致性为31.73%,GMQE值为0.75,因此分析预测结果较理想。艾草mono-TPS蛋白3D结构通过Swiss Pdb-Viewer工具进行显示(图4),表明其为单体蛋白结构。

2.7 10种精油植物mono-TPS蛋白的系统进化树

进化树是描述生物体形成或进化顺序的拓扑树结构,通常是二叉树的形状,一般由一系列节点分支组成,节点代表某个具体序列,节点之间的连线代表物种之间的亲缘关系。进化树可以分析不同物种之间的亲缘关系远近,有助于判断生物体在进化过程中的地位及在遗传本质上探究生物体多样性的产生机制[17]。用MEGA 7.0.26软件对10种精油植物mono-TPS蛋白构建系统进化树。结果显示,10个植物物种之间呈现明显的亲缘关系,其中紫色姜与合欢、互叶白千层与小果咖啡、艾草与玉米、檀香与中华猕猴桃这4组两两物种之间亲缘关系最近,进化程度距离也最近(图5)。

3 讨论与结论

不同精油植物中单萜类化合物种类多、香气特征明显,其基本碳架由2个异戊二烯单位构成,结构最为简单,其中具有花香和果香的精油或单萜化合物已经在食品、空气清新剂和化妆品等行业得到广泛应用,具有生物活性的精油或单萜类化合物也在医药产品和健康产品领域得到广泛应用。植物中萜类化合物的多样性主要由于萜类合成酶种类多样造成的,在一种植物中可能存在多种萜类合成酶[18],单萜合成酶是单萜生物合成的关键酶,决定了单萜结构的多样性[19]。

单萜合成酶为亲水性蛋白,多数不稳定,不存在跨膜结构域;亚细胞定位预测可能定位在质膜线粒体内膜、细胞核或线粒体基质中。10种精油植物的单萜合成酶的二级结构以α螺旋和无规则卷曲为主,均包括底物结合区、镁离子结合位点和天冬氨酸富集区,具有典型的植物萜类环化酶活性结构域,是Isoprenoid-Biosyn-C1超級家族成员之一,是一种类异戊二烯生物合成酶。三级结构预测分析显示,单萜合成酶为单体结构蛋白。通过系统进化树分析单萜合成酶,结果表明,艾草和玉米进化程度相似,与中华猕猴桃、檀香、铁观音茶进化相距较远。

参考文献

[1] 王印国.常见单萜类化合物及其在植物中的分布[J].现代农业科技,2012(16):185-186.

[2] 冷佳政,仇越鹏,韩改英,等.邯郸鲜艾与陈艾草精油化学成分的GC-MS分析[J].魅力中国,2021(4):442-443.

[3] 刘义军,袁源,刘洋洋,等.不同因素对互叶白千层精油化学组分的影响[J].食品工业科技,2019,40(1):1-5.

[4] 潘美贞,童汉青,黄敏.超临界CO2萃取傣药紫色姜精油的GC-MS分析[J].广州化工,2009,37(7):119-120.

[5]  LICHTENTHALER H K.The 1-deoxy-D-xylulose-5-phosphate pathway of isoprenoid biosynthesis in plants[J].Annual review of plant physiology and plant molecular biology,1999,50:47-65.

[6]  HUNTER W N,BOND C S,GABRIELSEN M,et al.Structure and reactivity in the non-mevalonate pathway of isoprenoid biosynthesis[J].Biochemical society transactions,2003,31(3):537-542.

[7]  DEGENHARDT J,KLLNER T G,GERSHENZON J.Monoterpene and sesquiterpene synthases and the origin of terpene skeletal diversity in plants[J].Phytochemistry,2009,70(15/16):1621-1637.

[8]  秦琴.基于降噪的谱聚类分析蛋白质算法及系统的研究与实现[D].济南:山东大学,2015.

[9]  刘雷,罗英,陶红,等.艾草(Artemisia argyi)单萜合成酶基因的克隆及序列分析[J].热带作物学报,2016,37(7):1349-1356.

[10] 余中洲,高强,阴玉涵,等.细胞核蛋白质磷酸化位点的预测方法研究[J].金陵科技学院学报,2020,36(2):47-51.

[11] 周斯涵,刘月兰.基于数据挖掘与机器学习的蛋白质疏水性分析的研究[J].哈尔滨师范大学自然科学学报,2017,33(3):34-38.

[12] 付海辉,辛培尧,许玉兰,等.几种经济植物UFGT基因的生物信息学分析[J].基因组学与应用生物学,2011,30(1):92-102.

[13] 余静,张靖.基于多标记学习的蛋白质亚细胞定位预测研究综述[J].信息技术与信息化,2021(3):112-114.

[14] 赵亚武,刘毅慧.基于优化的卷积神经网络的蛋白质二级结构预测[J].计算机应用与软件,2021,38(7):147-152,166.

[15] 王文娟,李凤敏.核定位蛋白的结构域特征分析[J].内蒙古大学学报(自然科学版),2018,49(1):70-76.

[16] 丁静,钱俊青.蛋白质二级与三级结构的表征方法[J].浙江化工,2020,51(11):49-54.

[17] 遲文静,刘宜昕,王粟,等.进化树在细菌亲缘关系分析中的应用研究[J].检验医学,2020,35(12):1310-1314.

[18] 李天娇,冷平生,杨凯,等.百合单萜合成酶基因的克隆与序列分析[J].北京农学院学报,2014,29(3):6-10.

[19] 徐应文,吕季娟,吴卫,等.植物单萜合酶研究进展[J].生态学报,2009,29(6):3188-3197.

基金项目 河南省科技攻关项目(222102110219);河南省科学院重大科研项目聚焦专项(210113003)。

作者简介 景炳年(1980—),男,甘肃兰州人,助理研究员,博士,从事植物保护研究。*通信作者,副研究员,博士,从事植物化学及分子生物学研究。

收稿日期 2022-08-29;修回日期 2022-09-21

猜你喜欢
生物信息学分析
陕西杨凌地区TYLCV病毒生物信息学分析研究