长春花密码子使用偏好性分析

2017-02-13 17:14李滢匡雪君朱孝轩朱英杰孙超
中国中药杂志 2016年22期
关键词:长春花基因组

李滢 匡雪君 朱孝轩 朱英杰 孙超

[摘要] 以长春花为研究对象,分析其密码子使用偏好性,以期为相关基因的异源表达、基因的预测、物种的进化研究提供指导。该研究以长春花的30 437条蛋白质编码序列为数据来源,对长春花密码子组成和密码子偏性的各项参数进行了计算和统计分析。计算了长春花萜类吲哚生物碱(terpenoid indole alkaloids, TIAs)生物合成途径中25个关键酶基因含有大肠杆菌或酿酒酵母稀有密码子的比例。结果显示,长春花基因的平均GC量为42.47%,密码子第3位碱基平均GC量为35.89%。长春花中共有28个密码子的同义密码子相对使用度(relative synonymous codon usage,RSCU)大于1,其中26个以A或T结尾。25个关键酶基因含有大肠杆菌稀有密码子的比例明显高于酿酒酵母稀有密码子的比例。长春花主要偏爱使用以A和T结尾的密码子;相比于酿酒酵母,其密码子使用特点与大肠杆菌的差异更大,推测酿酒酵母可能是长春花基因更合适的异源表达宿主。

[关键词] 长春花; 基因组; 密码子偏好性; 萜类吲哚生物碱; 生物合成途径

Codon usage bias of Catharanthus roseus

LI Ying1, KUANG Xuejun1, ZHU Xiaoxuan1, ZHU Yingjie2, SUN Chao1*

(1. Institute of Medicinal Plant Development, China Academy of Medical Sciences and Peking Union

Medical College, Beijing 100193, China;

2. Institute of Chinese Materia Medica, China Academy of Chinese Medical Sciences, Beijing 100700, China)

[Abstract] This study aimed to provide guidance for the heterogenous gene expression, gene prediction and species evolution by analyzing codon usage bias of Catharanthus roseus.The codon composition and usage bias of 30 437 highconfidence coding sequences from C.roseus were analyzed and the proportion of rare codons of Escherichia coli and Saccharomyces cerevisiae in 25 genes involved in the biosynthesis of terpenoid indole alkaloids (TIAs) in C.roseus were calculated.The results showed that the average GC content of the genes was 42.47%; the average GC content of the third bases in codon was 35.89%.The relative synonymous codon usage (RSCU) of 28 codons were greater than 1 and 26 of them ended with A or T.The above 25 genes involved in TIA biosynthesis contained much more rare condons of E.coli than that of S.cerevisiae.It was concluded that C.roseus mainly prefered the codons ending with A or T and the rule of codon usage was more different to E.coli than S.cerevisiae.Thus, S.cerevisiae may be more suitable host for heterologous expression of these genes.

[Key words] Catharanthus roseus; genome; codon bias; terpenoid indole alkaloids; biosynthetic pathways

doi:10.4268/cjcmm20162213

长春花Catharanthus roseus(L.) G . Don为夹竹桃科长春花属多年生草本植物,既是一种广泛栽培的观赏花卉,也是研究萜类吲哚生物碱合成的重要药用模式植物。到目前为止,已从长春花中分离出的生物碱达130 个以上[1],主要是TIAs,其中一些已经在现代医疗领域得到了广泛的应用[2]。如长春碱和长春新碱,现已被广泛应用于何杰金氏病、恶性淋巴肿瘤、急性淋巴细胞型白血病、绒毛上皮细胞癌以及一些其他癌症的治疗;阿玛碱和蛇根碱作为高效降压药物在临床中使用;文多灵和长春质碱具有明显的降血脂作用[3]。

密码子是生物体信息传递的基本单位,一个氨基酸的密码子可以有1个或最多6个,编码同一个氨基酸的密码子叫同义密码子[4]。同一个物种的不同基因或不同物种同义密码子的使用频率不同,一些密码子使用频率更高,这种不均衡使用的现象称为密码子使用偏好性(codon usage bias, CUB)[45]。许多证据表明,密码子使用偏好性是突变压力和自然选择的结果[67]。此外,还和mRNA二级结构和稳定性[8],翻译的速度和准确度[9],蛋白质折叠[10]等因素有关。

密码子偏好性在基因的异源表达研究方面具有重要的作用。基因的表达量越高,密码子偏好性越强[1112],根据这一原则,可以替换基因的低效密码子来提高外源基因的表达,还可以根据密码子使用的偏好性选择合适的宿主表达系统。研究密码子偏好性能对分子水平的基因预测,分类和进化提供重要的信息。

本文对长春花的密码子使用偏好性进行了系统研究, 并对长春花中TIAs 合成途径25个关键酶编码基因的密码子偏好性与大肠杆菌和酵母基因组的密码子偏好性进行比较,以期为基因表达选择合适的表达系统。

1 材料与方法

1.1 数据来源 长春花基因组数据参见文献[13],通过编写Perl语言程序对数据进行筛选,共筛选出碱基数大于等于300 bp的蛋白质编码序列 (coding sequence, CDS) 30 437条,作为密码子分析的数据来源。本文所采用的大肠杆菌、酵母基因组的密码子偏好性数据来源于Codon Usage database(http://www.kazusa.or.jp/codon/)。

长春花TIA合成途径中已被鉴定的25个关键酶编码基因序列的NCBI登录号分别为:AY352047.1,EF444544.1, X69791.1,AF053307.1,KF415115.1,AB733667.1,AF250235.1,KC625536.1,DQ848672.1,AJ011840.2,AJ251269.1,JN882024.1, M96068.1,EU135981.1,JX974564.1,EU057974.1,AF250236.1,HM462021.1,HM462019.1,HM462020.1,AM236087.1,AF112888.1,L10081.1,X53602.1,FJ647 194.1。

1.2 参数统计方法 采用Codon W来对密码子的组成以及密码子使用偏好性的度量指标进行计算和统计分析。

密码子组成的度量指标包括GC量(鸟嘌呤和胞嘧啶量)、密码子第3位碱基组成(G3,A3,T3,C3)、GC3s(同义密码子第3位的G+C量)等;密码子使用偏好性的度量指标包括有效密码子数(ENC)、同义密码子相对使用度(RSCU)等。

有效密码子数(effective number of codons,ENC)是检测单个基因密码子非均衡使用的偏好程度,取值在20(每个氨基酸只使用一个密码子)~61(各个密码子被均衡使用),ENC值越低,表示该基因的密码子使用偏好性越强[14]。

RSCU是指某一个密码子使用的频率与平均使用期望值的比值,它去除了氨基酸组成对密码子使用的影响。RSCU值为1,表示密码子使用没有偏好性;RSCU>1,表示该密码子使用频率较其他同义密码子更高,反之亦然[15]。

2 结果

2.1 长春花基因的密码子组成分析 长春花30 437条高置信蛋白编码基因CDS区序列的GC量25.40%~60.90%,平均GC量42.47%,低于大肠杆菌基因组平均GC量52.35%,同时略高于酿酒酵母基因组平均GC量39.77%;第3位碱基平均GC量35.89%,低于平均GC量42.47%;密码子第3位A 和 T 的使用频率(分别为36.59%,43.16%)高于G和C的使用频率(分别为25.12%,21.43%),这说明长春花较偏爱使用以A和T结尾的密码子,而对G和C结尾的密码子使用较少;第3位碱基平均GC量(35.89%)显著低于大肠杆菌基因组密码子第3位碱基平均GC量55.62%,并略低于酿酒酵母基因组密码子第3位碱基平均GC量38.10%,可见长春花密码子使用并无对GC碱基的特殊偏好,且相比于酿酒酵母,其密码子使用特点与大肠杆菌的差异更大。

2.2 长春花基因有效密码子数(ENC)分析 经CodonW分析计算,ENC值为29.07~61.00,长春花基因整体的有效密码子数为51.15,其中ENC值为61.00的CDS有1 123条,占所有CDS的3.690%,代表没有密码子使用偏好性的基因。根据Wright等[1617]的标准,将ENC值35.00作为偏好性强弱的区分标准,ENC值小于35.00的基因被认为有较强的密码子使用偏好。在长春花基因组CDS的分析结果中,取值从29.07~35.00的CDS共有125条,占所有CDS的0.410 7%;取值从35.01~61.00的CDS共有30 312条,占所有CDS的99.59%。这说明长春花中绝大多数基因(99.59%)的密码子使用偏好性并不强,并且有大量的基因(3.690%)对同义密码子使用没有偏好性,仅有一小部分基因(0.410 7%)表现出较强的密码子使用偏好。整体而言,长春花大多数蛋白编码基因的密码子使用偏好性较弱。

2.3 长春花基因密码子偏性分析 长春花中共有27个密码子的RSCU值大于1(表1),表明有可能是长春花偏好使用的密码子。除了只由一种密码子编码的Trp和Met外,编码Phe,Leu,Ser,Tyr,Cys,Pro等的密码子以及终止密码子存在比较明显的偏性。例如,Phe偏爱密码子TTT;Leu偏爱密码子TTG,CTT;Ser偏爱密码子TCT,TCA,AGT。RSCU值大于1的28个密码子中,有26个以A或T结尾,表明长春花基因对A和T碱基有明显的偏好性;同时发现偏爱密码子中一般含有较多的A或T,而G或C量较少,这一现象与长春花基因组中平均GC量较低(42.47%)的现象是一致的,所以密码子的选择上,占优势的密码子中含有更多的A或T。

2.4 关键基因在大肠杆菌和酵母中的表达 根据 Codon Usage Database 数据, 大肠杆菌中最稀有的6个密码子分别为:AGG,AGA,CGA,CTA,TGT,ATA,其中有3个稀有密码子(AGA,CGA,TGT)是长春花偏好使用的密码子。如果长春花基因中含有较多的AGA,CGA,TGT密码子,该基因可能会在大肠杆菌中表达困难;酿酒酵母中最稀有的6个密码子分别为:CGG,CGC,CGA,TGC,CCG,CTC,其中仅CGA为长春花偏好使用的密码子。因此与酵母相比,大肠杆菌的密码子使用偏好性与长春花的差别更大。

为了更直观地预测长春花基因在宿主大肠杆菌和酵母中的表达情况,选取25个已被鉴定的长春花TIAs合成途径关键酶编码基因,分别计算其基因序列中大肠杆菌和酿酒酵母稀有密码子所占比例。大肠杆菌稀有密码子在TIAs基因中所占比例明显高于酿酒酵母稀有密码子(图1),比值为:大肠杆菌4.167%~9.615%,酿酒酵母1.437%~6.319%,

这表明长春花TIAs合成途径酶基因在大肠杆菌中表达可能会受到较大的限制。因此若需将TIAs基因在大肠杆菌中表达,可以根据密码子偏性部分改造密码子,来适应大肠杆菌的密码子使用偏好性,从而提高表达效率。

3 讨论

本研究首先对长春花基因组的密码子组成、密码子偏性进行了综合分析,发现长春花主要偏爱使用以A和T结尾的密码子,且相比于酿酒酵母,其密码子使用特点与大肠杆菌的差异更大。虽然影响外源基因在宿主中表达的因素较多, 但是密码子的选用是影响表达的重要因素之一,选择密码子偏性相近的宿主,可能有利于外源蛋白质的高效表达。通过分析长春花中25个TIAs合成途径关键酶编码基因中大肠杆菌和酿酒酵母稀有密码子所占比例,发现其与酿酒酵母密码子偏爱性差异较小,提示酿酒酵母可能是长春花基因更合适的异源表达宿主,若要实现该途径基因在大肠杆菌中的高效表达则需对部分密码子进行改造。

[参考文献]

[1] Uniyal G C, Bala S, Mathur A K, et al. Symmetry C18 column:a better choice for the analysis of indole alkaloids of Catharus roseus [J]. Phytochem Anal, 2001, 12(3):206.

[2] Vander H R, Jacobs D I, Snoeijer W, et al. The Catharus alkaloids:pharmacognosy and biotechnology[J]. Curr Med Chem, 2004, 11(5):607.

[3] Pasquali G, Porto D D, FettNeto A G. Metabolic engineering of cell cultures versus whole plant complexity in production of bioactive monoterpene indole alkaloids:recent progress related to old dilemma[J]. J Biosci Bioeng,2006, 101(4):287.

[4] Ikemura T. Codon usage and tRNA content in unicellular and multicellular organisms[J]. Mol Biol Evol, 1985,2(1):13.

[5] 朱孝轩,朱英杰,宋经元,等.基于全基因组和转录组分析的赤芝密码子使用偏好性比较研究[J].药学学报,2014,49(9):1340.

[6] Trotta E. Selection on codon bias in yeast:a transcriptional hypothesis[J].Nucleic Acids Res,2013,41(20):9382.

[7] Bulmer M. The selectionmutationdrift theory of synonymous codon usage[J]. Genetics, 1991, 129(3):897.

[8] Presnyak V,Alhusaini N, Chen Y H,et al. Codon optimality is a major determinant of mRNA stability[J]. Cell,2015, 160(6):1111.

[9] Yang J R, Chen X, Zhang J. Codonbycodon modulation of translational speed and accuracy via mRNA folding[J]. PLoS Biol, 2014, 12(7):e1001910.

[10] ForoughmandAraabi M H, Goliaei B, Alishahi K, et al.Dependency of codon usage on protein sequence patterns:a statistical study[J]. Theor Biol Med Model, 2014, 11:2.

[11] Quax T E, Claassens N J, Sll D, et al. Codon bias as a means to finetune gene expression[J].Mol Cell, 2015, 59(2):149.

[12] AcostaRivero N, Sanchez J C, Morales J. Improvement of human interferon HUIFNalpha2 and HCV core protein expression levels in Escherichia coli but not of HUIFNalpha8 by using the tRNA(AGA/AGG)[J]. Biochem Biophys Res Commun,2002,296(5):1303.

[13] Kellner F, Kim J, Clavijo B J, et al. Genomeguided investigation of plant natural product biosynthesis[J]. Plant J,2015, 82(4):680.

[14] Fuglsang A. The effective number of codons for individual amino acids:some codons are more optimal than others[J]. Gene, 2003, 320:185.

[15] Sau K, Gupta S K, Sau S, et al. Factors influencing synonymous codon and amino acid usage biases in mimivirus[J]. Biosystems, 2006, 85(2):107.

[16] Wright F. The ′effective number of codons′ used in a gene[J].Gene, 1990, 87(1) :23.

[17] Jiang Y, Deng F, Wang H, et al. An extensive analysis on the global codon usage pattern of baculoviruses[J].Arch Virol, 2008, 153(12):2273.

[责任编辑 孔晶晶]

猜你喜欢
长春花基因组
绽放四季的长春花
牛参考基因组中发现被忽视基因
血清HBV前基因组RNA的研究进展
长春花之歌
紫花白及基因组DNA提取方法的比较
均匀设计实验对长春花愈伤组织诱导条件的优化
基因组育种值估计的贝叶斯方法
有趣的植物基因组
基因组生物学60年
长春花组织培养研究进展