海南2种龙脑香科植物叶绿体基因组密码子偏好性分析

2020-12-24 13:06尹为治黄良鸿龙文兴李佳灵
林业调查规划 2020年6期
关键词:偏性密码子青梅

尹为治,方 正,黄良鸿,龙文兴,李佳灵,

(1.海南五指山国家级自然保护区管理局,海南 五指山 572200;2.海南大学,海南 海口 570100)

密码子偏性反映了物种或基因的起源、进化及突变方式,对蛋白质表达等有重要的影响[1]。分析不同物种的密码子使用模式及影响因素,有助于理解生物与环境适应的分子机制、探讨物种间的进化关系[2]。叶绿体基因组具有相对保守的分子结构、序列获得容易和进化速率适中等特点,被广泛运用于植物多样性、系统发育、DNA条码开发等研究中[3-5]。

龙脑香科植物是亚洲热带雨林的代表植物,是海南热带低地雨林的代表中,分布有坡垒属坡垒(Hopeahainanensis)和无翼坡垒(铁凌Hopeaexalata)、青梅属青梅(Vaticamangachapoi)[6-7],均为国家重点保护野生植物。目前,对龙脑香科植物的研究,主要集中于资源状况、种群特征、繁育技术、开发利用价值[8-9]等方面。而龙脑香科植物叶绿体基因组密码子偏好性的研究,仅见于Raju Biswas等针对龙脑香科matK、rbcL叶绿体基因进行密码子偏好性分析[10]。虽然坡垒和青梅的叶绿体全基因组已完成测序[11-12],但关于两者的叶绿体基因组编码基因的密码子使用模式比较的研究尚未见报道。

在前人研究的基础上,对坡垒和青梅的叶绿体基因组中密码子碱基组成特点及使用偏性进行比较分析,揭示其密码子偏性的影响因素,分析最优密码子,旨在为坡垒、青梅等龙脑香科植物叶绿体基因组的应用和研究提供科学的参考依据。

1 材料与方法

1.1 数据来源

从NCBI分别下载坡垒、青梅叶绿体全基因组序列信息,登录号为NC_044642.1、NC_041485.1,各获得了82和83条编码基因。为降低误差,筛选其中以AUG为起始密码子且长度超过300 bp的非重复序列,分别为49条、51条基因,用于后续分析。研究中的统计分析使用SPSS 22及R语言完成。

1.2 研究方法

1.2.1密码子组成分析

运用CodonW(http://www.seekbio.com/)和CUSP(http://imed.med.ucm.es/EMBOSS/)软件分析有效密码子数(ENC)、密码子第三位碱基组成(T3、C3、A3、G3),密码子第1、2、3位碱基G+C及45个基因总GC含量(GC1、GC2、GC3、GC)。

1.2.2中性绘图

以GC1和GC2平均值(GC12)为纵坐标,GC3为横坐标,分析GC3与GC12的相关性。若二者呈显著相关关系,说明碱基的变异模式相同,密码子的使用受突变的影响;反之,则表示基因有较高的保守性,密码子使用受选择压力的影响较大[13]。

1.2.3PR2-plot分析

为避免密码子第3位AT和GC之间突变不平衡,统计编码丙氨酸、甘氨酸、亮氨酸(CTT、CTC、CTA、CTG)、脯氨酸、精氨酸(CGT、CGC、CGA、CGG)、丝氨酸(TCT、TCC、TCA、TCG)、苏氨酸、缬氨酸的密码子第3位碱基的组成情况,以A3/(A3+T3)为纵坐标,G3/(G3+C3)为横坐标绘制散点图[14]。

1.2.4ENC-plot绘图分析

ENC-plot 绘图用于分析突变在密码子使用模式中的作用。以各基因的ENC、GC3值为纵、横坐标,用R语言做散点图,并与ENC期望值ENC=2+GC3+29/(GC32+(1-GC3)2)进行比较。当实际ENC值与预期ENC值差异较小时,表明突变对密码子偏好性影响较大;反之,选择为影响密码子偏好性的主要因素[14]。

1.2.5最优密码子分析

对ENC值进行排序,从两极各选出10%基因作为高、低表达组,分别计算对应的相对同义密码子使用度(RSCU)值,筛选高低表达组内对应密码子△RSCU之差大于0.08作为高表达优越密码子,并与整体密码子RSCU进行结合比较,将△RSCU>0.08,且整体RSCU>1的密码子定义为最优密码子[13]。

2 结果与分析

2.1 密码子组成分析

通过CodonW和CUSP对坡垒、青梅叶绿体基因组的CDS进行分析,结果如表1所示:坡垒、青梅叶绿体编码基因密码子T3和A3含量分别为46.89%、41.74%和46.85%、41.64%,表明坡垒、青梅叶绿体编码基因第三位碱基以A/T为主。ENC值分别为50.26、50.29。一般认为ENC取值35作为偏性强弱的区分标准[15-16]。因此,坡垒、青梅叶绿体基因组的密码子偏好性较弱。

表1 坡垒、青梅叶绿体基因组密码子第3位碱基组成及GC含量

通过各编码基因GC、ENC含量计算,获得结果如表2所示:不同基因的GC含量存在一定的差异,大部分基因的GC1含量高于GC2和GC3。atpF、cemA、rps3、rps14基因的ENC值在坡垒与青梅间的差值分别为10.75、5.17、-5.83、11.57,说明坡垒的atpF、cemA、rps14基因的密码子偏性强于青梅,rps3基因的密码子偏性弱于青梅。坡垒叶绿体基因组中不存在rpl16基因,而psbC基因的起始密码子为ACG,因此坡垒与青梅存在一定的种间差异。

表2 坡垒、青梅叶绿体编码基因密码子GC含量

GC1、GC2、CG3、GC、ENC及序列长度(sequence Length,SL)相关性分析结果见表3。GC与GC1、GC2、CG3均为极显著相关,SL与CG3均显著相关,GC3与GC1、GC2相关性均不显著,而GC1与GC2均存在相关关系。可见,两种植物间第一、二位碱基组成相似,第三位碱基组成存在较大差异。坡垒ENC与GC1和SL显著相关,相关值为0.357、0.287。青梅ENC与CG3极显著相关。坡垒第1位碱基组成对叶绿体基因组密码子偏性影响强于序列长度,青梅则是第3位碱基组成对密码子偏性影响较大。

表3 密码子相关参数的相关性分析

2.2 中性绘图分析

中性分析散点图显示(图1),坡垒GC12分布范围在 0.344 8~0.561 2,GC3在0.214 9~0.378 9;青梅GC12在 0.347 0~0.557 6,GC3在0.225 5~0.376 3。两者GC3与GC12的Pearson相关系数分别为0.161、0.118。双尾检验相关性不显著(p>0.05)。密码子第1、2位碱基的突变模式不同于第3位,基因序列的突变偏性较小而更多地受到选择压力的影响。

注:坡垒横坐标平均位置为 0.467 2±0.097 0,纵坐标为 0.448 8± 0.066 9;青梅横坐标平均位置为 0.467 8±0.101 4,纵坐标为 0.450 7±0.069 7。

2.3 PR2-plot分析

采用PR2-plot的方法分析了密码子第3位嘌呤(A和G)与嘧啶(T和C)之间的关系(图2)。一般认为,密码子使用模式完全由突变造成,则G和 C以及 A和 T 的使用频率应相等[14,17]。而坡垒、青梅叶绿体基因组大部分基因均分布于左下方区域,说明在密码子第三位T的使用频率高于A,C的使用频率高于G。两者叶绿体基因组密码子的使用模式除了突变的影响外,还受自然选择等因素的影响。

图2 PR2-plot 绘图分析

2.4 ENC-plot绘图分析

从ENC与GC3的相关性分析可以看出(图3),坡垒、青梅叶绿体基因ENC值分布比较分散,基因间偏好程度差别较大。大部分基因落在期望曲线上或附近,表明这些基因密码子用法受突变影响较大。两者atpE基因在曲线上方较远处,表明该基因为随机使用密码子的基因; 坡垒ccsA、rps18和青梅ndhC等偏离期望曲线下方较远,表明基因受到选择压力,密码子偏性较强。

图3 ENC-plot 绘图分析

ENC分布频数分析结果显示(表4),ENC频数集中于-0.05 ~0.05的基因,坡垒22个,青梅21个。这部分基因密码子偏性主要受到突变的影响。坡垒ccsA、rps18和青梅ndhC的ENC频数分布于0.25~0.35,这部分基因密码子偏性主要受到选择压力的影响。

表4 ENC 比值频率分布

2.5 最优密码子分析

根据△RSCU法分析结果(表5),坡垒17个最优密码子,其中7个以A结尾,9个以U结尾,1个以C结尾,分别为GCU、UGU、GAA、GGU、AUU、UUA、CCA、CAA、CGU、AGU、GUA、ACU、AAA、GAU、GCA、GUU和UAC。青梅15个高频密码子,其中6个以A结尾,9个以U结尾,最优密码子7个,分别为GCU、UGU、GAA、GGU、AUU、UUA、CCA、CAA、CGU、AGU、GUA、CCU、UCU、UUU和ACA。两者叶绿体基因组使用的最优密码子差异很大,相同的最优密码子仅有11个,且△RSCU值存在一定差异。

表5 两种梧桐密码子 RSCU 及最优密码子

3 讨论

密码子的碱基组成是密码子偏好性的最普遍影响因素[18]。密码子组成分析的结果显示,坡垒、青梅叶绿体基因末位碱基以A/T为主,与 Zhou[19]的研究结论一致。坡垒第1位碱基组成对叶绿体基因组密码子偏性影响强于序列长度。青梅则是第3位碱基组成对密码子偏性影响较大。同科属不同物种间各碱基位GC含量及序列长度对密码子偏性影响的差异较大,陆奇丰等[20]、沈宗芳等[21]的研究结果也证实这一点。

密码子第3位碱基具有的兼并性及较小的选择压力,通常将 GC3作为密码子使用模式分析的重要依据[22]。分析GC12与GC3的关系显示,密码子第1、2位与第3位碱基组成变异无明显关联,密码子使用偏性受自然选择压力的影响更大。PR2-plot分析显示,两种植物叶绿体基因组密码子第3位碱基的使用存在偏性,嘧啶比嘌呤使用更为频繁。密码子使用模式的因素,不仅与突变有关,还受到自然选择等因素的影响。ENC-plot分析结果表明,大部分基因ENC值位于ENC期望值曲线附近,这部分基因密码子使用主要受突变影响,但仍有少数基因ENC值偏离ENC期望值曲线较远处,这部分基因主要受选择的影响。综合以上分析结果,自然选择和碱基突变是影响坡垒、青梅叶绿体基因组密码子偏好的主要因素,符合突变—选择—漂变理论[23]的观点。

比较高、低表达组的相对同义密码子使用度,确定坡垒最优密码子17个,青梅最优密码子15个,但两者中相同的最优密码子仅有11个。两者叶绿体基因组使用的最优密码子差异较大。或许是由两者高、低表达库中所使用的编码基因不同差异,以及两者不同属间分类的差异导致。

龙脑香科植物在中国分布有5属13种[24],其中绝大多数植物的叶绿体基因组数据仍然缺乏,因此龙脑香科植物叶绿体基因组密码子偏好性特点,还需要更多的研究结果补充。本研究仅分析比较坡垒、青梅叶绿体基因组编码基因的密码子偏性形成的影响因素和特点,以及叶绿体基因组的最优密码子,为外源基因密码子改造、叶绿体基因组工程和遗传多样性分析等研究提供参考依据。

猜你喜欢
偏性密码子青梅
Numerical studies of the influence of seeding locations on D-SOL plasmas in EAST
银杏叶绿体基因组密码子使用偏性分析
独行菜抗逆相关转录因子LaDREB密码子偏性与进化分析
密码子与反密码子的本质与拓展
青梅煮酒论英雄 下
新型密码子、反密码子、氨基酸对应盘
10种藏药材ccmFN基因片段密码子偏好性分析
看待中药毒性 厘清三大误区
自制青梅酒,生津和胃
自制青梅酒,生津和胃