杓兰叶绿体基因组密码子偏好性分析

2021-12-29 09:27宗小雁韩辰阳张丽杰陈旭辉
林业科学研究 2021年5期
关键词:密码子叶绿体同义

丁 锐,胡 兵,宗小雁,韩辰阳,张丽杰,陈旭辉*

(1.沈阳农业大学土地与环境学院,辽宁 沈阳 110866;2.沈阳农业大学生物科学技术学院,辽宁 沈阳 110866;3.沈阳农业大学林学院,辽宁 沈阳 110866)

密码子是自然界中承载生命信息的基本遗传单位,是蛋白质与核酸的桥梁和纽带,在生物体传递遗传信息的过程中起到重要作用。密码子具备简并性,编码同种氨基酸的不同密码子称为同义密码子;同时,同义密码子在不同物种间的使用频率具有不均一性,这种现象被称为密码子使用偏好性[1]。密码子偏好性是生命体进化的重要特征,在自然界普遍存在并受到自然选择和基因突变等多种因素共同影响,自然选择使得不同物种的基因在选择同义密码子时倾向于使用最优密码子,而基因突变则会使部分非最优密码子存在[2-3]。由于不同物种在进化过程中受到的选择作用和突变压力的影响程度不同,因此,会形成自身独特的密码子使用偏好性[4-5]。研究表明,同一物种或亲缘关系较近的物种中基因一般具有相似的密码子使用模式[6-8],因此,对密码子使用偏好性进行研究有助于更好地了解物种的进化。

叶绿体是植物进行光合作用的场所,同时也是一种半自主性的细胞器,拥有相对独立的一整套基因组,同时拥有复制、转录及翻译的机制。被子植物的叶绿体基因组一般由4 部分组成环状双链结构,包括1 个短单拷贝区(SSC)、1 个长单拷贝区(LSC)及2 个相同的反向重复区(IR),且SSC 和LSC 之间被2 个IR 隔开[9]。与体细胞基因组相比,叶绿体基因组体量小,基因拷贝数多,进化速率快且保守度高,这些特点使其在研究物种间遗传差异和系统进化关系的过程中充当了理想的工具[10]。自从1986 年首次公开了烟草[11]和地钱[12]的叶绿体基因组序列以来,越来越多的叶绿体基因组信息被NCBI 数据库收录。

杓兰属(Cypripedium)隶属于兰科杓兰亚科,是兰科植物中较为原始的类型,全世界约50 种,我国有36 种和1 变种[13]。杓兰属植物花姿优美、花色丰富,具有较高的观赏价值。然而,随着兰花热的兴起以及生境破碎化的不断加剧,滥采乱挖杓兰属植物的行为日益猖獗,不少种类已近濒危[14]。杓兰(Cypripedium calceolusL.)是杓兰属多年生地生植物,主要分布于我国东北、日本、韩国和欧洲地区。目前,该物种已被列入世界自然保护联盟(IUCN)濒危物种红色名录。杓兰的叶绿体基因组序列已被提交至GenBank 数据库[15],但目前尚未有关于杓兰叶绿体基因组密码子使用偏好性的研究。本研究通过生物信息学方法分析杓兰叶绿体基因组密码子的使用偏好性,旨在为杓兰的叶绿体基因组学研究提供参考。

1 材料与方法

1.1 基因序列获取

从NCBI 数据库中下载完整的杓兰叶绿体基因组序列(GenBank 登录号:MN602053.1),序列长度为175 122 bp,包含78 条蛋白编码基因。为了避免出现样本误差,移除其中的重复基因序列以及长度小于300 bp 的编码序列,最终获得53 条符合分析条件的蛋白编码序列用于后续分析。

1.2 密码子相关参数计算

利用EMBOSS 程序(http://www.bioinformatics.nl/emboss-explorer)对各基因的GC 含量进行在线分析,分析结果记为GC;同时对各基因的密码子第1、2、3 位核苷酸上的GC 含量进行在线分析,分析结果分别记为GC1、GC2、GC3。利用软件CodonW 对各个基因的密码子在第3 核苷酸上的A、G、C、T 含量进行计算,计算结果分别记为A3、G3、C3、T3;同时利用该软件对各基因的氨基酸长度(Laa)、有效密码子数(ENC)、同义密码子相对使用度(RSCU)及最优密码子使用频率(FOP)进行计算。

1.3 密码子使用偏好性指标

ENC 及RSCU 是密码子使用偏好性的重要度量指标[16]。RSCU 意为编码某种特定氨基酸时,某一密码子的实际使用频率与不存在偏好性的状态下其预期使用频率间的比值[17]。RSCU=1 表明该密码子的使用不存在偏好性;RSCU>1 表明该密码子使用频率偏高;RSCU<1 表明该密码子使用频率偏低。ENC 意为某个基因使用密码子的偏好程度,ENC 值的范围为20~61。若某基因的ENC 值为20,则表明该基因中各种氨基酸只使用特定密码子,同一氨基酸密码子使用无随机性,偏好性高;若某基因的ENC 值为61,则表明该基因中各种氨基酸编码时均衡使用其对应的同义密码子,密码子使用随机性高,偏好性低[18-19]。利用SPSS 软件分析ENC 与各指标之间的相关性。

1.4 中性绘图分析

取各基因GC1及GC2的平均值,记为GC12,以各基因的GC12为纵坐标、GC3为横坐标绘制散点图,并对二者的相关性进行分析。若GC3与GC12显著相关,则表明密码子3 个位点的碱基具有相同的变异模式,突变是密码子使用偏好性的主要影响因素;若GC3与GC12相关性不显著,则表明密码子3 个位点碱基的变异模式差异较大,密码子使用偏好性主要受自然选择影响[20]。

1.5 ENC-plot 绘图分析

取各基因的ENC 为纵坐标、GC3为横坐标绘制散点图。同时,根据公式ENC=2+GC3+29/[GC32+(1−GC3)2]计算各基因的理论ENC 值,并以GC3为横坐标、理论ENC 值为纵坐标绘制标准曲线[21]。标准曲线可以显示出ENC 及GC3在无选择压力状态下的关联情况,若基因位点在图中分布贴近标准曲线,则突变是密码子使用偏好性的主要影响因素;若基因位点在图中分布远离标准曲线,则密码子偏好性主要受自然选择因素影响。

1.6 PR2-plot 分析

以各基因的G3/(G3+C3)为横坐标、A3/(A3+T3)为纵坐标绘制散点图,对密码子第3 位核苷酸上的碱基组成情况进行分析,从而探讨突变和自然选择对密码子使用偏好性的影响。图中中心点A=T,G=C,表示某一基因2 条互补链间不存在任何突变或选择效应上的偏倚,从中心点向其它位点分布的矢量则显示该基因的偏倚程度及方向[22]。

1.7 最优密码子分析

将53 条基因按ENC 值由高至低排序,从两端各选出10%的基因数作为高、低表达库。根据各基因的RSCU 值筛选出各库内对应密码子ΔRSCU>0.08 的密码子作为高表达密码子,并将ΔRSCU>0.08 且RSCU>1 的密码子作为最优密码子[23]。

1.8 对应性分析

基于各基因的RSCU 值,通过软件CodonW 进行分析,根据分析结果将所有基因在一个47 维的向量空间进行分布,不同基因在向量空间中的相对分布位置可以表征影响密码子使用偏好性的因素。基因在第1、2 向量轴(主向量轴)间的分散程度显示出密码子的主要变化趋势,是推断其密码子使用变异的依据[24]。以第1 轴为横坐标、第2 轴为纵坐标绘制散点图,根据图中点的分布情况判断基因密码子的使用模式。

2 结果与分析

2.1 密码子的组成特征

杓兰的叶绿体基因组去除长度小于300 bp 的蛋白编码序列及重复序列后,共剩余53 条蛋白编码基因,全长60618 bp,占基因组全长的35%,基因编码的氨基酸序列长度范围为100~2310,平均长度377。对这些基因的密码子组成和偏好性进行统计分析发现,平均GC 含量为38%,其中,GC1(47%)大于GC2(39%)大于GC3(29%),表明GC 在密码子3 个位置上的分布并不均匀,且偏向于以A 和T 碱基结尾。各基因的ENC 值介于37.92~61.00 之间,平均值为48.05,ENC 值大于45的基因有38 条,表明杓兰叶绿体基因组密码子的使用偏好性较弱(表1)。

表1 杓兰叶绿体基因组的主要参数Table 1 Main parameters in chloroplast genomics of Cypripedium calceolus

基因密码子各参数之间的相关性分析(表2)结果显示:GC1与GC2呈极显著相关,但GC1与GC3及GC2与GC3均不显著相关,表明密码子第1、2 位碱基组成情况相近,而第3 位上的碱基组成随机性较大,与1、2 位碱基组成具有差异。ENC 与GC 不显著相关,但与GC2呈显著负相关,与GC3呈极显著正相关,表明密码子第2、3 位上碱基组成的变化对密码子的使用偏好性影响较大,GC2含量越高,密码子的使用偏好性越强;GC3含量越低,密码子的使用偏好性越强。ENC 与Laa 相关不显著,表明基因序列长度并未对密码子使用偏好性造成较大影响。

表2 基因密码子各参数之间的相关性分析Table 2 Correlation analysis between the indexes of codon use

RSCU 分析(表3)表明:RSCU>1.00 的密码子共有34 个,其中,以A 和U 结尾的有29个,占85%,表明杓兰叶绿体基因组偏向于使用以A 或U 结尾的同义密码子。RSCU<1.00 的密码子则多以C 或G 结尾。

表3 杓兰叶绿体基因组各氨基酸的相对同义密码子使用度Table 3 Relative synonymous codon usage (RSCU) analysis of genes on chloroplast genome in Cypripedium calceolus

2.2 密码子使用的中性绘图分析

中性绘图分析(图1)表明:GC12的取值范围为0.338~0.536,GC3的取值范围为0.190~0.372。所有基因都分布于中线对角线上方,GC12与GC3的相关系数为0.147,相关性不显著,表明杓兰叶绿体密码子3 个位点的碱基组成具有较大差异,杓兰叶绿体密码子使用偏好性主要受自然选择因素影响。

图1 中性绘图分析Fig.1 Analysis of neutrality plot

2.3 ENC-plot 分析

ENC-plot 分析(图2)发现:大部分基因位点都落在偏离标准曲线的位置,即ENC 实际值与ENC 预期值之间差异较大,表明杓兰叶绿体基因组密码子使用偏好性主要是外界自然选择压力等因素作用的结果。

图2 ENC-plot 分析Fig.2 Analysis of ENC-plot

2.4 PR2-plot 分析

PR2-plot 分析结果(图3)表明:基因位点在平面图的4 个区域中分布较均匀,其中,右下方区域集中了相对较多的基因位点,表明密码子第3 位碱基使用T 频率高于A,使用G 的频率高于C,存在偏好性。因此,可推断杓兰叶绿体基因组密码子的使用模式虽然在一定程度上受到自身突变影响,但该影响作用效果有限,并非密码子偏好性产生的主要因素。

2.5 最优密码子分析

以ΔRSCU>0.08 为标准共确定25 个密码子为杓兰叶绿体基因组的高表达密码子,其中,以A 结尾的有9 个,U 结尾的有8 个,C 结尾的有5 个,G 结尾的有3 个(表4)。结合杓兰叶绿体基因的相对同义密码子使用度(表3),最终分析得出16 个最优密码子,分别为GUA、GCA、UCU、UCC、ACU、CCU、CCA、GCU、UAU、UAA、CAU、AAU、CGA、AGU、AGA、GGA,其中,7 个以A 结尾,8 个以U 结尾,1 个以C 结尾(表4)。

2.6 对应性分析

基于RSCU 的对应性分析结果显示:第1、2、3、4 向量轴分别显示了10.10%、9.00%、8.42%和6.89%的差异,四轴累积差异贡献率为34.42%,第1 向量轴是影响密码子使用偏好性的主效因素。从各基因位点在以第1、2 向量轴为坐标系的平面图(图4)分布看,编码光合系统蛋白的基因点分布较集中,说明该类基因的密码子具有相似的使用模式;而编码其它蛋白的基因点分布较分散,表明这些基因密码子的使用模式相差较大。

3 讨论

大部分生物体在合成蛋白质时都会偏好性地选择使用同义密码子,这一现象受多种因素共同影响,其中,密码子的碱基组成是最普遍的因素[25-26]。由于密码子第3 位的碱基改变通常不会引起编码氨基酸的改变,因此,第3 位的碱基受到的选择压力相对较小,可以作为分析密码子使用偏好性的重要参数[21]。与大部分研究结果相似,杓兰叶绿体基因组各基因密码子的第3 位碱基A 和T 的使用频率高于G 和C,存在使用偏好性;同时,T 的使用频率高于A,G 的使用频率高于C,这与蒺藜苜蓿[21]和马尾松[27]等植物叶绿体基因的第3 位密码子偏好性一致,但不同于陆地棉[23]、酸枣[24]及樟树[28]等植物叶绿体基因的分析结果。这表明叶绿体基因组的碱基组成在不同物种中具有各自的特点,密码子使用偏好性存在一定的差异。

突变和自然选择也是影响密码子使用偏好性的主要因素[3]。本研究结合中性绘图分析、ENCplot 分析和PR2-plot 分析发现,杓兰叶绿体基因组密码子偏好性主要受到自然选择的影响,突变对密码子的偏好性影响弱于自然选择作用的影响。针对兰科植物的叶绿体基因组密码子偏好性进行分析的研究报道相对较少,研究发现,蝴蝶兰叶绿体密码子产生偏好性的主要原因是碱基差异和自然选择,且碱基组成大于基因表达水平的影响[29]。文心兰叶绿体密码子的使用模式形成过程较复杂,是碱基组成、突变及自然选择等多重因素共同作用的结果[30]。由此可见,不同兰科物种具有不同的叶绿体密码子使用模式,其影响因素并不是单一的。

在突变压力及强正向选择的共同作用下,往往容易形成大量的最优密码子,而突变压力及纯化选择的共同作用,一般会抑制最优密码子的形成[4]。本研究结合杓兰叶绿体高表达密码子分析结果及高频密码子分析结果,共筛选出16 个最优密码子,且大部分密码子以U 或A 结尾。目前,已见报道的绝大多数高等植物和藻类植物叶绿体基因的最优密码子都以U 或A 结尾,这一现象与叶绿体基因组进化的相对保守性可能具有相关性[24]。与此同时,最优密码子及其数量在不同物种间又有所不同,表明不同物种在进化过程中面临的进化压力并不相同。

有研究表明,密码子使用偏好性聚类在较小的分类单元中可能提供较为可靠的分类依据,而当样本量较大时,由于不同基因特殊的密码子偏好性导致这种聚类结果往往不能准确地反映物种亲缘关系[7-8]。本研究基于RSCU 的兰科聚类呈现杂乱的混合分布(聚类图未列出),不能完全正确地反映兰科植物之间的亲缘关系,因此,基因序列比密码子偏好性更适合于兰科物种分类及系统进化研究。

4 结论

本研究采用生物信息学方法,分析了杓兰叶绿体基因组密码子使用偏好性特点,明确了自然选择是影响杓兰叶绿体基因组密码子使用偏好性的主要因素。筛选出杓兰叶绿体基因的最优密码子,有利于在分子水平上研究兰科植物的进化机制。后续的工作中可以考虑进行同一基因在不同杓兰属植物之间的偏好性对比分析。

猜你喜欢
密码子叶绿体同义
紫九牛叶绿体基因组密码子偏好性分析
祈使句小练
until用法巩固精练
共生
人不吃饭行吗
新型密码子、反密码子、氨基酸对应盘
对“翻译”过程中几个问题的探讨
2种果蝇(Drosophila melanogaster与D.sechellia)线粒体及NADH dehydrogenase subunit基因的密码子偏好性分析
一种快速提取微藻完整叶绿体及其DNA的方法
同义句转换专项练习50题