11种唐松草属(Thalictrum)rbcL基因的密码子偏好性研究

2023-03-17 05:52娄晓鸣黄长兵
江苏农业科学 2023年3期
关键词:密码子叶绿体绘图

侯 哲,娄晓鸣,李 昂,黄长兵

(苏州农业职业技术学院,江苏苏州 215008)

植物的生长发育离不开光合作用,而光合作用最重要的场地在叶绿体中。rbcL基因在光合作用的整个过程中起到至关重要的作用,如rbcL基因可以编码Rubisco酶中的大亚基,从而催化光合作用的核心过程:羧化反应与加氧反应。由此可以看出,rbcL基因对植物的净光合率有着十分重要的影响[1]。rbcL基因在不同植物、不同自然条件下会产生不同的耐受性,因此基因的表达也会各不相同,这对植物的光合作用也会产生一定的影响[2]。所以,了解其密码子偏好性可以更好地理解不同植物在不同自然条件下是如何适应与进化的。因此,对于rbcL基因密码子偏好性的研究是非常有意义的[3]。

充分了解植物的密码子偏好性为理解物种进化提供了重要的信息[3]。密码子是指在mRNA上每3个相邻核苷酸排列成的三联体,一种密码子决定一种氨基酸,利用A、U、G、C,可以组成64种密码子,除UAA、UGA和UAG外的61种密码子用来编码常见的20种氨基酸[4]。而一种氨基酸可以由一至多个密码子编码,由于基因突变和自然选择的存在,在不同物种翻译过程中,氨基酸的编码中出现偏爱某些密码子的现象,称为密码子的偏好性[5]。漂变、突变、基因表达水平、自然选择及tRNA丰度等都会对物种的密码子使用情况产生影响[6-9]。

唐松草属植物在全世界大约有150种,在中国各地有76种,其中约30种由于富含生物碱、三萜、酚类及黄酮等具有药理活性的化合物,因而具有非常高的药用价值,根和茎常被作为传统的民间药物,用于治疗流感、癌症、高血压、细菌感染及结膜炎等症状[10]。目前关于唐松草属的研究内容较少,且多是对其化学成分的研究[10]。迄今为止,有关唐松草属叶绿体基因组方面的研究还比较少,对其rbcL基因密码子偏好性的研究也未见报道。因此,笔者从NCBI上下载唐松草属目前已公布的所有叶绿体基因组,并从中获取rbcL的基因序列,深度分析其序列特征,并对其密码子使用情况进行分析,优选出使用频率最高的密码子,为其后续的叶绿体基因组应用、种质资源保护及基因功能等研究提供理论支撑。

1 材料与方法

1.1 唐松草属植物11条rbcL基因序列获取

于2022年5月20日,在苏州农业职业技术学院植物生理实验室开展本研究,从NCBI公共数据库上下载唐松草属目前已知的所有叶绿体基因组序列,并从蛋白编码序列文件中获取rbcL基因序列,用于后续密码子偏好性分析。

1.2 密码子组成分析

利用CodonW软件(http://codonw.sourceforge.Net)分析11条序列的密码子偏好参数:(1)密码子的出现次数(N);(2)有效密码子数(ENC);(3)计算出RSCU值,并将RSCU>1的密码子过滤到高频密码子中,并分别用TBtools[11]及R语言绘图,对RSCU的聚类分析在SPSS在线软件(https://spssau.com/help.html)中进行。使用EMBOSS在线网站(https://www.bioinformatics.nl/emboss-explorer/)分析星毛唐松草叶绿体基因组中各个密码子的GC1、GC2、GC3和GCall,最后用SPSS在线软件(https://www.spssau.com/102000000)对各个参数进行了相关性分析。

1.3 中性绘图分析

通过中性绘图分析,可以对密码子的使用偏好性的影响因素进行分析[12]。以GC3为横坐标,GC1与GC2的平均值为纵坐标,然后绘制二维散点图并对二者进行相关性分析。如果图中的分散点沿对角线分布集中,则回归系数接近1,表明密码子偏好性主要受突变的影响。反之,如果图中的分散点不沿对角线分布,说明选择对该基因的密码子偏好性产生了重要影响[12]。

1.4 ENC-plot 绘图分析

ENC既可直观反映基因密码子使用模式,也可以用于判断突变或选择对基因密码子偏好性的影响,ENC值一般在20~61区间。当ENC接近20时,表明突变是密码子偏好的主要影响因素,而当ENC接近61时,说明选择起到了决定性作用[13]。以11条rbcL基因序列中的ENC值为纵坐标,GC3作为横坐标,然后用R语言作图,构建ENC值的期望曲线,并结合频率对差异进行一定量化分析。

1.5 PR2-plot绘图

PR2-plot分析,根据每个密码子的第3位数计算A、T、C和G的含量。首先横坐标选取A3/(A3+T3)值,而纵坐标为G3/(G3+C3)值,然后绘制 PR2-plot 散点图。

1.6 聚类分析

11条基因通过MAFFT软件[14]比对后,用MEGA 7.0[15]软件的邻接法(NJ)生成系统进化树。

1.7 密码子使用频率比较

通过计算唐松草属植物与模式植物基因组序列的密码子使用频率的比值,可以得出它们与模式植物的密码子使用偏好性的不同程度,当比值在 0.5~2.0区间内,则差异较小[16]。在密码子使用数据库中分别下载几种模式植物的密码子使用频率,用在线软件CUSP(https://www.bioinformatics.nl/emboss-explorer/)计算唐松草属植物的密码子使用频率后,计算相对使用频率,再用Tbtools[11]绘图。

2 结果与分析

2.1 唐松草属rbcL基因信息

从公共数据库NCBI中获取11条唐松草属植物的rbcL基因信息(表1)。

表1 11种唐松草属植物rbcL基因信息

2.2 密码子相关偏性指数分析

为了研究唐松草属植物中rbcL基因密码子使用偏差的程度,计算了11个基因的有效密码子数(ENC)的值(表2)。ENC值的范围为50.531~50.992,平均值为50.757,其中细唐松草的rbcL基因的ENC值最小,而贝加尔唐松草的ENC值最大,虽然不同植物的ENC值各不相同,但是差别不是很大(表2),说明11种唐松草植物的rbcL基因密码子的偏好性不强。此外,笔者发现不同基因的GC1、GC2、GC3含量存在明显的差异,各基因总体的GC含量为0.445,表明rbcL基因偏好使用A与T碱基。而GC1、GC2、GC3的平均含量分别为0.583、0.435、0.321。其中,第1位密码子的GC含量最大,而第3位密码子的GC含量最小,表现出明显的差异。第3位密码子的GC含量差异最明显,而GC3也是评估密码子偏好性的重要指标。第3位密码子A、T、C、G的含量分别为0.387、0.477、0.155、0.218,表明rbcL基因偏好使用A与T结尾的密码子。

表2 11种唐松草属植物rbcL基因的碱基类别及有效密码子(ENC)

2.3 密码子RSCU分析

11个唐松草属植物的rbcL基因共包含5 236个密码子,其中蛋氨酸和色氨酸仅由1个密码子编码,分别为ATG和TGG。其余的氨基酸由2~6个密码子编码,并表现出明显的密码子使用偏好性(图1)。11个唐松草属植物的rbcL基因中,最丰富的是亮氨酸(Leu),共包含461(8.8%)个。同时,在编码亮氨酸的6个密码子中,CUA的RSCU值最大,为1.72(表3),表明CUA密码子具有很高的偏好性,是最常用的密码子。

表3 唐松草属rbcL基因RSCU分析

从图2可以看出,11个唐松草属rbcL基因中,共包含27个使用度较高的密码子,即RSCU值大于1,在这27个密码子中,有23个密码子均以A或者U结尾,而仅有4个密码子ACC、CGC、AUC和UCC以C结尾,表明rbcL11个基因的密码子均偏好以A或者U结尾。继续分析发现,密码子使用度最高的3个密码子(RSCU值大于2),CGU、UCU、ACU均以U结尾。表明在A与U中,rbcL基因更偏好使用U结尾的密码子。

2.4 密码子参数相关性分析

对密码子3个位置的GC含量及ENC值做相关性分析(表4),GC1与GC2的相关系数为0.350,显示出显著的相关性;GCall与GC1的相关系数为0.710,极显著相关,与GC2的相关系数为0.615,也极显著相关,而与GC3的相关系数为0.405,显著相关。GC3与GC1的相关系数为0.060,与GC2的相关系数为-0.098,均不具有相关性,表明rbcL基因中,密码子第1位与第2位的碱基组成具有高度的相似度,但是第3位的碱基组成与第1位和第2位具有明显的不同。ENC值与GC1和GC2的相关系数分别为0.255和-0.049,相关性不显著,而与GC3为0.335,显著相关,说明在rbcL基因中,密码子第3位的碱基组成与密码子的偏好性显著相关,第3位的碱基组成对密码子的偏好性有十分重要的影响。GC3与密码子的出现次数(N)也具有显著相关性,表明密码子第3位的碱基组成对密码子的出现次数也有一定的影响。ENC值与N不相关,说明基因序列的大小对密码子的偏好性影响较弱。

表4 rbcL基因GC1、GC2、GC3、GCall、ENC及GC12的相关性分析

2.5 密码子中性绘图分析

GC3与GC12的相关性很弱(图3),相关系数非常低,表明3个位置的密码子含量存在明显的不同。在生成的所有基因的中性图中,回归线的斜率接近于0,而且大多数绘图点不在对角线上或沿对角线分布。这些数据给出的证据表明,密码子的偏好是由自然选择主导的[12]。

2.6 ENC-plot结果

ENC-plot结果表明,所有的基因位点均偏离了预期的曲线,表明所有rbcL基因的ENC值低于预期值,位于曲线下方(图4)。因此,这些结果证实,11个唐松草属植物的rbcL基因密码子偏好性大部分来自于选择的影响[13]。且11个基因位点距离非常接近,表明自然选择对11个唐松草属物种的密码子偏好的影响相差不大[13]。

2.7 PR2-plot分析

PR2-plot分析结果见图5,可以看出11个唐松草属植物的rbcL基因全部位于左下方,表明这11个基因密码子第3位的碱基使用情况为T大于A且C大于G,也就是说相比嘌呤C/T,嘧啶A/G的使用频率要更低。PR2-plot分析结果表明,选择对唐松草属rbcL基因密码子的使用模式影响较大。

2.8 基于RSCU 和CDS 的聚类分析

分别使用CDS序列和所有密码子的RSCU值对11个唐松草属进行聚类分析,结果(图6)显示,NJ树与聚类图分别将11个唐松草属植物分为4~5个分枝,表明不同唐松草属植物rbcL的氨基酸编码模式具有一定的差异,虽然NJ树与聚类图的内部分枝存在明显的不同,但在分枝水平上,也有一致的聚类结果,比如都将星毛唐松草、粘唐松草聚为1个分枝,将朝鲜唐松草和唐松草叶银莲花聚在一起,且都将瓣蕊唐松草、细唐松草、欧洲唐松草及亚欧唐松草聚在1个分枝,表明用RSCU值做聚类分析,在一定程度上也可以反映唐松草属植物的亲缘关系,即同一属内不同植物的密码子使用偏好性与其亲缘关系也存在着某种程度的关联。

2.9 与模式物种相对密码子使用频率分析

唐松草属植物与模式植物基因组序列的密码子使用频率结果表明,与唐松草属rbcL相比,大肠埃希菌有36个密码子的比值大于2,最大值为5.27(AGA),而酵母有30个密码子的比值大于1,最大值为2.61(GUU),表明相比大肠埃希菌来说,酵母与唐松草属植物的密码子使用偏好性更为接近,因此可以选用酵母作为其表达受体。烟草有29个密码子比值大于2,最大值为2.02(AAG),拟南芥有26个密码子比值大于2,最大值为2.001(GCA),番茄有29个密码子的比率大于2,最大值为2.09(GUG)(图7),这些结果充分说明,与番茄和烟草相比,拟南芥更适用于唐松草属rbcL基因的遗传转化受体。

3 讨论与结论

rbcL是植物重要的编码基因,主要位于叶绿体基因组,叶绿体基因组结构很稳定,因而植物叶绿体基因组常被用于群体进化、种质资源鉴定及群体遗传学研究[17]。密码子在生物体内信息传递方面发挥着不可或缺的作用,功能基因的转录、翻译及表达同样受到密码子的影响,因而密码子的偏好性也会对功能基因的表达产生重要的作用[18]。密码子的使用偏好与基因表达密切相关表达,并影响到基因组中的蛋白质和mRNA水平,密码子独有的使用方法及使用偏好性会在植物长期的进化进程中逐渐累积,因而在不同的植物中,甚至同一植物不同基因间,密码子的偏好性也会各有不同,对其进行深入研究可以更好地理解功能基因的表达模式及进化方式,从而进一步了解不同物种间的进化关系[19]。

11个唐松草属rbcL基因中,最丰富的氨基酸是亮氨酸,共包含461(8.8%)个,这与其他被子植物叶绿体基因组所报道[20]的一致。更有意思的是,大多数以A/U结尾的密码子的RSCU值都大于1,而以C/G结尾的则小于1,这一模式与其他植物的叶绿体基因组的使用模式一致[21]。植物叶绿体基因组rbcL基因中,密码子第3位通常比较保守,选择压力对其影响不大,所以GC3是密码子偏好性评估的一项重要指标[21]。本研究发现不同基因的GC1、GC2、GC3含量存在明显的差异,GC1、GC2、GC3的平均含量分别为0.583、0.435、0.321。其中,GC1含量最大,而GC3含量最小,且GC1与GC2显著相关,而GC3与GC1、GC2、GC12均没有相关性,表明星毛唐松草的密码子A/U含量比C/G含量要多,中性绘图分析结果表明,密码子的偏好性受到了选择的影响,这与多种植物的研究结果[20-21]一致。

11个唐松草属rbcL基因中,ENC值均大于45,表明这些基因的密码子具有较弱的偏好性。ENC-plot分析结果可以看出,该基因主要受到了选择作用的影响,巨桉的叶绿体基因组密码子偏好研究中,同样也发现了这一规律[22]。PR2-plot绘图表明,密码子第3位的碱基出现的规律为T、G大于A、C,这一结果体现出选择对11个唐松草属rbcL基因中密码子偏好性影响较大,突变及其他因素的作用较小,这与原晓龙等在蒜头果(Malaniaoleifera)研究中发现的规律[12]一致。总结以上结果后发现,11个唐松草属rbcL基因中,密码子使用偏好性与多种因素有关,但是选择的作用最为明显。

虽然基于基因序列的NJ树与基于RSCU值的聚类图的内部分枝存在明显的不同,但在分枝水平上,也有一致的聚类结果,表明用RSCU值做聚类分析,在一定程度上也可以反映唐松草属植物的亲缘关系,二者之间存在一定的对应关系。RSCU聚类树结果的偏差可能是由于仅选取RSCU值这一单一的数据导致的,结合密码子偏好性的其他数据,可能会降低误差,在苔藓植物中,也得出了同样的结论[23]。

模式物种通常被选作目标基因的异源表达受体,来完成转基因试验,而如果二者的基因密码子使用的偏好性具有相似性,这一过程会更加顺利,目标基因可以高效表达[24]。研究发现,酵母与唐松草属植物的密码子使用偏好性更为接近,可以作为其表达受体,而拟南芥更适用于唐松草属rbcL基因的遗传转化受体[25]。

猜你喜欢
密码子叶绿体绘图
来自河流的你
“禾下乘凉图”绘图人
密码子与反密码子的本质与拓展
10种藏药材ccmFN基因片段密码子偏好性分析
基于HTML5 Canvas绘图技术应用
南方红豆杉叶绿体非编码序列PCR体系优化及引物筛选
Surfer和ArcView结合在气象绘图中的应用
茶树CsActin1基因密码子偏性分析
茶树叶绿体DNA的PCR-RFLP反应体系优化
烟草叶绿体密码子的偏好性及聚类分析