肖蒲桃叶绿体基因组结构特征及系统发育关系

2021-07-27 09:48邓演文刘晓洲卓定龙
广东农业科学 2021年6期
关键词:密码子叶绿体核苷酸

邓演文,刘晓洲,卓定龙,曾 凤

(广州普邦园林股份有限公司,广东 广州 510627)

【研究意义】桃金娘科(Myrtaceae)植物主要产于亚热带和美洲的热带地区,约有100属3 000 种以上,我国仅含9 属约126 种[1]。蒲桃属(Syzygium)为桃金娘科乔木或灌木,全球共有1 200 种,我国有近80 种[1]。蒲桃属植物具有一定的耐涝能力,其中蒲桃[2]、水翁[3]等均已被证实具有耐受水淹胁迫能力,可用于滨水、河畔绿化等景观用途。肖蒲桃(Syzygium acuminatissimum)为桃金娘科蒲桃属植物,原产于中国,其株型优美,嫩叶红褐色,树枝软垂,姿态优雅,兼具观果价值,适宜作为行道树或园景树[4]。目前关于肖蒲桃的研究主要在林分类型[5]、胁迫响应[6]、固氮作用[7]等方面。研究肖蒲桃的叶绿体基因组对蒲桃属的系统发育和物种鉴定具有重要意义。【前人研究进展】叶绿体参与植物的光合作用、氨基酸和脂肪酸的合成等重要生理过程,在植物生长、发育中起重要作用[8]。该细胞器具有一种环状双链DNA 的遗传物质,包含100~130 个基因,总长度在107~218 kb 之间,并具有保守的四部分结构(一个大单拷贝区、一个小单拷贝区和两个反向重复区)[9]。由于叶绿体基因组序列高度保守、大小稳定、缺乏重组和母体遗传,因此常被用于系统发育[10]和分化时间[11]的相关研究。近年来,随着科技发展,获取基因组的成本降低,许多研究者利用叶绿体基因组数据推测植物分类学水平的系统发育关系[12]。叶绿体基因组分析技术在桃金娘科应用广泛,涵盖了桉属[13]、番樱桃属[14]、白千层属[15]、番石榴属[14]。目前,蒲桃属中,已获知海南蒲桃、丁香蒲桃和滇边蒲桃具有完整的叶绿体基因组。【本研究切入点】对于肖蒲桃的系统发育关系,有研究者仅基于3 个叶绿体片段序列进行解析[16]。但简短的片段无法准确评估其在系统发育树中的位置,因此亟需通过完整的叶绿体基因组序列判定肖蒲桃在蒲桃属中的亲缘关系。【拟解决的关键问题】本研究利用高通量测序,组装和注释肖蒲桃完整的叶绿体基因组,并解析肖蒲桃叶绿体基因组结构特征与系统发育关系,旨在为蒲桃属乃至桃金娘科的系统发育研究提供依据。

1 材料与方法

1.1 试验材料

肖蒲桃叶片采于广州从化百木苗场(113°24 ′06 ″E、23 °43 ′04 ″N),植物标本(Zhang-20200729)放置于中山大学标本馆。采用CTAB 法[17]对肖蒲桃叶片提取基因组DNA,-20℃下保存,备用。

1.2 试验方法

1.2.1 基因组测序和注释 利用提取的DNA 构建DNA shotgun 文库,并在Illumina HiSeq X TEN平台(美国)进行测序。使用SOAPnuke 软件[18]进行质量控制后,将约2 Gb 的干净读段以海南蒲桃(Syzygium cumini)的叶绿体基因组作为参考,在SPAdes v3.13.0 软件[19]上组装完整的肖蒲桃叶绿体基因组。基因注释在GeSeq(https://chlorobox.mpimp-golm.mpg.de/geseq.html)[20]上进行。将带注释的叶绿体基因组序列提交至GenBank(登录号:MT975437)。使用Editseq v7.1.0 软件[21]计算肖蒲桃叶绿体基因组序列的鸟嘌呤-胞嘧啶(GC)含量。采用CHLOROPLOT 软件[22]绘制肖蒲桃叶绿体基因组图谱。

1.2.2 氨基酸频率、RNA编辑位点与重复序列使用MEGA v7.0软件[23]生成蛋白编码基因的相对同义密码子使用值(RSCU)。使用PREP 软件[24]的默认设置预测蛋白编码基因中的RNA编辑位点。通过REPuter(https://bibiserv.cebitec.uni-bielefeld.de/reputer/)[25]在线服务识别叶绿体基因组中的重复序列(正向、反向、互补和回文)。通过MISA-web(https://webblast.ipkgatersleben.de/misa/)[26]在线检测叶绿体基因组中的简单序列重复,其中单、二、三、四、五、六核苷酸重复的最小重复数分别设置为8、5、4、3、3。

1.2.3 基因组比较与序列变异分析 采用IRscope软件[27]对肖蒲桃、海南蒲桃、丁香蒲桃、滇边蒲桃4 个蒲桃属叶绿体基因组中4 个不同区域实现边界可视化。使用DnaSP v6.12.0 软件[28]检测上述4 个蒲桃属植物叶绿体基因组序列的核苷酸多样性(π)。

1.2.4 系统发育分析 为了研究肖蒲桃在桃金娘科中的系统发育关系,基于11 个桃金娘科和2 个菊科植物叶绿体基因组中的蛋白编码基因,使用RAxML 软件[29]构建最大似然树,并设置1 000步的bootstrap。所有植物叶绿体基因组序列均从NCBI 核苷酸数据库下载。

2 结果与分析

2.1 肖蒲桃叶绿体基因组结构与特征

完整的肖蒲桃叶绿体基因组长度为159 352 bp,具有典型的四分结构,包括大单拷贝区(LSC)87 993 bp,小单拷贝区(SSC)18 415 bp 和一对反向重复区(IR)26 472 bp。图1 显示,肖蒲桃叶绿体基因组的总GC 含量为37%,LSC、SSC 和IR的GC 含量分别为34.73%、30.63%和42.66%。

图1 肖蒲桃叶绿体基因组图谱Fig.1 Map of the chloroplast genome of Syzygium acuminatissimum

本研究在肖蒲桃叶绿体基因组中共注释了109 个基因,包括78 个蛋白质编码基因(PCG)、27 个tRNA 基因和4 个rRNA 基因。其中,有55个基因参与自我复制,包括4 个基因编码rRNA、27 个基因编码tRNA、12 个基因编码核糖体小亚基蛋白、8 个基因编码核糖体大亚基蛋白、4 个基因编码RNA 聚合酶亚基;另有45 个基因参与光合作用,包括6 个ATP 合酶基因、11 个NADH脱氢酶基因、6 个细胞色素b/f 复合体基因、5 个光系统I 基因、15 个光系统II 基因、1 个翻译起始因子IF-1 和1 个Rubisco 长链基因(表1)。

表1 肖蒲桃叶绿体基因组基因Table 1 Genes of the chloroplast genome of Syzygium acuminatissimum

本研究在肖蒲桃叶绿体基因组中共检测到17个基因具有内含子,包括12个蛋白编码基因和5个tRNA编码基因(表2)。ycf3、clpP、和rps12具有2个内含子,其余仅具有1个内含子。编码40S核糖体蛋白S12的rps12基因被剪接为两个片段,其中一个外显子位于大单拷贝区,另外两个外显子位于重复片段区。最长的内含子位于trnK-UUU基因(2 526 bp)中,因为其内部含有matK基因;trnL-UAA的内含子最短(530 bp)。

表2 肖 蒲桃叶绿体基因组中含有内含子基因的特征Table 2 Characteristics of genes containing introns in the chloroplast genome of Syzygium acuminatissimum

2.2 基于肖蒲桃叶绿体基因组预测的氨基酸频率、RNA 编辑位点与重复序列

肖蒲桃叶绿体基因组中的蛋白编码基因共有21 379 个密码子(不包含终止密码子)。由图2 可知,数量最多的3 个氨基酸分别是丝氨酸(2 275)、亮氨酸(1 973)和精氨酸(1 770),而数量最少的3 个分别为蛋氨酸(374)、色氨酸(485)和缬氨酸(497)。在30 个最常见的密码子(RSCU >1)中,绝大多数以A 或U 结尾,只有UUG 和AGG 以G 结尾。相反,在32 个最不常见的密码子(RSCU <1)中,仅有UUC、CUA、AUA 不 以C 或G 结 尾。此 外,AUG 和UGG 没有密码子偏向性(RSCU=1)。

图2 基于肖蒲桃叶绿体中78 个蛋白编码基因的氨基酸频率Fig.2 Amino acid frequency based on 78 protein-coding genes of Syzygium acuminatissimum chloroplast

肖蒲桃叶绿体基因组中共有47 个RNA 可编辑位点(表3),其中约1/3(15 个)的RNA 可编辑位点可将丝氨酸转化为亮氨酸。在ndhB基因检测到的RNA 可编辑位点最多(10 个),其次是ndhD(5 个)和matK(4 个)。大多数氨基酸的转化是从极性基团变为非极性基团,而只有两个位点的氨基酸基团从非极性变为极性(脯氨酸转化为丝氨酸),其中一个位于psbE基因、另一个位于rpoC1基因。

表3 肖蒲桃叶绿体基因组中的RNA 可编辑位点Table 3 RNA editable sites in the chloroplast genome of Syzygium acuminatissimum

在肖蒲桃叶绿体基因组中共检测到48 个长片段重复,其中18 个正向重复、6 个反向重复、22 个回文重复和2 个互补重复。长片段重复的长度范围在19~42 bp 之间,其中长度为19 bp 的重复最多(14 个)、其次是22 bp(8 个),而42 bp 的最少(1 个)。

在肖蒲桃叶绿体基因组中共检测到230 个简单重复序列,其中绝大多数为单核苷酸重复(205个),其次为四核苷酸重复(12 个)、三核苷酸重复(7 个),双核苷酸重复(4 个)和四核苷酸重复(2 个)较少,未检测到六核苷酸重复。所有简单重复序列中,最长为17 bp,最短仅有8 bp。

2.3 蒲桃属叶绿体基因组比较与序列变异

由图3 可知,4 个蒲桃属植物的rps19 基因均跨越LSC 和IRb 边界;rpl2基因完全位于IRb;丁香蒲桃的ndhF基因跨越IRb 和SSC;ycf1基因均跨越SSC 和IRa;丁香蒲桃和肖蒲桃的trnH基因跨越IRa 和LSC,而海南蒲桃和滇边蒲桃的trnH基因则完全位于LSC 中。

图3 4 种蒲桃属植物叶绿体基因组的4 个连接边界Fig.3 Four junction boundaries of the chloroplast genomes of four Syzygium plants

肖蒲桃叶绿体基因组的平均核苷酸多样性π值为0.00453,检测到7个π值较高的区域,包括trnH-psbA、trnG-psaB、trnP-rpl33、rpl2-trnM、ndhF、ndhA、trnN-rrn23(图4),其中2个位于基因区、5个位于基因间隔区。

图4 4 种蒲桃属植物叶绿体基因组的核苷酸多样性Fig.4 Nucleotide diversity of the chloroplast genomes of four Syzygium plants

2.4 肖蒲桃的系统发育分析

为了解肖蒲桃在桃金娘科中的系统发育关系,从桃金娘科中选择11 个物种作为主群体,从菊科中选择2 个物种作为外类群。基于78 个共有蛋白编码基因,采用RAxML 构建了具有1 000 个bootstrap 的最大似然树(图5),结果表明肖蒲桃与丁香蒲桃关系密切。

图5 基于13 种植物叶绿体基因组的最大似然树Fig.5 Maximum likelihood tree based on the chloroplast genomes of 13 species

3 讨论

在高等植物叶绿体基因组中,通常具有长度为120~160 kb 的序列、典型的四分结构[30]。肖蒲桃叶绿体基因组也不例外,其叶绿体基因组长度为159 352 bp,总GC 含量为36.89%,大单拷贝、小单拷贝和反向重复区的GC 含量分别为34.73%、30.63%和42.66%。与大多数被子植物相似,反向重复区的高GC 含量可能由于该区域的rRNA 序列GC 含量较高而引起[31]。

肖蒲桃叶绿体基因组的蛋白编码基因中共有21 379 个密码子,在RSCU >1 的密码子中,除了UUG 外,其余密码子均以A 或U 结尾,这与罂粟[31]和紫荆泽兰[32]相同。在蛋白编码基因中共检测到47 个可被编辑的RNA 位点。其中大部分氨基酸可从丝氨酸转换为亮氨酸,而ndhB基因中的可编辑位点最多(10/47),在连翘(Forsythia suspensa)[33]和刺柏(Sanionia uncinata)[34]中也有相似研究结果。叶绿体简单重复序列是一种有效的分子标记,常用于群体遗传学、生物地理学和系统发育评估[35-36]等研究。在肖蒲桃叶绿体基因组中,绝大多数为单核苷酸重复(205/230),与大多数研究结果[37-39]一致。

由进化事件引起的反向重复区的变化导致边界和基因组大小发生细微变动,增加了物种的遗传多样性[40]。在本研究中,肖蒲桃、海南蒲桃、丁香蒲桃、滇边蒲桃4 个蒲桃属植物的连接边界情况稍有不同,这可能与蒲桃属植物物种繁多、拥有丰富的遗传多样性有关[41]。

DNA条码广泛应用于植物鉴定研究[42]。然而在蒲桃属中,仅有少数几个区间用于物种鉴定,如matK、ndhF、rpl16、atpB-rbcL、trnL-F等[16,43-44]。本研究通过计算π值发现,反向重复区比大单拷贝区和小单拷贝区区的保守性更高,该结果与其他被子植物一致[30,45];此外,获得7个π值高于0.015的区域,包括trnH-psbA、trnG-psaB、trnP-rpl33、rpl2-trnM、ndhF、ndhA、trnN-rrn23,这些信息将为未来的物种鉴定提供依据。

蒲桃属物种繁多,为该属的物种鉴定和系统发育研究带来极大难度[1]。本研究构建的桃金娘科进化树结果与 Biffin 等[16]基于3 个叶绿体片段得到的蒲桃属系统发育结果一致,肖蒲桃与丁香蒲桃的亲缘关系较近。但由于蒲桃属植物数量较多,目前仅有的数据并不能准确说明肖蒲桃在蒲桃属系统发育树中的准确位置,今后仍需获取更全面的数据进行深入研究分析。

4 结论

本 研究利用高通量测序,组装和注释了肖蒲桃完整的叶绿体基因组,并解析了该基因组的结构特征和系统发育关系,结果表明肖蒲桃叶绿体基因组的结构特征与其他蒲桃属植物相似,具有典型的四分结构,共检测到109 个基因、21 379个密码子、47 个RNA 可编辑位点、48 个长片段重复、230 个简单重复序列。基因组比较分析表明,4 个蒲桃属植物的IR 边界有较小差异,核苷酸多样性高于0.015 的区间有7 个。系统发育关系分析表明,肖蒲桃与丁香蒲桃的亲缘关系较近。

猜你喜欢
密码子叶绿体核苷酸
单核苷酸多态性与中医证候相关性研究进展
徐长风:核苷酸类似物的副作用
镰翅羊耳蒜叶绿体基因组密码子偏好性分析
Acknowledgment to reviewers—November 2018 to September 2019
共生
人不吃饭行吗
新型密码子、反密码子、氨基酸对应盘
对“翻译”过程中几个问题的探讨
2种果蝇(Drosophila melanogaster与D.sechellia)线粒体及NADH dehydrogenase subunit基因的密码子偏好性分析
一种快速提取微藻完整叶绿体及其DNA的方法