辽东丁香完整叶绿体基因组的结构与特征

2023-01-11 02:57芦永昌张璐燕王久利
植物研究 2023年1期
关键词:女贞辽东密码子

芦永昌 张 鑫 张璐燕 王久利

(1. 青海省青藏高原植物化学重点实验室,西宁 810007;2. 青海省藏药创制工程技术研究中心,西宁 810007;3. 辽宁大学生命科学学院,沈阳 110036)

丁香属(Syringa)植物隶属于木樨科(Oleaceae),共有21 种,分布于亚洲、东南欧,主产于中国[1]。丁香属植物不仅能够作为观赏类植物,也能带来经济收益以及较高的医药价值。丁香属植物中主要包括萜类化合物,多数具有心脏保护、神经保护、降血糖、抗流感病毒、抗菌、抗炎和抗氧化等作用[2]。辽东丁香(S. villosasubsp. wolfii)作为丁香属植物的一种,在我国多分布于吉林、辽宁一带,因其适应性强、花期独特的特性,可在气温、湿度低的高海拔北方地区培育,用于绿化观赏。目前对于辽东丁香的研究大多是关于扦插育种、化学成分提取及药理活性测定等方面[3-7],分子水平上的相关报道较少。

在丁香属的叶绿体基因组研究中,Zhang 等[8]获得了中国特有濒危种羽叶丁香(S. pinnatifolia)的完整叶绿体基因组,分析了其密码子偏好性、散在重复序列和SSR 等信息,并通过与近缘种的比较研究推断出羽叶丁香、欧丁香(S. vulgaris)与女贞属(Ligustrum)具有更近的亲缘关系;田甜等[9]分析了暴马丁香(S. reticulatasubsp.amurensis)叶绿体基因组的数量和分布特征等,认为其研究可以为品种选育、引物开发、物种进化研究提供依据。本研究将基于高通量测序技术结合生物信息学方法获取辽东丁香的完整叶绿体基因组序列,分析其结构和特征信息,并借此构建辽东丁香及其近缘类群的系统发育树,为辽东丁香乃至木樨科的遗传资源、系统发育、分子标记开发和质体基因组工程等研究提供数据基础。

1 材料与方法

1.1 试验材料

辽东丁香采摘自于青海省西宁市植物园(36°38′N,101°42′E,海拔2 275 m),所采样品由王久利博士鉴定。在试验准备过程中,采摘新鲜嫩叶,用变色硅胶干燥,冰箱中-20 ℃储存备用。

1.2 DNA的提取和测序

采用改良CTAB 法[9]来提取辽东丁香全基因组DNA。使用1%琼脂糖凝胶电泳的方法来检测DNA 质量,NanoDrop 2000c[11]检测DNA 纯度和浓度。将检测合格后的DNA 样品,送至南京集思慧远公司构建测序文库,随后进行文库质检,文库检测合格后用Illumina NovaSeq[12]平台进行测序。

1.3 DNA 的拼接组装、获得完整的叶绿体基因组

为得到高质量的有效数据,需要对Raw Data进行数据过滤,去除其中的接头序列及低质量Reads 获得高质量的Clean Data。将Clean Data 按参考物种的叶绿体基因组序列进行序列组装,获得叶绿体序列组装结果,对叶绿体序列组装结果进行基因结构注释。

使用软件Bowtie2 v2.2.4[13]比对自建的叶绿体基因组数据库,测序Reads 与长参考序列比对,比对上的测序序列作为辽东丁香叶绿体基因组测序序列(cpDNA序列)。

使用SPAdes 软件进行短序列拼接得到seed序列,基于k-mer 构建contig 序列,运行SSPACE v2.0[14]软件将contig 序列进行连接得到scaffolds。在接下来运行Gapfiller 软件填补gap 时已经实现了零gap,即得到了完整的叶绿体基因组。

1.4 注释

以fasta 格式将辽东丁香叶绿体基因组序列上传到在线软件GeSeq[15]对辽东丁香的叶绿体基因组进行注释,得到其叶绿体基因组的编码序列、tRNA 以及rRNA 的注释信息,人工校对检查、修改后下载保存。用在线注释软件OGDRAW[16](https://chlorobox.mpimp-golm.mpg.de/OGDraw.html)将注释信息绘制成环状基因组图谱。

1.5 密码子偏好性分析

使 用CodonW v1.4.2[17]软 件(http://codonw.sourceforge.net/)对辽东丁香叶绿体基因组密码子使用频次进行分析统计。

1.6 重复序列分析

重复序列(repetitive sequence)是指在整个基因组中以多个拷贝出现的核酸序列,是真核生物基因组的重要组成部分[18]。散在重复序列是与串联重复序列不同的另一种重复序列,在基因组中呈分散式分布[19]。使用Vmatch v2.3.0[20](http://www.vmatch.de/)软件鉴定散在重复序列,最小长度设为30 bp,海明距离(Hamming distance)设为3,鉴定的类型为F、R、P 和C。使用MISA v1.0[21](http://pgrc.ipk-gatersleben.de/misa/misa.html)软件进行cpSSR 的分析,参数1-8(单碱基重复8次及以上),2-5,3-3,4-3,5-3,6-3。

1.7 系统发育研究

为了确定辽东丁香在木樨科中的系统位置,从NCBI 数据库选取辽东丁香以及木樨科植物16个属、32 种(含亚种或变种)植物完整的叶绿体基因组序列作为内类群,包括丁香属8 种、梣属(Fraxinus)1 种、女贞属5 种、连翘属(Forsythia)1种、木樨属(Osmanthus)2 种、流苏树属(Chionanthus)2 种、岛蜡树属(Nestegis)2 种、大苞榄属(Picconia)2 种、鳞瓣榄属(Haenianthus)1 种、木樨榄属(Olea)1 种、梣榄属(Priogymnanthus)1 种、爪瓣榄属(Hesperelaea)1 种、泽蜡树属(Forestiera)2 种、元春花属(Schrebera)1 种、河樟榄属(Comoranthus)1种、翅果连翘属(Abeliophyllum)1 种。同时以泡桐科楸叶泡桐(Paulownia catalpifolia)、兰考泡桐(P.elongata)作为外类群,与本研究获得的辽东丁香叶绿体基因组序列共同构建系统发育树。使用MAFFT[22]软件进行序列比对,再将比对的结果导入到MEGA7[23]软件并进行手工校正后采用最大似然法(maximum likelihood)构建系统发育树。

2 结果与分析

2.1 辽东丁香叶绿体基因组基本特征

辽东丁香测序结果为:Clean Data 中pair-end Reads 总数为29 923 336;Clean Data 总碱基数为8 977 000 800(约8.4 G);GC 含量为35.73%;Q20、Q30分别为97.66%、93.35%。

辽东丁香叶绿体基因组(GenBank 登录号为MN901631.1)的形状为共价闭合的双链环状分子,全长为156 517 bp。辽东丁香叶绿体基因组结构保守,具有典型的四分体结构,包括:1对相同的反向重复区(IR),长为25 362 bp;1 个大单拷贝区(LSC),长为86 684 bp 和1 个小单拷贝区(SSC),长为19 109 bp;2 个IR 区被LSC 和SSC 隔开(见图1 和表1)。全基因组4 种碱基含量分别为T(31.23%)、A(30.81%)、C(19.27%)、G(18.68%),GC 所占百分比为37.95%,其中IR 区的GC 含量最高(43.10%),SSC 区的GC 含量最 低(32.57%)(见表1)。

表1 辽东丁香叶绿体基因组基本特征Table 1 Basic characteristics of S.villosa subsp.wolfii chloroplast genome

2.2 辽东丁香叶绿体基因组各分区基因组成

整个叶绿体基因组编码131 个基因,包含87个蛋白质编码基因、36 个tRNA 基因和8 个rRNA基因(见表2)。其中LSC区包含的基因最多,共81个,包括60 个蛋白质编码基因、21 个tRNA 基因,无核糖体RNA 基因;SSC 区共12 个基因,包括1 个转移RNA(trnL-UAG)和11 个蛋白质编码基因,无核糖体RNA 基因;19 个基因在IRs 区中复制一次,包括8 个蛋白质编码基因(rpl2、rpl23、rps7、rps12、ndhB、ycf1、ycf2、ycf15)、7 个tRNA 基因(trnl-CAU、trnL-CAA、trnV-GAC、trnl-GAU、trnA-UGC、trnRACG、trnN-GUU)和4 个rRNA 基因(rrn16、rrn23、rrn5、rrn4.5),所有的rRNA 基因均在2 个反向重复区。ycf1 基因在IRs 区中不完整,一部分(3′端)在IRs 区,一部分(5′端)在SSC 区(见图1)。

表2 辽东丁香叶绿体基因组各分区的基因组成Table 2 Gene composition of LSC,SSC,IRs in S. villosa subsp.wolfii chloroplast grnome

图1 辽东丁香叶绿体基因组图谱正向编码的基因位于圈外侧,反向编码的基因位于圈内侧;内部的灰色圈代表GC含量Fig.1 Chloroplast genome map of S.villosa subsp.wolfii The forward-coding genes were located on the outer side of the loop,while the reverse-coding genes were located on the inner side of the loop;The gray circles inside represent GC content

2.3 辽东丁香叶绿体基因组编码的基因分类

辽东丁香叶绿体基因组的编码基因根据功能可分为3大类、18小类:第一类是44个与光合作用相关的基因,包括4 个光系统Ⅰ基因、16 个光系统Ⅱ基因、6 个ATP 合酶、11 个NADH 脱氢酶基因和6 个细胞色素b/f 复合体基因以及1 个二磷酸核酮糖氧合酶/羧化酶亚基基因;第二类是73 个与叶绿体自我复制功能相关的基因,包括8 个核糖体RNA 基因、25 个核糖体亚基蛋白基因(14 个核糖体小亚基基因、11 个核糖体大亚基基因)、36 个转运RNA 基因和4 个RNA 聚合酶基因;第三类为6个其他功能基因及8个未知功能基因(见表3)。

表3 辽东丁香叶绿体基因组注释信息Table 3 List of S.villosa subsp.wolfii chloroplast genome annotations

2.4 密码子偏好性分析

对辽东丁香密码子使用偏好性结果(见表4)分析表明:RSCU 值>1的密码子有31个,其中以A/U 碱基结尾的有21 个;RSCU 值<1 的密码子有34个,其中以G/C 碱基结尾的密码子有22 个;RSCU值等于1 的密码子有1 个,表明该密码子使用无偏好性(见图2)。,

图2 辽东丁香叶绿体基因组密码子使用频次下面方块代表编码每种氨基酸的所有密码子,上方柱子的高度代表所有密码子RSCU值的总和Fig.2 The relative synonymous codon usage(RSCU)The box below represented all codons encoding each amino acid,and the height of the column above represented the sum of the RSCU values of all codons

表4 辽东丁香叶绿体密码子偏好性分析Table 4 Statistical table of chloroplast codon usage bias analysis S.villosa subsp.wolfii

2.5 重复序列分析

在辽东丁香的叶绿体基因组中,检测出334个散在重复序列,包括170个正向重复序列(D 型)和164 个回文重复序列(P 型),未检测出其他类型(见图3)。长度为15 bp 的重复序列数量最多,共171 个序列,正向重复序列81 个,回文重复序列90个;部分重复序列只含1 种类型的重复序列;大小为25 362 的序列最长,只有1 个回文重复序列(见图3)。

图3 辽东丁香散在重复序列Fig.3 Sequence diagram of scattered repeats in S.villosa subsp.wolfii

使用MISA v1.0 软件进行辽东丁香cpSSR 的分析,共检测到227 个SSR 位点,其中IR 区有44个位点,外显子中含24 个,内含子中含6 个,基因间区段中含14 个;LSC 区有147 个位点,外显子中含40个,内含子中含20个,基因间区段中含87个,SSC 区有36 个位点,外显子中含28 个,内含子中含1 个,基因间区段中含7 个(见图4)。其中226个位点成功设计出PCR引物。

图4 辽东丁香叶绿体基因组SSR分布情况Fig.4 The SSR distribution of chloroplast genome in S.villosa subsp.wolfii

2.6 IR边界分析

对丁香属物种和女贞属中的女贞(Ligustrum lucidum)共8个物种进行IR边界可视化分析(见图5),查其IR 区的收缩与扩张的情况。发现所分析的8 个物种的IR 区长度为24~25 kb,暴马丁香IR区的长度最长,欧丁香与紫丁香(S.oblata)IR 区片段长度仅相差1 bp。所选物种rps19 都位于LSCIRb 边界处,且rps19 大部分位于LSC 区,trnH 基因位于LSC 与IRb 区边界上。图中未显示女贞和欧丁香ycf1基因序列,经查阅基因注释谱图7个丁香属物种和女贞的ycf1 位于SSC-IR 边界处。辽东丁香和欧丁香的ndhF 全部位于SSC 区间,花叶丁香(S.persica)位于SSC-IRa 边界处,暴马丁香距SSCIRb 边界间隔较短,其他物种则位于SSC-IRb 边界处。

2.7 辽东丁香与近缘种植物的聚类分析

将泡桐科物种楸叶泡桐、兰考泡桐作为外类群,再从NCBI数据库中下载32个木樨科植物的叶绿体基因组序列构建系统发育树(见图6),系统发育分析结果表明:大多数分支节点的分支支持率都达到了100%高支持,且总体上同属物种聚在一起,表明此结果具有较高的可靠性。系统发育树将所分析的植物分成2大类:所有木樨科植物为一大类,外类群毛泡桐为一大类。包括辽东丁香在内的9 个丁香属物种聚为1 支,所有丁香属和女贞属植物聚为1支,表明丁香属与女贞属亲缘关系最近;辽东丁香与云南丁香(S. yunnanensisMH817943.1)又聚为一小支,表明二者亲缘关系最近,形成姊妹类群。

图6 基于最大似然法构建的系统发育树Fig.6 Phylogenetic tree constructed by maximum likelihood method

3 讨论

研究发现大多数被子植物完整的质体基因组总长为120~220 kb,其中大单拷贝区大小为81~90 kb、小单拷贝区为18~20 kb、两个反向重复区长均为20~29 kb,包含130个基因左右[22]。本研究以高通量测序技术和生物信息方法对辽东丁香叶绿体基因组进行分析,结果显示:辽东丁香叶绿体基因组全长为156.517 kb,反向重复区长为25.362 kb,包含131 个基因,这与典型的被子植物叶绿体基因组结构[25]相符合。辽东丁香叶绿体基因组的GC 含量为37.95%,与木樨科近缘物种[26]中基本相同,且CG 含量高于高等植物的叶绿体基因组的平均GC 含量,而GC 含量高的DNA 序列相对更稳定[27]。在丁香属和女贞属的叶绿体基因组IR区收缩扩张比较中,发现二者高度相似,rps19、ycf1、trnH 等边界附近的基因片段所在区间大致相同,表明2个属的叶绿体基因组均保守,说明女贞与丁香属物种的叶绿体基因组有相似的进化历程。以上结果均表明,辽东丁香的叶绿体基因组具有高度保守的特征。

本研究通过对辽东丁香20种氨基酸密码子使用偏好性的分析发现,有31 个密码子RSCU 值>1,其中氨基酸及终止密码子的最佳密码子多以碱基A/U结尾,具有保守性。密码子使用偏好性是物种在遗传信息传递过程中的一个重要特点,分析辽东丁香的密码子使用偏好性对于了解其遗传信息的传递规律具有重要意义[28]。本研究共检测到334 个散在重复序列,对研究辽东丁香基因突变、物种基因组起源及进化起关键性作用[29]。此外,简单重复序列分析检测到227 个SSR 位点,226 个位点成功设计出PCR 引物,这为种质资源鉴定与评价、群体遗传多样性分析等研究提供了候选分子标记。

叶绿体基因组由于其相对保守的基因组结构和完整的基因组序列,已在生物领域的研究中被广泛认可,能够高效地使人们了解进化生物学,并且提供有价值的信息数据源,已成为解决植物系统发育方面问题的有力工具[30]。李艳萍[31]通过测定叶绿体基因组ITS区序列的信息点,将辽东丁香划分为一个单系类群。何淼[32]基于形态特征和3个DNA 序列片段分析,认为辽东丁香属于顶生花序系,这与陈进勇[33]以及《中国植物志》的分类系统相一致,并认为顶生花序系可能是一个较原始的类群。本研究基于叶绿体基因组完整序列利用最大似然法分析辽东丁香的系统进化关系,结果显示各属植物聚成有较高支持率的分支。辽东丁香所属的丁香属与女贞属植物以100%的支持率形成分支,说明丁香属并不是单系类群,其与女贞属植物具有紧密的亲缘关系。系统发育树显示辽东丁香与云南丁香聚为独立的一支,说明二者亲缘关系最近,这与陈进勇[33]、何淼[32]以及《中国植物志》的类群划分方法相同,即辽东丁香和云南丁香都属于长花冠管组顶生花序系,该系共有的典型特征是花序常由顶芽抽生,并且花药为黄色[33]。由于叶绿体基因组为单亲遗传,其分子片段只能提供有限的系统发育信息,本研究并未获得丁香属全部物种或亚种,尤其是缺失了可能与辽东丁香亲缘关系更近的红丁香的叶绿体基因组数据,因而在未来的研究中,需要引入更全面的丁香属类群,同时把叶绿体基因组和双亲遗传特性的核基因组结合起来[34],进行形态解剖学、显微形态学和胚胎发育学等分析,才能更加全面地了解其系统演化。

本研究获得了辽东丁香叶绿体基因组的基本信息及其系统发育关系,为辽东丁香的遗传多样性保护、优化园艺性状、系统演化等相关研究提供数据基础,也为种质鉴定、DNA 条形码开发提供了新思路。

猜你喜欢
女贞辽东密码子
女贞和乌鸫
密码子与反密码子的本质与拓展
明代辽东镇险山参将地方城堡
心向辽东
新型密码子、反密码子、氨基酸对应盘
10种藏药材ccmFN基因片段密码子偏好性分析
绿化用女贞树上的果实,可以采来入药吗?
白蜡蚧在滨州金叶女贞上的发生规律观察及防治试验
大叶女贞锈壁虱药物防治试验
明末辽东沿海一带的“海上势力”