草果叶绿体基因组特征及系统发育分析

2021-10-12 03:22马孟莉孟衡玲卢丙越
中草药 2021年19期
关键词:白豆蔻豆蔻草果

马孟莉,张 薇,孟衡玲,卢丙越*

1.云南省高校滇南特色生物资源研究与利用重点实验室,云南 蒙自 661199

2.红河学院 生物科学与农学学院,云南 蒙自 661199

姜科为泛热带分布科,是多年生草本植物,由52属约1377 种植物组成,在我国主要分布在云南、海南、广东和广西等省区。姜科中包括很多著名药材,如益智、草果、砂仁、姜、草豆蔻、郁金、姜黄、莪术、高良姜等,现代药学研究表明姜科除具有行气破瘀、温中散寒、舒筋活络、芳香健胃等功效外,还具有抗癌、抗炎、抗菌、抗氧化、镇痛、降血压等药理作用[1]。草果Amomum tsao-koCrevost et Lemarie 是姜科豆蔻属多年生常绿丛生草本植物,全株具有辛辣味,以干燥成熟果实入药,具有清湿化痰、温脾祛寒的功效,此外草果也是烹调佐料中的佳品,被誉为食品调料中的“五香之一”[2-4]。草果生长在海拔1100~1800 m 的热带、亚热带荫蔽潮湿的林中,主要分布在中国的云南、广西和贵州,老挝、越南也有分布[5-6]。由于过度收获及草果原生境的破坏,草果野生资源近乎绝迹,2012年已被世界自然保护联盟濒危物种红色名录列为“近危物种”。

叶绿体(chloroplast,cp)是植物细胞内的小细胞器,为绿色植物进行光合作用的场所,叶绿体有自己的遗传系统,由一个封闭的环状DNA 分子组成。近年来,叶绿体基因组因其保守的基因序列和在植物中的重要作用而被广泛用于物种的鉴定和系统进化分析[7-8]。随着高通量DNA 测序技术的发展,可用的叶绿体基因组序列数量越来越多,这为药用植物叶绿体基因组研究提供了重要参考。到目前为止,已有姜科姜属(姜、蜂巢姜)、山姜属(艳山姜、益智)、姜黄属(观音姜、黄花姜黄)和豆蔻属(爪哇白豆蔻、白豆蔻、阳春砂、绿壳砂和海南砂)叶绿体基因组测序的报道[9-14]。随着姜科植物叶绿体全基因组数量的增加,姜科其他物种的叶绿体基因组序列也越来越容易拼接。然而,草果作为姜科中重要的药食同源物种,国内外对草果遗传方面的研究甚少,尤其是分子遗传方面,严重限制了草果资源的保护、开发和利用。本研究首次详细报道了草果叶绿体基因组的完整结构,比较草果和其他豆蔻属植物叶绿体基因组差异及IR区的伸缩与扩张情况,此外通过叶绿体全基因组序列构建进化树来揭示草果与其他姜科植物的进化关系及其在系统发育中的地位。

1 材料

草果新鲜幼嫩的叶片采自云南省红河哈尼族彝族自治州金平苗族瑶族傣族自治县阿得博乡草果山村(22°54′30.34″N,103°13′16.39″E),经云南省高校滇南特色生物资源研究与利用重点实验室张薇教授鉴定为草果A.tsao-koCrevost et Lemarie,标本存放于红河学院生物科学与农学学院(标本号:LBY20180526)。

2 方法

2.1 基因组DNA 提取及测序

取大约5 g 的新鲜草果叶片,经70%乙醇处理后用TIANGEN 植物DNA 提取试剂盒提取草果基因组总DNA,通过琼脂糖凝胶电泳和NanoDrop2000 微量分光光度计检测DNA 的纯度和浓度,符合测序要求后送测序公司在Illumina HiSeq4000 平台进行测序。

2.2 叶绿体基因组组装和注释

测序完成后得到的原始序列(raw reads)首先利用NGS QC ToolKit 过滤去除接头及两端的低质量序列,得到高质量待分析序列(即clean reads)。以白豆蔻(NC_036935.1)叶绿体基因组序列作为参考序列,利用SOAPdenovo2.04 软件进行组装,再根据reads 的paired-end 和overlap 关系对组装结果进行优化,经多次调整获得草果完整叶绿体基因组。使用DOGMA 在线工具对叶绿体基因进行注释[15],使用默认参数预测蛋白质编码基因、转移RNA(tRNA)基因和核糖体RNA(rRNA)基因,并结合京都基因和基因组百科全书(kyoto encyclopedia of genes and genomes,KEGG)、蛋白质直系同源簇(cluster of orthologous groups of proteins,COG)、非冗余蛋白序列(non-redundant protein sequences,NR)、Swiss-Prot 蛋白质序列(swiss-prot protein sequence,Swiss-Prot)、基因本体(gene ontology,GO)等数据库对基因进行功能注释,用OGDRAW v1.2在线软件绘制草果叶绿体基因组图谱。将注释好的序列用BankIt 向NCBI 在线提交,获得序列登录号MK926774.1。

2.3 叶绿体基因组特征分析

利用MISA 软件(http://pgrc.ipk-gatersleben.de/misa/misa.html)鉴定草果叶绿体基因组中的简单重复序列(simple sequence repeats,SSR),搜索参数设置为:含有完全重复的单核苷酸最小重复数为10,二核苷酸最小重复数为5,三核苷酸最小重复数为4,四、五、六核苷酸最小重复数为3;另外设置2 个SSR 之间的最小距离为100 bp,如果距离小于100 bp,则2 个SSR 被当做一个复合微卫星。利用IRscope(https://irscope.shinyapps.io/irapp/)比较不同物种叶绿体基因组IR 边界区特征[16]。

2.4 系统发育分析

从NCBI 下载姜科豆蔻属的海南砂Amomum longiligulareT.L.Wu(MN067434.1)、阳春砂Amomum villosumLour.(MH161418.1)、绿壳砂Amomum villosumvar.xanthioides(Wall.ex Baker) T.L.Wu &S.J.Chen(MH161417.1)、爪哇白豆蔻Amomum compactumSol.ex Maton(MG000589.1)、白豆蔻Amomum kravanhPierre ex Gagnep.(NC_036935.1),山姜属的艳山姜Alpinia zerumbet(Pers.) B.L.Burtt &R.M.Sm.(JX088668.1)和益智Alpinia oxyphyllaMiq.(KY985237.1),姜属的蜂巢姜Zingiber spectabileGriff.(JX088661.1)和姜Zingiber officinaleRosc.(MH161428.1),姜黄属的观音姜Curcuma roscoeanaWall.(NC_022928.1)和黄花姜黄Curcuma flavifloraS.Q.Tong(KR967361.1),山柰属的山柰Kaempferia galangaLinn.(MK209001.1)和紫花山柰Kaempferia elegans(Wall.)Baker(MK209002.1)共13 个物种完整的叶绿体基因组序列,同时以姜目闭鞘姜科植物绿苞闭鞘姜Costus viridisS.Q.Tong(MK262733.1)为外类群,利用MAFFT7.037 软件进行序列多重比对,结果经手工检查与调整后用最大似然法(Maximum Likelihood,ML)法对系统进化关系进行分析。ML系统发育树用MEGA6 软件生成,选择最佳模型GTR+G+I,自展值Bootstrap value 设为1000。

2.5 适应性进化分析

通过非同义替换位点替换次数(Ka)与同义替换位点替换次数(Ks)的比值(Ka/Ks)判断草果与同属的阳春砂、绿壳砂、海南砂、白豆蔻和爪哇白豆蔻之间叶绿体蛋白编码基因是否存在选择压力,当Ka/Ks>1,认为有正选择效应;Ka/Ks=1,认为存在中性选择;Ka/Ks<1,则认为有纯化选择作用。首先利用PhyloSuite v1.2.1 提取草果、阳春砂、绿壳砂、海南砂、白豆蔻和爪哇白豆蔻的79个共有蛋白质编码基因[17],提取的基因序列通过MAFFT7.037 软件进行比对,然后用DnaSP 6.12.03软件计算Ka 和Ks 值,通过Excel 软件统计各基因的Ka/Ks 值,绘制不同功能基因的Ka/Ks 图。

3 结果与分析

3.1 基因组基本特征

草果叶绿体基因组与绝大多数被子植物叶绿体基因组一样,为共价闭合的双链环状分子,全163 648 bp,包括1 对反向重复(IR)区(29 776 bp)、1 个大的单拷贝(LSC)区(88 741 bp)和1 个小的单拷贝(SSC)区(15 355 bp)。全基因组的GC 含量为36.0%,其中IR 区GC 含量最高(41.1%),LSC 区(33.7%)和SSC 区(29.8%)均较低。在草果叶绿体基因组中共注释到113 个非重复基因,包括79 个蛋白质编码基因、4 个rRNA 基因和30 个tRNA 基因(表1)。LSC 区包含的基因最多,包括61 个蛋白编码基因和21 个tRNA 基因;SSC 区包括1 个tRNA 基因(trnL-UAG)和11 个蛋白编码基因;所有的rRNA 基因、8 个tRNA 基因和8 个蛋白编码基因均在IR 区重复。其中rps12 基因具有反式剪切结构,其5’端位于LSC 区,而3’端位于IR 区(图1和表1)。

图1 草果叶绿体基因组图谱Fig.1 Gene map of Amomum tsao-ko chloroplast genome

内含子在基因表达调控中发挥重要作用,草果叶绿体基因组中有18 个含内含子的基因,包括6个tRNA 基因(trnA-UGC、trnG-GCC、trnI-GAU、trnK-UUU、trnL-UAA、trnV-UAC)和12 个蛋白质编码基因(rps12、rps16、rpl2、rpl16、rpoC1、petB、petD、atpF、clpP、ndhA、ndhB、ycf3),其中rps12、clpP 和ycf3 基因包含2 个内含子(表1)。

表1 草果叶绿体基因组基因Table 1 Genes encoded cp genome in Amomum tsao-ko

3.2 SSR 分析

SSR 广泛分布于叶绿体基因组中。草果叶绿体基因组中共检测到123 个SSR,其中单核苷酸重复SSR 最多(62 个),其次是二核苷酸SSR(37 个),四核苷酸SSR 有20 个,三核苷酸SSR 最少,仅检测到4 个。在所检测的SSR 中以A/T、AT/AT 和AAAT/ATTT 为重复单元的占83.74%,表明草果叶绿体SSR 偏好使用A 和T 碱基(表2)。

表2 草果叶绿体基因组SSR 信息Table 2 SSR in the Amomum tsao-ko cp genome

3.3 豆蔻属叶绿体基因组比较

将草果叶绿体基因组与已报道的豆蔻属的阳春砂、绿壳砂、海南砂、白豆蔻和爪哇白豆蔻进行比较(表3),结果表明豆蔻属物种间基因组大小差异较小,其中阳春砂的叶绿体基因组最长,为164 069 bp,白豆蔻的最短为162 766 bp;除白豆蔻LSC 区较短外,其余5 个物种的LSC 区长度差异较小,而SSC 区长度在6 个物种间相近;比较发现草果的IR区长度最短,为29 776 bp,而阳春砂的IR 区最长,为29 959 bp;草果、阳春砂、绿壳砂和海南砂叶绿体基因组均包含133 个基因,白豆蔻和爪哇白豆蔻则为135 个基因;6 个物种的叶绿体基因组GC 含量相似,均在36.0%~36.1%。

表3 6 个豆蔻属叶绿体基因组一般特征比较Table 3 Comparison of the general features of the six genus Amomum chloroplast genomes

将草果叶绿体基因组的IR-LSC 和IR-SSC 边界与已报道的5 个豆蔻属物种进行比较(图2)。豆蔻属叶绿体基因组的6个边界较为保守,其中LSC/IRa和LSC/IRb 边界的侧翼基因相同,LSC/IRa 边界均在基因rpl22 和rps19 基因之间,而LSC/IRb 边界位于rps19 和psbA 基因之间。SSC/IRa 边界IRa 一侧都存在一个ycf1 假基因(ycf1),除草果外,其余5 个物种的ycf1 基因均跨越SSC/IRa 区,ycf1 假基因进入SSC 区的长度从13 bp 到54 bp,其中爪哇白豆蔻ycf1 扩张最大;草果、阳春砂、绿壳砂、海南砂、爪哇白豆蔻的SSC/IRb 均位于ycf1 基因中,而白豆蔻ycf1 基因已完全扩张到IRa 区内部。

图2 6 个豆蔻属叶绿体基因组LSC、SSC 和IR 边界比较Fig.2 Comparison of LSC,SSC and IR borders among six chloroplast genome of genus Amomum

3.4 系统进化分析

为了明确草果在姜科植物的系统发育地位和进化关系,选取已报道的13 个姜科物种的叶绿体全基因组序列,以闭鞘姜科的绿苞闭鞘姜为外类群,构建ML 系统发育树。所有姜科物种可分为2 大类,豆蔻属和山姜属聚为一类,豆蔻属中同为砂仁来源的绿壳砂、阳春砂和海南砂亲缘关系最近,聚为一支,爪哇白豆蔻和白豆蔻聚为另一支,草果单独成一支,草果与其它豆蔻属的分支支持率为99%;在另一类中包括姜属、姜黄属和山柰属,姜黄属的黄花姜黄先与山柰属的2 个物种聚在一起,再与姜属的蜂巢姜和姜聚在一起,最后与姜黄属的观音姜聚类(图3)。

图3 基于15 个物种叶绿体基因组序列构建的系统发育树Fig.3 Phylogenetic tree of 15 species based on chloroplast genomes

3.5 适用性进化分析

为进一步研究草果与豆蔻属物种叶绿体基因在进化过程中受到的选择压力,利用DnaSP 软件分析草果与阳春砂、绿壳砂、海南砂、白豆蔻和爪哇白豆蔻蛋白编码基因的Ka/Ks 值(图4)。79 个蛋白编码基因在草果vs阳春砂、草果vs绿壳砂、草果vs海南砂、草果vs白豆蔻和草果vs爪哇白豆蔻的Ka/Ks 均值分别为0.169、0.168、0.170、0.158 和0.166,其中绝大多数基因Ka/Ks<1,表明豆蔻属物种叶绿体基因在长期的进化过程中受到了较强的纯化选择。进一步分析表明光合作用相关基因的Ka/Ks 值均小于1;表达相关基因rpl20 在草果vs阳春砂和草果vs绿壳砂中Ka/Ks>1,除草果vs海南砂的rps11 基因Ka/Ks<1 外,草果与其他豆蔻属物种的rps11 基因Ka/Ks 均大于1;其他功能基因中ccsA 基因在草果vs海南砂中Ka/Ks>1、clpP 基因在草果vs海南砂和草果vs爪哇白豆蔻中Ka/Ks>1、ycf1 和ycf2 基因均在草果vs爪哇白豆蔻中Ka/Ks>1,表明这些基因在进化过程中受到正向选择作用。

图4 不同功能基因的Ka/Ks 值Fig.4 Ka/Ks values of different functional genes

4 讨论

通过比较草果和已报道姜科豆蔻属物种的叶绿体基因组,发现豆蔻属在叶绿体基因组上具有高度的保守性,已报道的豆蔻属cp 基因组长度在162 766~164 069 bp[9-11],本研究组装的草果cp 基因组全序列长度为163 648 bp,表明草果叶绿体基因组大小符合豆蔻属物种的特点。已报道的豆蔻属叶绿体总基因数量在133~135(非重复蛋白编码基因79~80),在本研究中,草果叶绿体基因组注释到133 个基因(113 个非重复基因,包括79 个蛋白编码基因、30 个tRNA 基因和4 个rRNA 基因)。豆蔻属物种间叶绿体基因组GC 含量相似,均在36.0%~36.1%,并且LSC 区(33.7%~33.9%)和SSC 区(29.8%~30.1%)的GC 含量显著低于IR区(41.1%),其主要原因与8 个GC 含量较高的rRNA 基因均分布在IR 区有关。

一般来说,IR 区是叶绿体基因组中最保守的区域。IR 区、LSC 区和SSC 区的扩张和收缩是进化过程中常见的现象,也是造成叶绿体基因组长度差异的主要原因。在本研究中,发现6 个豆蔻属物种叶绿体基因组的IR 与LSC 或SSC 之间的边界变化很小。6 个豆蔻属植物的LSC/IRb 边界均在基因rpl22 和rps19 基因之间,IRa/LSC 边界均位于rps19基因和psbA 基因之间,与姜科的观音姜、黄花姜黄、益智、姜的边界基因相似,说明姜科物种IR 区与LSC/IRa、IRa/SSC、IRb/LSC 区的边界保守性较高[13],但也有姜科物种的IR 边界基因存在较大的差异,如蜂巢姜的IRb/LSC 边界只有rps19 基因,且该基因位于LSC 区,而LSC/IRa 边界的IRa 一侧没有rps19基因[10],此外棕榈科和禾本科竹亚科也存在这一现象[18-19]。

叶绿体中SSR 拷贝数的变异是一种重要的分子标记,比核和线粒体微卫星有更大的分类距离,在植物群体遗传学、多态性研究和进化研究中有着广泛的应用[20]。目前已有应用cpSSR 研究药用植物丹参、三七、桃儿七、霍山石斛等的报道[21-24]。本研究利用MISA 软件在一、二、三、四、五和六核苷酸最小重复数设置为10、5、4、3、3、3 情况下共扫描到123 个SSR,其中有105 个SSR 由A/T、AT/TA、AAAT/ATTT 和AATT/AATT 组成,这表明草果cp 基因组中的SSR 包含频繁的A 或T 重复,这与已报到的其它植物叶绿体基因组相似[25-27]。叶绿体DNA 在由亲代向子代传递过程中不涉及基因重组,且具有保守性、单亲遗传等特点,在进化过程中有独立的进化路线,因此,具有cpDNA 特征的cpSSR 技术在植物群体结构分析、种群分类、物种演化等研究领域有明显的优势[28]。草果cpSSR 的获得对进一步研究姜科药用植物遗传多样性、群体结构、分子鉴定等方面具有重要意义。

植物叶绿体基因组仅次于核基因组,含有大量的遗传信息,叶绿体全基因组测序技术为药用植物进化系统研究提供了新的平台及思路,近年来,姜科物种中的爪哇白豆蔻、白豆蔻、砂仁、姜、山柰、益智等叶绿体基因组序列的不断公布为确定姜科药用植物的进化和系统发育关系提供了重要依据。本研究从GenBank 下载了13 个姜科植物叶绿体基因组序列,以闭鞘姜科的绿苞闭鞘姜为外类群,构建了姜科物种的系统发育树,从系统发育分析看,姜科物种被分为2 个大的类群,豆蔻属的6 个物种与山姜属的2 个物种被聚在一起,表明豆蔻属和山姜属在姜科中的亲缘关系较近,这一结果与 Wu等[10]、Cui 等[11]、Li 等[12]和Gao 等[13]的研究结果一致;聚类图也清晰的展现了豆蔻属6 个物种之间的亲缘关系,《中国药典》2015年版中作为砂仁来源的阳春砂、绿壳砂和海南砂被聚在一起,做豆蔻使用的白豆蔻和爪哇白豆蔻亲缘关系最近,草果则在豆蔻属中单独成一支,基于叶绿体基因组的聚类分析从分子角度证实了亲缘关系近的物种在药用成分具有相似性,可替代使用。此外研究也表明叶绿体基因组可有效区分姜科物种的系统发育关系,也为深入研究姜科植物进化、遗传多样性和群体结构提供了参考。

Ka/Ks 是评估蛋白质编码基因是否发生适用性进化的有效方法[29]。生物大多数基因的同义核苷酸替换比非同义替换发生得更频繁,因此Ka/Ks 值通常小于1[30]。本研究共检测到6 个正选择基因,正选择基因中没有检测到与光合作用相关的基因,这可能与豆蔻属物种生长于热带地区林下湿热环境,利用相似的光照条件进行光合作用有关[4]。在正选择基因中与基因表达相关的rpl20 和rps11 分别编码L20 和S11 亚基,特别是rps11 基因在草果vs阳春砂、草果vs绿壳砂、草果vs白豆蔻、草果vs爪哇白豆蔻中Ka/Ks 均大于1,说明该基因近期正发生快速的进化,深入研究该基因对草果进化具有一定的意义。clpP 基因在草果vs海南砂和草果vs爪哇白豆蔻中也经历着正选择,该基因编码Clp 蛋白水解酶亚基,其功能主要负责降解异常蛋白,与维持叶绿体正常代谢有关[31];而在草果vs海南砂中检测出的ccsA 基因负责编码细胞色素c 合成蛋白,Xie等[32]研究认为ccsA 基因参与细胞色素c 与血红蛋白的结合,这为理解该基因参与豆蔻属物种适用性进化提供了参考。ycf1 和ycf2 作为叶绿体基因组中2 个编码区序列最长的基因,其编码产物功能至今仍不清楚,ycf1 和ycf2 基因在多个植物中均存在正向选择现象,推测这2 个基因在陆生植物适应环境变化中发挥重要作用[10,33-36]。

利益冲突所有作者均声明不存在利益冲突

猜你喜欢
白豆蔻豆蔻草果
基于SSR分子标记的草果栽培起源分析
豆蔻知多少
不同烘干方式对怒江草果产品质量的影响
豆蔻的临床应用及其用量探究
白豆蔻总黄酮的提取及抗氧化活性研究
我珍藏你豆蔻的情衷
豆蔻梢头二月初
酒后难受,煎砂仁白豆蔻
豆蔻:温养脏腑,祛除湿邪
滇东南山区天然林下草果种植的民族生态学评价