多齿红山茶叶绿体基因组序列特征分析

2022-09-27 02:28童一涵杜新明冯士令周莉君丁春邦
植物资源与环境学报 2022年5期
关键词:密码子山茶叶绿体

童一涵,郑 倩,杜新明,冯士令,周莉君,丁春邦,陈 涛

(四川农业大学生命科学学院,四川 雅安 625014)

多齿红山茶(CamelliapolyodontaHow ex Hu)隶属于山茶科(Theaceae)山茶属(CamelliaLinn.),又称宛田红花油茶,1965年由How ex Hu定名并且将其归入山茶属红山茶组〔Sect.Camellia(Linn.)Dyer〕[1]58。红山茶组植物花色鲜红,花期长,雨后花色不变,被广泛应用于园林城市、旅游景区等的绿化,是西部地区发展观光旅游的优良树种[2]。中国是红山茶组植物的分布中心,种质资源丰富,其中多齿红山茶主要分布在海拔900 m的山坡阔叶林和林缘。由于红山茶组植物所处的自然地理环境不同,物种广泛重叠和自然杂交,导致种间变异,特别是具有栽培历史的观赏花卉和油料植物,在进一步人工引种栽培后,还会引起染色体多倍化,使种间变异更为复杂多样,导致红山茶组植物的种类划分、扩散路线、分化和进化趋势尚存在较大分歧。

许多专家从分类学角度对山茶属植物进行了相关的研究,目前,国内主要参考张宏达[1]5和闵天禄[3]的分类系统,但这2个分类系统之间存在很大的差异,其原因为形态学的传统物种分类方法易受环境因子影响[4]。而以分子钟理论为基础,精确地研究物种之间的系统发育关系,可为解决存在争议的分类问题提供更加可靠的理论依据和数据参考[5]。20世纪60年代初,在地钱(MarchantiapolymorphaLinn.)[6]中首次报道了叶绿体基因组全序列。植物叶绿体基因组远小于核基因组,具有分子量适中、便于测序、多拷贝、结构简单、DNA的核苷酸置换率适中、编码区和非编码区的分子进化速度差异显著以及各类群叶绿体基因组之间具有良好的共线性的特点[7],且植物叶绿体具有一套独立于核基因组外的母系遗传的叶绿体基因组[8]。随着系统发育学和基因组学的交融,在植物系统发育研究中,基于叶绿体基因组的系统发育基因组学研究优势渐显端倪[9],为一些分类困难类群的系统学问题提供了新的解决方案。

目前,多齿红山茶叶绿体基因组信息缺乏,关于山茶属进化分类的相关研究结论的可靠性有限,影响了该优良资源的进一步开发和利用,随着第二代高通量测序技术的发展,植物全基因组测序具备了速度快、通量高、成本低、高精度的特点[10]。鉴于此,本研究使用Illumina测序平台对未被GenBank收录的多齿红山茶进行高深度重测序,利用测得的核基因组序列信息组装出叶绿体基因组,对其序列特征及系统发育进行分析,以期为多齿红山茶资源的开发和利用、近缘种间的系统发育关系及山茶属植物的进化和分类研究提供理论依据和参考。

1 材料和方法

1.1 材料

供试材料多齿红山茶为四川省雅安市天全县城厢镇大岗山(东经102°46′59″、北纬30°04′25″)原生分布单株,树龄约20 a,于2021年3月每株采集新稍嫩叶3~5枚,共采集6株,混合后装入含有硅胶的自封袋带回实验室。

1.2 方法

1.2.1 总DNA提取及测序 使用改良CTAB法[11]提取叶片总DNA,用质量体积分数1%琼脂糖凝胶电泳检测DNA的完整性,使用NanoDrop 2000分光光度计(美国Thermo Scientific公司)检测DNA浓度和纯度,将总DNA进行随机打断、末端修复、连接接头构建500 bp的测序文库,使用HiSeq 2500高通量测序平台(美国Illumina公司)进行双末端重测序,测序由深圳华大基因股份有限公司完成。原始数据剔除接头污染和低质量序列,得到3.92 Gb合格数据。

1.2.2 叶绿体基因组组装与注释 过滤后的数据使用GetOrganelle软件[12]进行多齿红山茶叶绿体基因组的从头组装,最后获得1条环形的叶绿体基因组序列。使用CPGAVAS2在线注释工具(http:∥47.90.241.85:16019/analyzer/home)[13]对获得的叶绿体基因组序列信息进行在线注释,以NCBI上已发表的近缘种滇山茶(CamelliareticulataLindl.)(GenBank登录号KJ806278.1)的叶绿体基因组信息作为参考序列,其他参数设为默认值,经人工校正后,将多齿红山茶叶绿体基因组序列上传至NCBI(GenBank登录号OK377261),最后再使用Chloroplot在线工具(https:∥irscope.shinyapps.io/Chloroplot/)[14]绘制叶绿体基因组图谱。

通过JSHYCloud在线工具集(http:∥cloud.genepioneer.com:9929)分析并统计叶绿体基因组、大单拷贝区(LSC)、小单拷贝区(SSC)和反向重复区(IR)的GC含量。

1.2.3 重复序列与IR区边界结构差异分析 使用MISA在线工具(https:∥webblast.ipk-gatersleben.de/misa/index.php)[15]的微卫星定位检测技术对多齿红山茶叶绿体基因组序列中的简单重复序列进行搜索,参数设置参考文献[16],单核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸、六核苷酸的最小重复值分别设置为10、6、5、5、5、5。

通过JSHYCloud在线工具集分析叶绿体基因组IR区边界结构差异,从NCBI中选同为红山茶组的南山茶(C.semiserrataC.W.Chi)(GenBank登录号MZ403753.1)和毛蕊红山茶〔C.mairei(Lévl.)Melch.〕(GenBank登录号KY406767.1)叶绿体基因组来比对同组不同物种间叶绿体基因组异同,选油茶(C.oleiferaAbel.)(GenBank登录号MN078090.1)来比对不同组间物种的叶绿体基因组异同,选择与山茶属亲缘关系最近的木荷属(SchimaReinw.)的木荷(S.superbaGardn.et Champ.)(GenBank登录号MH782179.1)作为外类群。

1.2.4 密码子偏好性分析 通过Pasteur Galaxy在线工具集(https:∥galaxy.pasteur.fr/CodonW)[17]中的CodonW模块分析密码子使用情况,设置输出结果为有效密码子数(ENC)和相对同义密码子使用度(RSCU),其他参数设为默认值[18]。ENC>35表示含有较多种类的稀有密码子,且基因表达量偏低;某一密码子的RSCU>1.00表示编码对应的蛋白质时偏好使用该密码子,RSCU<1.00表示不偏好使用该密码子,RSCU=1.00表示该密码子没有偏好性。

1.2.5 系统发育分析 将多齿红山茶叶绿体基因组序列上传至NCBI进行BLASTn比对,选择highly similar sequence(megablast)来比较相似性在95%以上的序列,检索获得多齿红山茶的近缘种,以明确多齿红山茶叶绿体基因组序列在山茶属中的系统关系。

从比对结果中筛除栽培种和地方种,下载山茶属22个野生近缘种,使用MAFFT v7软件[19]进行多序列比对后,使用MEGA X软件[20]校正序列,使用ModelFinder软件[21]计算出最佳的最大似然法(ML)建树模型,再以木荷叶绿体基因组序列作为外类群,使用IQ-TREE软件[22]建树,设置自展支持率为1 000,其他参数设为默认值,最后使用iTOL v5在线工具(https:∥itol.embl.de/)[23]和ChiPlot网站(https:∥www.chiplot.online/)调整系统发育树。

2 结果和分析

2.1 多齿红山茶叶绿体基因组序列特征分析

经过测序组装的完整的多齿红山茶叶绿体基因组长度为156 778 bp,基因组图谱(图1)显示:叶绿体基因组呈典型的四分体结构,由1个大单拷贝区(LSC)、1个小单拷贝区(SSC)和2个反向重复区(IR)共4部分组成,其中,LSC、SSC和IR区的长度分别为86 493、18 219和26 033 bp。基因组的总GC含量为37.33%,其中,LSC、SSC和IR区的GC含量分别为35.34%、30.60%和42.98%。

:光系统Ⅰ Photosystem Ⅰ; :光系统Ⅱ Photosystem Ⅱ; :细胞色素b/f复合体Cytochrome b/f complex; :ATP合成酶 ATP synthase;:NADH脱氢酶NADH dehydrogenase; :核酮糖-1,5-二磷酸羧化酶大亚基Large subunit of rubisco; :RNA聚合酶RNA polymerase;:核糖体小亚基Small subunit of ribosome; :核糖体大亚基Large subunit of ribosome; :蛋白酶,翻译起始因子,成熟酶Protease,translational initiation factor, maturase; :tRNA;:保守开放阅读框Conserved open reading frame; :rRNA; :其他Other.LSC:大单拷贝区Large single copy region; SSC: 小单拷贝区Small single copy region; IR: 反向重复区Inverted repeat region.内圈深灰色表示GC含量,括号内数据为CDS基因的密码子偏性指数The dark gray part of inner circle represents the GC content, and the data in brackets are the codon bias indexes of the CDS genes.

2.2 多齿红山茶叶绿体基因类型分析

对多齿红山茶叶绿体基因组进行在线注释,结果见表1。结果显示:共注释到光合作用基因、自我复制基因、其他基因和未知功能基因4类,包括87个CDS基因、37个tRNA基因和8个rRNA基因,共132个基因。

表1 多齿红山茶叶绿体基因列表

对有多个外显子的叶绿体基因进行结构分析,结果见表2。结果显示:由2个外显子和1个内含子构成的基因有19个,包括11个CDS基因和8个tRNA基因,其中有4个基因在IR区重复;由2个内含子和3个外显子构成的基因有ycf3和clpP,均为CDS基因;rps12基因为反式剪切,只统计2个外显子。

表2 多齿红山茶叶绿体基因组中具有多个外显子的基因信息

2.3 多齿红山茶叶绿体基因重复序列分析

多齿红山茶叶绿体基因组中简单重复序列(SSR)的类型及分布见表3。

表3 多齿红山茶叶绿体基因组中简单重复序列(SSR)的类型及分布

结果显示:在多齿红山茶叶绿体基因组中共检测到52个SSR位点,其中,有39个位于LSC区(占比75.0%),有9个位于SSC区(占比17.3%),有4个位于IR区(占比7.7%)。这些重复序列均为单碱基(A/T)的重复类型,其中,重复单元为A、重复频率为11的SSR位点数量最多(7),重复单元为T、重复频率为10的SSR位点数量最多(12),重复单元为A/T的最高重复频率为17。

2.4 多齿红山茶IR区边界结构差异分析

结果(图2)显示:5种山茶科植物叶绿体基因组结构从大单拷贝区(LSC)中间呈线性展开,均由1个LSC区、1个小单拷贝区(SSC)和2个反向重复区(IR)4部分组成,各个区域间对应的连接基因也基本相同,仅南山茶注释到了横跨JSB(IRb和SSC区的边界)和JSA(SSC和IRa区的边界)边界的假基因ycf1。

JLB: LSC和IRb区的边界Boundary of LSC and IRb regions; JSB: IRb和SSC区的边界Boundary of IRb and SSC regions; JSA: SSC和IRa区的边界Boundary of SSC and IRa regions; JLA: IRa和LSC区的边界Boundary of IRa and LSC regions.

5种植物的rps19基因横跨JLB(LSC和IRb区的边界)边界,rpl2基因位于接近JLB边界的IRb区,trnN基因位于接近JSB边界的IRb区,且在接近JSA边界的IRa区反向重复,而ycf1基因横跨JSA边界,rpl2基因位于接近JLA(IRa和LSC区的边界)边界的IRa区,trnH基因位于接近JLA边界的LSC区。

由IR区边界扩张和收缩情况看,山茶属植物rps19、rpl2和trnH基因相对保守,基因位置和长度一致,且红山茶组与油茶组间无差异;但与木荷相比,上述3个基因位置和长度在属间差异明显。山茶属植物ndhF、ycf1和trnN基因则具有位置和长度的特异性,组间差异明显;与木荷相比,属间差异则更加明显,说明ndhF、ycf1和trnN基因不同程度的扩张和伸缩导致了不同物种间的IR和SSC区长度差异。

2.5 多齿红山茶密码子偏好性分析

基于多齿红山茶叶绿体基因组中得到的87个CDS基因序列研究密码子偏好性的常用参数,经CodonW模块分析,有效密码子数(ENC)为55.3,明显大于35,表明叶绿体基因的表达量偏低,且基因中还含有较多种类的稀有密码子。

多齿红山茶氨基酸的相对同义密码子使用度(RSCU)见表4。结果显示:RSCU值大于1.00的密码子共有30个(终止密码子除外),其中,有27个以A或U结尾,有3个以C或G结尾,说明多齿红山茶叶绿体基因组的密码子偏好以A或U结尾。RSCU值大于1.60的密码子为编码精氨酸(Arg)的AGA,RSCU值小于0.60的密码子包括编码异亮氨酸(Leu)的CUG、编码组氨酸(His)的CAC、编码精氨酸(Arg)的CGC、编码天冬酰胺(Asn)的AAC、编码丙氨酸(Ala)的GCG和编码天冬氨酸(Asp)的GAC。

表4 多齿红山茶氨基酸的相对同义密码子使用度(RSCU)

综上所述,多齿红山茶叶绿体基因组高频率使用AGA编码Arg,低频率使用CUG、CAC、CGC、AAC、GCG和GAC分别编码Leu、His、Arg、Asn、Ala和Asp。

2.6 山茶属植物系统发育分析

基于22个山茶属种类和1个木荷属种类的叶绿体基因组构建系统发育树(图3)。结果显示:在山茶属植物中,金花茶〔Camelliapetelotii(Merr.)Sealy〕、龙州金花茶(C.lungzhouensisLuo)和亮叶离蕊茶(C.nitidissimaChi)聚为一支,多齿红山茶、滇山茶和南山茶聚为一支,短柱茶〔C.brevistyla(Hayata)Coh.St〕、小果油茶(C.meiocarpaHu)和茶梅(C.sasanquaThunb.)聚为一支,高州油茶(C.gauchowensisH.T.Chang)、油茶和大苞山茶(C.granthamianaSealy)聚为一支,聚在一支的种类亲缘关系较近。红山茶组、油茶组(Sect.OleiferaH.T.Chang)和短柱茶组(Sect.ParacamelliaSealy)的种类聚在了不同的分支。

进化树分支上的数据为自展支持率,括号内编号为GenBank登录号The data on the branches of evolutionary tree are bootstrap values, and the No.in brackets are the GenBank login numbers.

3 讨论和结论

通常情况下,高等植物叶绿体基因组的总GC含量在34%~40%之间,而且各部分分布不均匀[7]。本研究结果显示:多齿红山茶叶绿体基因组的总GC含量以及大单拷贝区(LSC)、小单拷贝区(SSC)和反向重复区(IR)的GC含量与杜梨(PyrusbetulifoliaBunge)高度相似[24],多齿红山茶叶绿体基因组中IR区的GC含量最高(42.98%),且明显高于SSC区,这是因为仅在IR区分布的4种rRNA基因具有较高的GC含量,而分布在SSC区的NADH脱氧酶基因的GC含量很低[25]。

本文中,多齿红山茶叶绿体基因组的环状结构由1个LSC区、1个SSC区和2个IR区组成,与其他已报道的植物叶绿体基因组结构[26]一致;多齿红山茶有87个CDS基因、37个tRNA基因和8个rRNA基因,这与山茶属其他物种的分析结果相似,例如:‘龙井43’(Camelliasinensis‘Longjing 43’)[27]和油茶[28]等;且多齿红山茶叶绿体基因组的结构和组成与典型被子植物苹果(MaluspumilaMill.)的叶绿体基因组[29]相同,表明植物的叶绿体基因组具有高度的保守性。而对LSC、SSC和IR区边界结构进行比较后发现,IR和SSC区ycf1、ndhF和trnN基因的特异性导致不同物种间的叶绿体基因组的序列长度存在差异。通过自然选择,例如阴暗潮湿等环境因子,会使ycf1等调节光合作用的基因面临的选择压力不同,进而使得基因的进化速率不同[30-31],这类进化速率不同的基因,可以组合起来作为DNA条形码来研究植物群落的系统发育研究[32]。

本研究结果显示:在多齿红山茶叶绿体基因组中检测到的52个SSR位点中,75.0%的位点位于LSC区,17.3%的位点位于SSC区,7.7%的位点位于IR区,不同区域中SSR位点的占比与其他山茶属植物的叶绿体基因组重复序列分析结果相似[33],但多齿红山茶叶绿体基因组中重复序列的类型和位点的检出率与殷鑫等[34]的结果不同,其原因是检索SSR位点的参数设定不同,导致输出的结果不同。当重复单元的范围设置较宽而长度下限较低时(单核苷酸到六核苷酸的最小重复值分别设置为10、4、3、3、3、3),虽然位点的检出率很高,重复类型多,但会挖掘出较多难以检测的无效位点,后续实验中引物设计的成功率较低;反之当重复单元的范围设置较窄而长度下限较高时(单核苷酸到六核苷酸的最小重复值分别设置为10、6、5、5、5、5),虽然位点的检出率很低、重复类型单一,但是引物设计成功率会相对更高,挖掘结果更有效。因此,若无特殊要求,重复单元长度的限定应该根据研究需要进行适当的调整[35]。

本文中,多齿红山茶的相对同义密码子使用度(RSCU)大于1.00的密码子共有30个,其中27个以A或U结尾,3个以C或G结尾,这一结果与大多数被子植物类似,都偏好使用A或U结尾的密码子[36]。以同一基因或基因组为对象,当某物种的某一密码子RSCU值大于1.60时,为高使用频率密码子,其使用偏好性强于拟南芥〔Arabidopsisthaliana(Linn.)Heynh.〕,RSCU值小于0.60时为低使用频率密码子,其使用偏好性弱于拟南芥[37],本文中多齿红山茶高频率使用AGA编码Arg,低频率使用CUG、CAC、CGC、AAC、GCG和GAC密码子分别编码Leu、His、Arg、Asn、Ala和Asp。

聚类分析结果显示:小果油茶、短柱茶和茶梅聚为一支,从分子系统发育的角度支持闵天禄[3]将短柱茶并入油茶组的观点。目前,有超过32个金花茶组(Sect.ChrysanthaChang)的分类群被发表,但是其相关分类依据仅基于叶表皮特征和若干DNA片段[38,39]。本研究中,簇蕊金花茶(CamelliafascicularisH.T.Chang)仅与小花金花茶(CamelliamicranthaS.Y.Liang et Y.C.Zhong)聚为一支,而金花茶、龙州金花茶和亮叶离蕊茶聚为另一支,从分子系统发育的角度支持李凤英等[39]的基于叶表皮特征的聚类结果,簇蕊金花茶有别于金花茶组其他物种,小花金花茶与簇蕊金花茶的亲缘关系较近。此外,红山茶组物种被短柱茶组和油茶组种类交错间隔开,可能是由于在晚第三纪以来,古气候的变迁和亚洲山体的隆升等巨大的环境变化导致了红山茶组和油茶组在新的环境中产生了进一步的分化和杂交[40]。

综上所述,多齿红山茶叶绿体基因组长度为156 778 bp,总CG含量为37.33%,由1个LSC区、1个SSC区以及2个IR区组成,对应GC含量分别为35.34%、30.60%和42.98%;共注释到132个基因,包括87个CDS基因(偏好使用以A或U结尾的密码子编码蛋白,高频率使用AGA编码Arg)、37个tRNA基因和8个rRNA基因,其中,ycf1、ndhF和trnN基因的特异性是导致IR区边界产生差异的原因。检测到的52个SSR位点可作为分子标记位点进一步用于系统发育分析。本研究系统发育分析结果支持将短柱茶并入油茶组的观点。

猜你喜欢
密码子山茶叶绿体
镰翅羊耳蒜叶绿体基因组密码子偏好性分析
以“题”带“面” 突破密码子与反密码子的特性
杜鹃叶山茶Camellia azalea与红山茶组10个物种间的杂交亲和性研究*
红山茶
共生
人不吃饭行吗
新型密码子、反密码子、氨基酸对应盘
2种果蝇(Drosophila melanogaster与D.sechellia)线粒体及NADH dehydrogenase subunit基因的密码子偏好性分析
一种快速提取微藻完整叶绿体及其DNA的方法
对“叶绿体中色素的提取和分离实验”的改进