甜高粱叶绿体基因组特征及密码子偏好性分析

2024-01-06 09:11洪森荣林顺来李盈萍李芸芸李和月张庆宝
草地学报 2023年12期
关键词:近缘密码子叶绿体

洪森荣,林顺来,李盈萍,李芸芸,李和月,张庆宝

(1. 上饶师范学院生命科学学院,江西 上饶 334001; 2. 上饶农业技术创新研究院,江西 上饶 334001; 3. 上饶市药食同源植物资源保护与利用重点实验室,江西 上饶 334001; 4. 上饶市薯芋类作物种质保存与利用重点实验室,江西 上饶 334001)

甜高粱(Sorghumbicolor)属C4作物,是禾本科高粱属中普通高粱的一个变种,不仅具有较高的生物产量和经济产量,干生物量可达 30 t·hm-2,而且对不同生长环境下土壤的适应能力较强,具有抗旱、抗盐碱、水分利用率高的特性,即使在干旱、盐碱化严重的地区,甜高粱也表现出良好的适应性[1],同时其茎秆中含有丰富的糖分汁液,可以用来制作糖浆及酒产品等[2],还可替代玉米制作优质青贮饲料[3],是兼具食用、酿造及饲用等多种应用价值的新型高效能源作物[4]。目前,关于高粱属植物的研究主要集中在种植栽培[5]、营养价值[6]、分子指纹图谱[7]和遗传多样性[8]等方面,而高粱属植物的叶绿体基因组的研究少见报道,黄卓然等[9]对四种禾本科作物(小麦Triticumaestivum、水稻Oryzasativa、玉米Zeamays和高粱Sorghumbicolor)叶绿体基因组碱基替换的侧翼序列特征进行了研究,发现这4种禾本科作物的叶绿体基因组均表现出CpG甲基化效应以及颠换相邻位点的特殊组成规律;许卫东等[10]研究了高粱叶绿体psbD基因的克隆及其高效表达,克服了D2蛋白质(由psbD基因编码的蛋白质)体外极难分离与纯化的困难,为研究D2蛋白质的高级结构提供了有利条件;Klein[11]为了进一步了解高粱细胞质雄性不育(CMS)和育性恢复基因(Rf)的作用,对富含线粒体和叶绿体亚细胞部分的A1CMS(A1雄性不育系即买罗milo细胞质雄性不育系)线粒体基因组进行了测序和组装。但基于单个片段或分子标记其有效信息位点不足,高粱属内物种间的系统位置支持率不高,高粱属内种间系统进化关系未能很好的解析。因此,解析甜高粱的叶绿体基因组结构特征与系统进化关系,对甜高粱种质资源的分子鉴定、品种选育和农艺经济性状的遗传分析具有重要意义,亦为高粱属系统进化研究提供依据。

叶绿体是植物进行光合作用的重要细胞器,是高等植物细胞独立的遗传物质,对植物生长发育起重要作用[12]。叶绿体基因组长度约120~160 kb,一般具有闭合的环状结构,即包括大单拷贝区(Large single copy,LSC),小单拷贝区(Small single copy,SSC),2个反向重复区(Inverted repeat region,IRs,包括IRa和IRb)[13]。大多数被子植物叶绿体基因组为母系遗传,约110~130个基因,其编码区的基因序列相对保守,与其他质体基因组相比,叶绿体基因组的进化速率较低,结构较为稳定,是进行系统进化和分化时间分析的理想标记[14]。本研究利用高通量测序技术进行甜高粱叶绿体全基因组测序,通过组装、拼接和注释得到其全长叶绿体基因组序列,并对其叶绿体基因组结构、组成及系统进化关系进行分析,旨在丰富甜高粱的遗传信息,为未来研究高粱属植物间的系统进化、亲缘关系及品种鉴定提供理论依据。

1 材料与方法

1.1 试验材料

甜高粱试管苗(种子产地:江苏宿迁,试管苗由上饶市药食同源植物资源保护与利用重点实验室提供)。

1.2 试验方法

1.2.1DNA提取和测序 利用改良的CTAB法提取甜高粱(TGL)试管苗叶片总DNA[15]。甜高粱试管苗叶片基因组DNA检测合格后,用机械打断的方法(超声波)将DNA片段化,然后对片段化的DNA进行片段纯化、末端修复、3′端加A、连接测序接头,再用琼脂糖凝胶电泳进行片段大小选择,进行PCR扩增形成测序文库,建好的文库先进行文库质检,质检合格的文库用BGISEQ-500平台进行测序。

1.2.2叶绿体全基因组的组装与注释 对Raw Data进行数据过滤,去除其中的接头序列及低质量Reads获得高质量的Clean Data。将Clean Data按参考物种的叶绿体基因组序列进行序列组装,获得叶绿体序列组装结果。使用GeSeq[16]、tRNAscan-SE[17]对叶绿体基因组进行注释,再经过手工校正后得到最终的叶绿体基因组基因注释结果。将注释完成的甜高粱叶绿体基因组序列提交至NCBI(https://www.ncbi.nlm.nih.gov/),获得登录号(OQ843017)。使用OGDRAW制作叶绿体基因组图谱[18]。

1.2.3叶绿体基因组特征分析 通过JSHYCloud在线工具集(http:∥cloud.genepioneer.com:9929)分析并统计叶绿体基因组、大单拷贝区(LSC)、小单拷贝区(SSC)和反向重复区(IR)的GC含量;使用MISA软件[19]进行SSR的分析,单核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸、六核苷酸的最小重复值分别设置为10,6,5,5,5,5。利用REPuter软件[20]进行Longrepeat分析,查找正向重复F(forward)、反向重复R(reverse)、互补重复C(complement)、回文重复P(palindromic)四种重复类型;通过Pasteur Galaxy在线工具集中的CodonW模块分析密码子使用情况,设置输出结果为有效密码子数(ENC)和相对同义密码子使用度(RSCU),其他参数设为默认值。将甜高粱叶绿体基因组序列上传至NCBI进行BLASTn比对,选择highly similar sequence(megablast)来比较相似性在95%以上的序列,检索获得甜高粱的近缘种。利用Gview、VISTA tools、IRscope[21]和DNADnaSP6.0软件[22]绘制甜高粱及其高粱属14个近缘种(见表1)的变异圈图、mVIST结构变异图、IR结构变异图,计算甜高粱及其14个近缘种的基因组核苷酸多态性(Pi,参数设置100 bp滑窗和25 bp步长);并对上述甜高粱及其14个近缘种进行GC3-GC12分析(Neutrality-plot分析)、ENC-plot分析和PR2-bias-plot分析和最优密码子分析;对甜高粱叶绿体基因的ENC值进行排序,分别选取两端基因各5个,构建高表达基因库(ENC值小)和低表达基因库(ENC值大),并计算二者的RSCU差值(ΔRSCU)。筛选ΔRSCU≥0.08的高表达密码子,且RSCU>1的高频率密码子定义为甜高粱叶绿体基因组的最优密码子;最后利用mafft 7.0软件[23]对甜高粱及其高粱属22个近缘种(见表2)进行序列比对,利用fasttree 2.1.10软件[24]构建甜高粱及其22个近缘种以及物种外外群甘蔗属2个种的进化树。

表1 高粱属14个近缘种Table 1 14 related species of sorghum genus

表2 高粱属22个近缘种以及甘蔗属2个种Table 2 24 related species of sorghum genus and 2 species of sugarcane genus

2 结果与分析

2.1 甜高粱叶绿体基因组序列特征分析

经过测序组装的完整的甜高粱叶绿体基因组长度为140 644 bp,基因组图谱(图1)显示:甜高粱叶绿体基因组呈典型的环状结构,具有LSC,SSC,IRa和IRb之四分体结构。基因组的A含量为30.79%、T含量为30.73%、C含量为19.23%、G含量为19.26%,总GC含量为38.48%,低于总AT含量(61.52%)。其中,IR区的GC含量最高(43.90%),LSC区次之(36.33%),SSC区的GC含量最低(32.95%)。

图1 甜高粱叶绿体基因组图谱Fig.1 Chloroplast genome map of S. bicolor

2.2 甜高粱叶绿体基因类型分析

由表3可知,共注释到光合作用基因、自我复制基因、其他基因和未知功能基因4类,包括86个CDS基因、38个tRNA基因和8个rRNA基因,共132个基因。对有多个外显子的叶绿体基因进行结构分析,发现2个外显子构成的基因有18个,包括10个CDS基因和8个tRNA基因;由3个外显子构成的基因有3个,为rps12,rps12,pafI基因;81个基因完全在LSC区;9个基因完全在SSC区;19个基因完全在IRB和IRA区;1个基因(ndhF)在SSC-IRB连接区;LSC-IRB连接区无基因;1个基因(ndhH)在SSC-IRA连接区;rps12基因有2个拷贝,每个拷贝具有3个外显子,且两个拷贝共享第一个外显子,第一个外显子位于LSC区域,另外2个外显子位于IR区域。

表3 甜高粱叶绿体基因功能分类Table 3 Chloroplast gene functional classification of S. bicolor

2.3 甜高粱叶绿体基因组重复序列分析和长重复(Long repeat)分析

甜高粱叶绿体基因组中共检测到31个SSR位点,对不同重复频率的SSR位点数量进行统计,结果(表4)显示:31个SSR位点均为单核苷酸SSR。在单核苷酸SSR位点中,由T组成的单核苷酸SSR位点最多(17个),由A组成的单核苷酸SSR位点次之(9个),由C或G组成的单核苷酸SSR位点仅为2~3个,表明甜高粱叶绿体基因组的碱基组成偏向使用A或T。甜高粱叶绿体基因组共鉴定到42个长重复(Long repeat)序列,包括23个正向重复F(Forward)、19个回文重复P(Palindromic),无反向重复R(Reverse)和互补重复C(Complement)。

表4 甜高粱叶绿体基因组中SSR的类型及分布Table 4 Type and distribution of SSR in chloroplast genome of S. bicolor

2.4 甜高粱叶绿体基因组比对分析

由甜高粱及其14个近缘种叶绿体基因组的变异圈图(图2)、mVIST结构变异图(图3)和Pi核苷酸多态性分析图(图4)可知,甜高粱及其14个近缘种的叶绿体基因组变化不大,甜高粱Sorghumbicolor和高粱SorghumbicolorMT333845、高粱SorghumbicolorMT333848、高粱SorghumbicolorMT459453的叶绿体基因组较为保守,叶绿体基因组较为稳定。由图4可知,甜高粱及其14个近缘种叶绿体基因组核苷酸多态性的变化范围为0~0.010 51,基因psbA/trnK-UUU,trnK-UUU,matK/rps16,trnK-UUU,matK/rps16,trnG-UCC/trnT-GGU,trnT-GGU/trnE-UUC,trnD-GUC,trnD-GUC/psbM,trnV-UAC,ndhF,rps12变异率最高(图4),以上结果与Gview和mVISTA分析结果一致。

图2 甜高粱及其14个近缘种叶绿体基因组Gview变异圈Fig.2 Gview variation circle of chloroplast genomes of S. bicolor and its14 related species注:从外到内的序号与表1一致,下同Note:The serial numbers from outside to inside are consistent with Table 1,the same as below

图4 甜高粱及其14个近缘种叶绿体基因组Pi核苷酸多态性分析Fig.4 Pi nucleotide polymorphism analysis of chloroplast genomes of S. bicolor and its14 related species

2.5 甜高粱叶绿体基因组IR区边界的收缩与扩张分析

甜高粱及其14个近缘种叶绿体基因组LSC区、SSC区和IR区边界的比较结果见图5。结果显示:甜高粱和14个近缘种IR区长度一致,其IRa区和IRb区长度均为22 782 bp。在IRb区内,甜高粱和14个近缘种的rps19基因距LSC-IRb边界线36 bp,ndhF基因横跨IRb区和SSC区,长度均为2 216 bp(IRb区28 bp,SSC区2 188 bp);在IRa区内,甜高粱和14个近缘种的rps15基因距SSC-IRa边界线1 bp,rps19基因距LSC-IRa边界线35 bp,其rps15,rps19,rpl2,trnH基因长度相同;在LSC区内,甜高粱和14个近缘种的rpl22和psbA基因长度相同;在SSC区内,甜高粱和14个近缘种的ndhH基因长度均为1 181 bp,均距SSC-IRa边界线1 bp。说明甜高粱和14个近缘种叶绿体基因组的JLB,JSB,JSA,JLA边界无明显差异,甜高粱叶绿体基因组IR区边界未发生明显的收缩与扩张。

图5 甜高粱及其14个近缘种叶绿体基因组IR扩张和收缩图Fig.5 IR expansion and contraction of the chloroplast genome of S. bicolor and its14 related species

2.6 甜高粱叶绿体基因组密码子使用偏性分析

2.6.1同义密码子的偏性分析 由图6可知,3个位置GC含量的平均值为38.60%,GC1,GC2,GC3分别为46.13%,39.84%,29.83%.这说明GC在密码子3个位点上的分布存在显著差异,呈GC31的密码子,在这31个密码子中,除AUG,UUC,UUG外,其余都以A,U结尾,这表明A,U碱基在密码子最后位点上出现的频率最高,甜高粱叶绿体基因组密码子偏好以A,U结尾。

图6 甜高粱及其14个近缘种叶绿体基因组密码子组成成分分析Fig.6 Composition analysis of chloroplast genome codons of S. bicolor and its14 related species注:GC_first、GC_second、GC_third分别表示密码子第 1、2、3位的GC含量;GC_total表示密码子总GC含量Note:GC_first、GC_second、GC_third represent the GC content of codon 1,2 and 3 respectively;GC_total represents the total GC content of the codons

表5 甜高粱叶绿体基因组同义密码子的使用频率(RSCU)Table 5 Relative synonymous codon usage (RSCU) of chloroplast genome of S. bicolor

2.6.2中性绘图分析(GC3~GC12分析) 由图7可知,GC3~GC12分析发现甜高粱及其14个近缘种植物叶绿体基因的GC3含量分布在0.151 2~0.407 4之间,GC12含量分布在0.333 3~0.646 3之间,二者基本是沿对角线上方分布。两者的相关系数r=0.045(R2=0.002),相关显著(P<0.05),回归斜率为0.044,说明GC12与GC3相关。表明甜高粱叶绿体基因组密码子使用偏性很大程度上受自然选择的影响,而受突变压力的影响小。

图7 甜高粱及其14个近缘种叶绿体基因组密码子GC3~GC12分析Fig.7 GC3~GC12 analysis of chloroplast genome codons of S. bicolor and its14 related species

2.6.3ENC-plot分析 由图8可知,分布在期望曲线上的基因较少,分布在期望曲线下方且远离曲线的基因较多,说明大部分基因的实际ENC值与理论ENC值存在差异,这表明自然选择是影响甜高粱叶绿体基因组密码子使用偏性的主要因素,而突变压力的作用较小。

图8 甜高粱及其14个近缘种叶绿体基因组密码子ENC-plot分析Fig.8 ENC-plot analysis of chloroplast genome codons of S. bicolor and its14 related species

2.6.4PR2-plot分析 由图9可知,X,Y坐标轴均以0.5为界限,发现4个平面内基因分布不均衡。从G3/GC3轴看,少数基因位于上方(>0.5),多数基因位于下方(<0.5);从A3/AU3轴看,多数基因位于左侧(<0.5),少数基因位于右侧(>0.5),这表明4种碱基在同义密码子第3位上存在G>C,A>T现象。由于当密码子使用存在偏性完全受突变压力影响时,C和G以及A和T同义密码子在第3位上的分布应相等。因此,甜高粱叶绿体基因组密码子使用偏性除受到突变影响外,还受自然选择等因素影响。

图9 甜高粱及其14个近缘种叶绿体基因组密码子PR2-plot分析Fig.9 PR2-plot analysis of chloroplast genome codons of S. bicolor and its14 related species

2.6.5最优密码子确定 由表6可知,同时满足条件RSCU>1和ΔRSCU≥0.08的密码子共14个,即ACU,UAG,CCU,CUA,GCU,AGU,GAU,UUA,CGU,GAA,GUU,UCA,CAU,UGU,这些密码子除一个密码子以G结尾之外,其它均以A,U结尾,被确定为甜高粱叶绿体基因组的最优密码子。

表6 甜高粱叶绿体基因最优密码子筛选Table 6 Optimal codon screening of chloroplast genome of S. bicolor

2.7 高粱属植物系统发育分析

由图10可知,高粱属聚为一大类;甘蔗属聚为另一大类。在高粱属中,又可分为2类,甜高粱(S.bicolor,TGL)与高粱S.bicolorMT333845、高粱S.bicolorMT333848、高粱S.bicolorMT459453单独聚为一分支。说明甜高粱(TGL,产地:江苏宿迁)与高粱S.bicolorMT333845(产地:韩国,栽培种Donganme)、高粱S.bicolorMT333848(产地:韩国,栽培种Sodam Chal)、高粱S.bicolorMT459453(产地:韩国,栽培种ATx623)亲缘关系较近,但与高粱S.bicolorMT333846(产地:韩国,栽培种Hwanggum Chal)、高粱S.bicolorMT333847(产地:韩国,栽培种Nampoong Chal)、高粱S.bicolorNC_008602(产地:美国)、高粱S.bicolorAC144549(产地:美国)、高粱S.bicolorMK348612(产地:中国唐山)关系较远,表明中国甜高粱与韩国高粱栽培种(Hwanggum Chal、Nampoong Chal)、美国高粱以及中国唐山高粱的起源存在差异。究其原因,可是能不同产地的高粱的IR区边界局部存在一定的收缩与扩张。

图10 基于叶绿体基因组的甜高粱及其22个近缘种以及外群甘蔗属2个种的系统发育树Fig.10 Phylogenetic tree of S. bicolor and its 22 related species,as well as 2 species of sugarcane in the outer group,based on the chloroplast genome

3 讨论

叶绿体SSR分子标记可广泛应用于群体遗传学、生物地理学和系统进化等方面的研究[29]。在甜高粱叶绿体基因组SSR预测中,31个SSR位点均为单核苷酸SSR,在单核苷酸SSR位点中,由T或A组成的单核苷酸SSR位点较多,表明甜高粱叶绿体基因组的碱基组成偏向使用A或T,这与北陵鸢尾(Iristyphifolia)[30]和‘草原3号’杂花苜蓿(Medicagovaria‘Caoyuan No. 3’)[31]等研究结果基本一致。北陵鸢尾(Iristyphifolia)叶绿体基因组SSR位点包含33个单核苷酸重复、14个双核苷酸重复、2个三核苷酸重复、7个四核苷酸重复和1个五核苷酸重复单核苷酸类型重复占比最大,为57.9%,且全部由A/T组成。由A/T组成的SSR占全部SSR的87.7%,表明北陵鸢尾叶绿体基因组偏好使用A碱基和T碱基[30];‘草原3号’杂花苜蓿单核苷酸重复序列出现频率较高,为79个,其中仅有A碱基的重复序列51 SSRs,T碱基28 SSRs,杂花苜蓿叶绿体基因组SSR位点A/T碱基占优势,具有碱基偏好性[31]。因此,重复序列的分析为将来甜高粱品种及其他高粱属植物的物种鉴定和个体水平的遗传差异分析提供了丰富的遗传信息支撑。

尽管甜高粱叶绿体基因组与同属14个近缘种的叶绿体基因组比较相似,甜高粱与14个近缘种在LSC区与IRb区的边界、SSC区与IRb区的边界、SSC区与IRa区的边界和LSC区与IRa区的边界几乎无差异,ndhF,rps15,rps19,rpl2,trnH,rpl22,psbA和ndhH基因长度相同,未显示出较高的序列分化,其它高粱属植物[26]的叶绿体基因组中也得到类似的结果。推测高粱属植物的叶绿体基因组进化较为保守。本试验的mVISTA分析结果表明,非编码序列变异程度明显高于编码序列,这与大多数被子植物中发现的多样性模式一致[32]。总的来说,甜高粱叶绿体基因组的序列变异集中在非编码序列,而编码序列的变异较小。许多研究也表明,非编码序列由于富含多种序列调节因子,对生物进化和关键生物功能有着重要作用[33]。

同义密码子以并不随机的方式出现在不同的物种中,形成密码子的使用偏好性。密码子使用偏好性可以作为研究植物间叶绿体基因组进化关系的一项重要指标[34]。不同物种或同一物种的不同基因对密码子的偏性也可能不同。影响密码子使用偏好性的关键因素是突变压力和自然选择[35]。密码子的使用偏好性与密码子的GC含量密切相关,因密码子第3位受到的选择压力影响较小,所以通常将GC3作为分析CUB的重要参数[36]。在本试验中,甜高粱叶绿体基因组的密码子GC含量低于50%,表明甜高粱叶绿体更倾向于使用A/T密码子,这与其他高粱属植物[26]的叶绿体基因组的研究结果一致。甜高粱叶绿体基因组密码子GC3表现为低GC含量,这也证明了Campbell等[37]提出的“高等植物密码子倾向于使用A/T结尾”的假设。

甜高粱叶绿体基因组的PR2-plot分析表明,甜高粱叶绿体基因组密码子使用偏性除受到突变影响外,还受自然选择等因素影响。甜高粱叶绿体基因组的中性绘图分析和ENC-plot分析表明,在甜高粱的进化过程中,其叶绿体基因组密码子使用偏性很大程度上受自然选择的影响,而受突变压力的影响小。尽管突变压力和自然选择都可以独立地导致密码子使用偏好性的形成,但这两种机制的组合和长时间的累积效应才是对甜高粱密码子使用偏好性形成的主要原因[38]。

甜高粱叶绿体基因组中的蛋白编码基因的密码子同时满足条件RSCU>1和ΔRSCU≥0.08的密码子共14个,即ACU,UAG,CCU,CUA,GCU,AGU,GAU,UUA,CGU,GAA,GUU,UCA,CAU,UGU,这些密码子除一个密码子以G结尾之外,其它均以A,U结尾,被确定为甜高粱叶绿体基因组的最优密码子,这说明了甜高粱在密码子的使用偏向于第三个密码子位置为A和U,有较强的A/U碱基偏好性。本试验结果与蒺藜苜蓿(MedicagotruncatulaGaertn.)[39]等叶绿体基因的第3位密码子偏好性趋势一致,但与酸枣(Ziziphusjujubavar.Spinosa)[40]等的叶绿体基因分析结果存在差异。这表明密码子使用偏好性因物种而异。

叶绿体基因在进化过程中很少受外界影响,适合用来研究物种的进化关系[41]。物种间的遗传关系越近,CUB越相似,物种间的欧式平方距离越小[42]。在本试验中,甜高粱(TGL,产地:江苏宿迁)与来自韩国的高粱栽培种MT333845,MT333848和MT459453亲缘关系较近,但与来自韩国的高粱栽培种MT333846,MT333847、美国的高粱栽培种NC_008602、AC144549以及中国唐山高粱栽培种MK348612关系较远。由于,甜高粱(Sorghumbicolor)是粒用高粱的一个变种[43],据此推测,甜高粱与近缘种出现较大差异也可能与其为变种相关。

4 结论

甜高粱叶绿体基因组长度为140 644 bp,具有LSC,SSC,IRa和IRb之四分体结构。31个SSR位点均为单核苷酸SSR。碱基组成偏向使用A或T。甜高粱及其14个近缘种的叶绿体基因组变化不大。甜高粱叶绿体基因组IR区边界未发生明显的收缩与扩张。甜高粱叶绿体基因组密码子的使用偏好性主要受到自然选择的影响,但其他因素如突变压力在一定程度上也会影响甜高粱叶绿体基因组密码子的使用偏好性。确定了14个最优密码子,甜高粱(TGL,产地:江苏宿迁)与来自韩国的高粱栽培种MT333845,MT333848和MT459453亲缘关系较近。以上研究结果为完善高粱属植物分子育种技术和探究高粱属植物系统发育提供了参考。

猜你喜欢
近缘密码子叶绿体
谷子近缘野生种的亲缘关系及其利用研究
密码子与反密码子的本质与拓展
10种藏药材ccmFN基因片段密码子偏好性分析
北细辛及其近缘植物叶片显微结构比较研究
南方红豆杉叶绿体非编码序列PCR体系优化及引物筛选
检疫性杂草假高粱与近缘植物种子的波谱鉴别方法
HPLC测定滇紫草及其两个近缘种中乙酰紫草素的含量
茶树CsActin1基因密码子偏性分析
茶树叶绿体DNA的PCR-RFLP反应体系优化
烟草叶绿体密码子的偏好性及聚类分析