萱草海水胁迫相关bZIP转录因子密码子偏向性分析

2022-06-27 07:53王玥宁张世杰张志国倪迪安秦巧平
应用技术学报 2022年2期
关键词:萱草同义密码子

王玥宁, 张世杰, 张志国, 倪迪安, 秦巧平, 刘 翔

(上海应用技术大学 生态技术与工程学院, 上海 201418)

遗传密码是将DNA或mRNA基因序列中编码的遗传信息翻译为蛋白质时使用的规则,除线粒体与叶绿体外,几乎所有活细胞均使用同一套密码子表。密码子具有简并特征,通常多个密码子共同编码同一个氨基酸,称为同义密码子[1]。密码子第3位碱基是摇摆位点,该碱基的改变不改变氨基酸种类,该特性有利于减少有害突变,保证遗传信息的稳定表达。有研究表明,不同物种在使用同义密码子编码氨基酸时并非随机,而是具有一定密码子使用偏向性(codon usage bias,CUB)[2],而这些被偏好使用的密码子被定义为最优密码子(optimal codons)[3]。物种间亲缘关系相近,通常密码子偏好性也相似[4]。此外,基因表达受密码子偏好性调控,高表达的基因密码子的使用偏好性一般比较大,最优密码子的使用可以提高基因的翻译效率和准确率。转基因研究中,采用优势密码子可显著提高目的基因的表达效率[5-6]。有关密码子使用偏好性的形成,有“中性学说”和“选择学说”之争,但目前普遍认为是生物在进化过程中受到碱基突变和选择压力等多种因素共同影响[7]。

bZIP转录因子普遍存在于动、植物及微生物中,有大量针对其调控胁迫响应、植物生长发育及能量代谢的功能研究[8]。bZIP转录因子有一个由约16个氨基酸的N-x7-R/K基序构成的DNA结合区和一个由亮氨酸重复构成的拉链区[9]。植物bZIP转录因子可响应植物激素ABA信号、赤霉酸信号、金属离子信号、病原体感知和蔗糖信号等[10],大多数bZIP转录因子在胁迫条件下可与ABA应答元件ABRE结合因子ABFs或结合蛋白AREBs结合,调节下游胁迫响应基因的表达[11]。萱草Hemerocallis fulva(L.)L.为阿福花科萱草属的多年生宿根草本植物,自古被誉为中国的母亲花。萱草适应性强,是滨海绿化中常用的植物之一。因此研究萱草中bZIP家族成员的密码子特性,对揭示萱草bZIP成员的功能具有重要意义。基于此,本研究在“二代+三代转录组”测序基础上,筛选出37条基因分析萱草bZIP基因家族的密码子构成特性及密码子使用模式进行分析,预测HfbZIP基因可能使用的最优密码子,为萱草bZIP基因家族的转基因研究及功能研究提供理论基础。

1 材料与方法

1.1 数据来源

萱草bZIP基因家族核酸序列由萱草经海水胁迫后,测序获得。保留以ATG为起始密码子,以TAA、TAG和TGA为终止密码子的序列,并删除其中的重复序列,最终确定37条萱草bZIP基因用于后续密码子偏向性分析。

1.2 密码子组成分析

有 效 密 码 子 数(effective number of codon,ENC)为基因中有效密码子数量,该参数能反映密码子家族中同义密码子非均衡使用的偏好程度,是评价基因整体密码子偏好性中最具有参考价值的参数[12]。密码子适应指数(codon adaptation index,CAI)指编码该蛋白的所有密码子均为最优密码子时的适应系数,数值介于0~1之间,该值越高则适应性越强。ENC值与CAI值被广泛应用于基因表达水平的评估中[13]。GC3是G和C出现在密码子第3个位置的频率,密码子的使用偏性与密码子第3位的GC含量有很大关系。

用Emboss1.5求出HfbZIP的ENC值,GC总含量,GC1、GC2及GC3,再用CodonW软件求得HfbZIP的CAI值及密码子第3位碱基中A、T、C、G的占比值,分别用A3s、T3s、C3s、G3s表示。

1.3 中性绘图分析

利用Microsoft Excel2016对萱草bZIP基因的CGC12与CGC3进行中性绘图分析,其中CGC12为CGC1与CGC2的平均值,以CGC3为横坐标,以CGC12为纵坐标绘制散点图。通过分析密码子第1、2位碱基和第3位碱基的GC含量相关性高低,分析HfbZIP基因密码子使用偏向性的主要影响因素。

1.4 ENC-plot绘图分析

ENC-plot图即以CGC3为横坐标,以ENC值为纵坐标绘制的二维散点图。将ENC实测值的散点分布与ENC值期望曲线重合作图对比,根据其分布情况推测密码子偏向性形成的主要影响因素。ENC期望曲线为[14]:

1.5 PR2-plot绘图分析

PR2-plot图即以G3/(G3+C3)为横坐标,A3/(A3+T3)为纵坐标绘制的二维散点图,一定程度上反映DNA的组成规律。根据散点的分布及平均值判定密码子第3位碱基的组成差异对密码子使用偏向性的影响。

1.6 同义密码子使用特性分析

相对同义密码子使用度(relative synonymous codon usage, RSCU)是指某一个同义密码子的使用次数与该密码子预期出现的次数的比值,该参数反映密码子使用偏好性。其中,预测出现的次数为该密码子所编码氨基酸的所有密码子的平均使用次数。若RSCU=1,说明该密码子无使用偏好性;若RSCU>1,表明该密码子的使用频率相对较高。筛选RSCU>1的密码子,分析其第3位碱基的组成偏好。

1.7 最优密码子分析

采用高表达优越密码子分析法确定萱草bZIP家族的最优密码子。根据ENC数值大小筛选出前5条与后5条基因序列分别作为高表达组与低表达组,将2组密码子的RSCU作差得到ΔRSCU,筛选其中满足高表达组RSCU>1、低表达组RSCU<1且ΔRSCU≥0.30的密码子定义为最优密码子。

2 结果与分析

2.1 密码子组成分析

通过CodonW分析得出HfbZIP基因密码子第3位碱基的组成及CAI值,利用Emboss1.5对各HfbZIP基因GC总含量、GC1、GC2、GC3及ENC值进行统计,如表1所示。

表1 萱草bZIP基因家族密码子组成分析Tab. 1 Analysis of the codon composition of the HfbZIP gene family

HfbZIP基因GC含量存在一定差异,范围在43.59%~58.41%之间,均值为48.52%;GC1、GC2、GC3的平均含量分别为54.04%、43.32%和48.18%,大小顺序为GC1>GC3>GC2。总体来看,萱草bZIP基因家族密码子以A/T碱基为主,且第3位更偏向使用A/T结尾,这一特性与紫花苜蓿bZIP家族及独行菜DREB家族一致[15-16]。ENC及CAI的值均与基因表达水平有关,通常高表达基因的密码子偏好性更强且ENC值较小,而CAI值则同基因的表达水平呈正相关关系[12,17]。所以,可以通过比较ENC值与CAI值来确定内源基因表达量的相对高低。HfbZIP基因ENC值所在范围为37.40~61.00,平均值为51.50,因此认为HfbZIP基因家族密码子使用偏向性较弱。HfbZIP基因CAI值取值范围为0.14~0.21,均值为0.19,表明该家族基因整体表达水平不高,这也与bZIP家族基因多在胁迫条件下被诱导表达的现象一致。

通过SPSS22.0对HfbZIP基因的密码子组成、GC含量、CAI与ENC值等数据进行两两Pearson关联分析,双尾检验显著性,如表2所示。

由表2可知,密码子第3位碱基G3s与ENC及CAI值均成极显著负相关(p<0.01),A3s与ENC值呈极显著正相关(p<0.01);T3s与C3s分别与CAI值和ENC值呈显著正相关(p<0.05),且GC3与CAI值呈显著负相关(p<0.05)。表明GC含量与密码子碱基组成(特别是第3位碱基)不仅对bZIP基因密码子使用偏性有一定影响,还与基因表达情况密切相关。

表2 HfbZIP密码子各参数间相关性分析Tab. 2 Correlation coefficients of the HfbZIP codon factors

2.2 中性绘图分析

利用Microsoft Excel2016对萱草bZIP基因的GC12与GC3进行中性绘图分析,如图1所示。若GC3与GC12呈显著相关,表明密码子偏性主要受突变影响。若 GC3与GC12无相关性,且斜率接近0,密码子偏性受选择压力的影响[18]。HfbZIP密码子的GC3与GC12的取值范围在0.27~0.66和0.38~0.58之间,回归系数为0.474 1,相关系数为0.828。SPSS22.0检验知GC3与GC12呈现极显著正相关,如表3所示。由此可以推测出萱草bZIP家族密码子第1、2、3位的碱基组成所存差异较小,具有明显的相关性,在进化过程中所受到的选择压力情况大致相同。

表3 HfbZIP密码子GC12与GC3s相关性检验Tab. 3 GC12 and GC3s correlation test for the HfbZIP

图1 fbZIP中性绘图分析Fig. 1 Neutrality plot analysis in HfbZIP transcription factors

2.3 ENC-plot绘图分析

ENC-plot绘图分析被广泛应用于检测密码子碱基组成与偏向性形成关系,探讨密码子偏向性形成的影响因素。以各bZIP基因的GC3s值为横坐标,ENC值为纵坐标构建散点图,如图2所示。

若点落在ENC期望曲线上或者曲线的附近位置,就表明该基因的密码子偏向性仅受到碱基突变的影响,并未受到进化压力的影响;而如果基因相应的点落在了曲线下较远的地方,则说明该基因存在选择压力[19]。由图2可知,大部分基因ENC值并未沿期望曲线分布,即ENC实测值与期望值相差较大。在所有HfbZIP基因中,HfbZIP1、HfbZIP5、HfbZIP6、HfbZIP17与HfbZIP33这5条基因对应的点落在理论曲线上或位于附近(ENC差值<1),表明这些基因的密码子偏向性仅受碱基突变的影响;只有HfbZIP10对应点落在标准曲线上方,说明该基因倾向于随机使用密码子;而其余的31个HfbZIP基因对应的点全部落在期望曲线下方,说明绝大部分HfbZIP密码子使用偏向性均受自然选择等压力影响。

图2 HfbZIP的ENC-plot绘图分析Fig. 2 ENC-plot analysis in HfbZIP transcription factors

2.4 PR2-plot绘图分析

数值PR2反映DNA的碱基组成规律,当基因所受的突变和选择压力相同时时,其嘌呤碱基和嘧

啶碱基的含量也应相等,即A=T,G=C。对密码子第3位碱基含量作PR2-plot分析如图3所示。

根据各点的大致分布情况可推测自然选择和基因突变对密码子偏好性影响的强弱,若仅有突变压力影响,密码子第3位碱基上AT和CG碱基的使用频率应一致[20]。由图3可知,HfbZIP基因主要分布于右下方(A3/(A3+T3)<0.5,G3/(G3+C3)>0.5),表明密码子碱基上A/T与C/G并非同等频率出现,说明HfbZIP密码子偏向性除受到突变作用的影响外,还受到自然选择等其他作用力的影响。

图3 HfbZIP的PR2-plot绘图分析Fig. 3 Analysis of PR2-plot in HfbZIP transcription factors

2.5 同义密码子使用特性分析

利用CodonW软件对HfbZIP基因同义密码子进行统计分析,结果如表4所示。

表4 HfbZIP基因相对同义密码子使用度Tab. 4 The relative synonymous codon usage (RSCU) of HfbZIP genes

RSCU指的是相对同义密码子使用度,表示某个氨基酸所对应的密码子实际运用个数与理论运用个数之间的比值。若RSCU=1,则密码子实际运用的次数与理论值相同,表示该密码子被随机使用;RSCU>1表示该密码子被使用的频率较高,具有一定偏好性;反之则该密码子较少被使用[7,19]。根据HfbZIP密码子整体统计分析情况知,密码子AGG的RSCU值最高,为2.44,CGC的RSCU值最低,为0.36。除终止密码子之外,共有24个同义密码子RSCU>1,为HfbZIP基因使用偏性较强的密码子,这些密码子中除UUG、CUG等8个密码子以以C/G结尾外,其余16个密码子均以A/T(U)结尾,进一步验证HfbZIP基因密码子偏好以A/T(U)结尾。

研究表明NCG型密码子中胞嘧啶(C)易发生甲基化脱去氨基而突变成胸腺嘧啶(T),且第3位的G碱基稳定程度低,因此,NCG型密码子的RSCU值高低可预测基因由DNA甲基化导致突变的程度。其RSCU值越小,对应基因碱基突变的可能性相对较小。此外,NCG/NCC比值可以反映mRNA编码基因序列的甲基化水平,NCG/NCC的比值越低则基因甲基化水平越高,反之则越低[21]。在HfbZIP基因家族中,NCG型密码子的RSCU值相对偏低,UCG、CCG、ACG和GCG的RSCU值分别为0.95、0.77、0.41及0.67,平均值为0.70,同时NCG/NGG值为0.9,说明HfbZIP基因家族整体甲基化水平一般,由DNA甲基化引起的密码子突变可能性相对较低。

2.6 最优密码子分析

最优密码子的确定方法参考高表达优越密码子分析法居多[22],并在此方法的基础上稍作修改。根据ENC值大小对HfbZIP基因进行排序,排序前5条基因序列作为低表达组,后5条基因序列作高表达组求2组密码子的平均RSCU值,高低组RSCU平均值作差得ΔRSCU值,将以上数据整理成表,如表5所示。

表5 HfbZIP基因高、低表达组RSCUTab. 5 RSCU of HfbZIP gene high and low expression group

筛选出ΔRSCU≥0.30,且满足高表达组RSCU>1、低表达组RSCU<1的最优密码子。其中,由于AUG(仅对应甲硫氨酸Met)、UGG(仅对应色氨酸Trp)及终止密码子UAA、UAG和UGA的翻译结果唯一,且不存在密码子使用偏向性,不参与密码子偏向性分析。最终共筛选出7个HfbZIP的最优密码子,分别为AUC、UCG、ACU、GCG、CAC、GAG、GGA。

3 讨 论

本研究对所筛选出的37条萱草海水胁迫相关bZIP家族基因密码子进行偏向性分析,从碱基组成来看,HfbZIPs的GC 含量均值为48.52,且GC3值为48.18,说明HfbZIP家族偏向使用A/T(U)为末尾的密码子,虽然这一偏向性并不明显。研究表明,亲缘关系相近物种的密码子第3位碱基组成也较为相似,大部分双子叶植物的最优密码子偏向以A/T碱基结尾,而单子叶植物密码子第3位碱基多为G/C[23-24]。萱草为单子叶植物,且其bZIP家族基因最优密码子偏好以G/C结尾。也有研究证实,第3位碱基组成与基因行使功能相关,主要参与新陈代谢过程的基因末位碱基倾向于使用G/C,而功能基因(或核结构基因)更偏向选择以A/T(U)结尾的密码子[25],印证萱草bZIP基因受盐胁迫诱导表达且参与盐胁迫响应。紫花苜蓿bZIP基因家族的最优密码子偏好以A/T结尾[15],推测这一差异可能与海水胁迫后筛选出的HfbZIP基因家族的类型和功能不同有关。

密码子使用偏好性与物种进化过程相关,主要受基因突变和自然选择压力的影响,此外还与基因长短,碱基组成,甲基化水平,tRNA丰度,基因表达水平和mRNA二级结构等有关,但影响较微弱[26-27]。HfbZIP基因ENC值所在范围为37.40~61.00,平均值为51.50,CAI值取值范围为0.14~0.21,均值为0.19,表明该家族密码子使用偏向性较弱且整体的表达水平不高,这也与bZIP家族基因多在胁迫条件下被诱导表达的现象一致[14,28]。通过中性绘图分析,ENC-plot曲线分析及PR2-plot分析发现,HfbZIP基因家族密码子CGC3与CGC12之间的相关性并不显著,大部分HfbZIP基因的ENC值偏离了理论值,且其中的A/T与G/C碱基分布并不平均。

综上所述,HfbZIP家族基因密码子偏好性形成受碱基组成,突变与自然选择压力等多因素共同影响,就影响程度而言,自然选择作用的影响较大。使用高表达优越密码子分析法对HfbZIP家族基因进行最优密码子分析,共计得到7个最优密码子,可为萱草bZIP基因家族转基因研究过程中密码子优化和宿主选择提供理论支持。

猜你喜欢
萱草同义密码子
四月节令百草之萱草 谁言四月芳菲尽 萱草葵花觉昨非
密码子与反密码子的本质与拓展
until用法巩固精练
新型密码子、反密码子、氨基酸对应盘
西夏文《同义》重复字研究
10种藏药材ccmFN基因片段密码子偏好性分析
西夏文《同义》考释三则
北堂种萱草
秋叶有情,萱草有爱
不同品种大花萱草抗寒性比较