猪Claudin家族基因密码子使用偏好性分析

2018-12-29 06:42宗秋芳黄焱杰吴丽思吴圣龙包文斌
浙江农业学报 2018年12期
关键词:密码子同义碱基

宗秋芳,黄焱杰,吴丽思,吴圣龙,2,包文斌,2,*

(1.扬州大学 江苏省动物遗传繁育与分子设计重点实验室,江苏 扬州 225009;2.扬州大学 教育部农业与农产品安全国际合作联合实验室,江苏 扬州 225009)

生命体遗传信息由具有不同功能的蛋白所传递,蛋白质是由20种氨基酸组成的多聚体,而密码子又决定了氨基酸的种类[1]。每种氨基酸中通用遗传密码包含1~6个密码子,这些密码子称为同义密码子。同义密码子的个别优先使用称为密码子偏好性[2],密码子使用偏好性是指在翻译过程中某个密码子的使用频率高于其他同义密码子的情况,这通常是适应性演变的结果[3]。密码子使用偏好性对基因组有着重要影响[4],不同的基因在同一个基因组中表现出不同的密码子偏好性,即使在相同的基因组中,密码子使用模式也不一定相同[5]。密码子偏好性分析可用于进一步理解物种的遗传和进化路径,同时,深入理解密码子偏好性在准确预测相关基因功能方面也发挥着重要作用。通过对密码子偏好性分析可以发现基因偏好使用的最优密码子,然后对其余密码子进行改造和优化,进而提高外源基因在宿主内的表达水平[1]。因此,密码子使用偏好性分析在寻求改善宿主细胞内的外源基因表达水平方面具有重要意义[6]。

猪流行性腹泻病毒(porcine epidemic diarrhea virus,PEDV)是引起仔猪腹泻的主要病原体之一,具有高度传染性[7],可通过感染猪肠道上皮细胞诱发黏膜破坏,造成肠绒毛萎缩甚至导致仔猪死亡[8-9]。Claudin家族作为重要的紧密连接蛋白之一,是组成肠道黏膜屏障完整性、决定肠道通透性的重要蛋白分子[10]。研究表明,Claudins具有多种功能,其可通过调控细胞旁电荷的选择性来调节组织渗透性,参与维持上皮细胞极性和肠道上皮细胞的屏障功能[11-12]。此外,Jia等[13]发现Claudin家族编码蛋白质的表达量在正常和肿瘤组织中存在差异,利用其表达的高度特异性,可将其作为多种肿瘤细胞侵袭和转移的标志。Patel等[14]研究发现,利用营养手段提高Claudins基因及蛋白的表达,可调节肠上皮通透性,增强肠道屏障功能。由此表明,Claudins基因的表达水平在肠道屏障功能的维持中发挥了重要的调控作用。前人的研究多集中于从紧密连接蛋白的表达调控和营养水平来研究该基因的功能,但从密码子角度研究猪Claudins基因表达水平的报道较少。目前,紧密连接蛋白Claudin家族基因的密码子使用偏好性在很大程度上仍然是未知的。因此,本文对Claudin家族22个基因编码序列进行分析,利用CodonW和EMBOSS Explore计算核苷酸组成、相对同义密码子使用度和密码子使用偏性参数,同时分析了Claudin家族基因密码子使用偏好性的影响因素,旨在揭示这些基因之间的遗传和进化关系,了解转录和翻译进程中的调控机制,在预测外源基因的最适宿主和通过密码子优化途径改良外源基因以提高其表达水平等方面具有重要意义。

1 材料与方法

1.1 序列数据的获取

Claudin家族22个基因的全长编码区序列(coding DNA sequence,CDS)来源于NCBI (https://www.ncbi.nlm.nih.gov/)数据库,用于后续的密码子偏好性分析,详细信息见表1。

1.2 碱基组成偏好性分析

利用CodonW 1.4.2软件包和在线网站EMBOSS Explore分析比较Claudin家族22个基因序列的密码子使用特性参数,并统计以下指标:(1)各碱基在密码子第3位上的含量(A3s、C3s、G3s、T3s);(2)密码子第1、2、3位碱基G+C含量(GC1s、GC2s、GC3s);(3)密码子整体GC含量(GC)。其中GC1s、GC2s来源于在线网站EMBOSS(http://www.bioinformatics.nl/emboss-explorer/)软件包中的CUSP,其余来自CodonW。

表1 Claudin基因家族成员信息

1.3 密码子使用偏好性相关参数分析

运用CodonW 1.4.2软件包以及CHIPS、CUSP在线程序计算以下参数。

1.3.1 有效密码子

有效密码子数(effective number of codons,ENC)是评价基因密码子偏好性分析中最有参考意义的指标之一。它是指一个基因的密码子使用频率与其同义密码子平均使用频率偏差的量化值[15],其值在20到61之间,值越小表明密码子偏好性越强,基因的表达水平越高,可以反映出同义密码子非均衡使用的偏好程度[16-17]。ENC值大于55表明该基因低表达,小于30则该基因高表达[18]。

1.3.2 最优密码子频率

最优密码子频率(frequency of optimal codon,FOP)是指某个物种中表达量最高且使用频率最高的密码子,代表最优密码子占所有同义密码子数的比例[19],是衡量密码子使用偏好性的一个常用指标。其值在0.36至1之间[20-21],值为0.36表示密码子偏性最弱,值为1则表示密码子偏性最强[22]。

1.3.3 密码子偏好指数

密码子偏好指数(codon bias index,CBI)反映了一个具体基因中高表达优越密码子的组分情况。对宿主自身的基因而言,该指数和ENC值有很好的相关性,可以很好地反映外源基因在宿主中的表达情况[23]。若该值为1,表示所有密码子均偏向使用;若值为0则表示所有密码子完全随机使用[20]。

1.3.4 密码子适应指数

密码子适应指数(codon adaptation index,CAI)是反映氨基酸编码时所有同义密码子与某一特定密码子最佳使用相符合的程度,可估算高表达基因中密码子的偏好程度,评估密码子使用模式的有效选择,其值在0~1之间[20-21]。值为0表示所有密码子被平均使用,值为1则表示仅有一个最优密码子被使用,且该密码子偏性最强,表达水平也最高[24]。

1.4 相对同义密码子使用度分析

相对同义密码子使用度(relative synonymous codon usage,RSCU)指的是某个密码子与其无偏好使用时频率间的比值,可以衡量密码子的偏好程度。若RSCU值为1,表明此时密码子无偏好性,若RSCU值大于1,说明该密码子存在偏好性,使用频率较高,大于1.6表示该密码子偏好性较强,小于1则相反[25]。

1.5 统计分析

以Claudin家族的22个基因为研究对象,64个密码子中除去3个终止密码子(TAA、TAG、TGA)和2个只编码色氨酸(Trp)和蛋氨酸(Met)的密码子后,把其他59个密码子的RSCU值导入,利用HemI 1.0软件绘制出聚类热图(Heat map)。利用MEGA 7.0进行CDS序列的聚类分析,构建邻接进化树(neighbor joining,NJ)。

1.6 影响密码子使用偏好性的因素分析

1.6.1 ENC绘图

ENC绘图(ENC-plot)可以有效地探索基因密码子使用的异质性[16]。它是以GC3s为横坐标,ENC值为纵坐标,分析基因碱基组成对密码子偏好性影响的一个指标,用于分析影响密码子使用的主要因素[16]。若基因沿标准曲线分布或落在标准曲线附近,说明密码子偏好性仅受突变压力影响,若基因落在标准曲线下方较远的位置,说明密码子偏好性仅受选择作用影响[26]。

1.6.2 PR2绘图

在A3s、C3s、G3s、T3s值基础上,计算A3/(A3+T3)、G3/(G3+C3)。PR2(parity rule 2)是以G3/(G3+C3)为横坐标,A3/(A3+T3)为纵坐标进行绘图[27],从中心[坐标(0.5,0.5)]出发的矢量表示PR2偏倚的方向和程度[28]。

1.6.3 中性绘图

中性绘图(neutrality plot)可以反映自然选择压力和突变压力对密码子使用模式的影响程度[29]。分别统计密码子第1位GC含量GC1、密码子第2位GC含量GC2、密码子第3位GC含量GC3,其中GC1与GC2的平均值用GC12表示。中性绘图即GC12与GC3s之间的相关性分析,以GC3s为横坐标,GC12为纵坐标进行绘图[30]。若GC12与GC3s之间存在显著相关性,表明密码子3个碱基组成无差异,密码子偏好性受突变压力影响较强;若GC12与GC3s之间相关性不显著,则密码子3个碱基组成不同,密码子偏好性更多受到自然选择压力影响[31]。

2 结果与分析

2.1 Claudin家族22个基因的密码子碱基组成

Claudin家族22个基因同义密码子第3位4种碱基的含量由CodonW 1.4.2软件包分析所得,结果如表2所示。整体碱基组成分析显示,大多数基因密码子G+C碱基含量高于A+T碱基含量(Claudin-16除外),GC3s为44.8%~96.1%,平均值是74.6%,标准差为0.138。除了Claudin-16基因,其余21个基因的GC和GC3含量均高于0.5,说明Claudin家族基因主要偏好以G/C结尾的密码子,Claudin-3、Claudin-4、Claudin-9、Claudin-14基因的GC3含量大于0.9,说明这4个基因对G/C结尾的密码子偏好性极强。

2.2 Claudin家族密码子使用偏性相关参数分析

为了进一步分析Claudin家族各基因密码子偏好程度,利用CHIPS、CUSP在线程序分析比较了22个基因密码子偏好性相关参数指标(表3)。Claudin家族22个基因的ENC值为29.65~56.56,Claudin-1和Claudin-16基因低表达,Claudin-4和Claudin-14基因高表达,其他18个基因表达水平一般。FOP值介于0.444~0.649,表明Claudin家族22个基因密码子使用存在一定的偏好性。CBI指数用于评估外源基因在目的宿主中可能的表达情况,本研究中21个基因CBI值均大于0,其中Claudin-3的CBI值最大,为0.406,表明密码子偏性较强,Claudin-25偏性为0.073,接近于0,表明该基因密码子几乎完全随机使用。Claudin-16基因的CBI值为负数,可能是该基因最佳密码子数少于期望值。22个基因的CAI值介于0.200~0.373,分布比较集中,说明密码子选择无较大偏好性。综合分析,Claudin家族不同基因对密码子的使用不存在绝对的偏好性。

表2 Claudin家族密码子碱基组成

2.3 Claudin家族基因的相对同义密码子使用度

本研究运用CodonW 1.4.2软件包计算Claudin家族22个基因59个密码子相对密码子使用度(表4),衡量这些基因同义密码子使用偏移情况。23个密码子RSCU值大于1,为高频密码子,并且全部以G/C结尾。其中CUG、AUC、GUG、UCC、CCC、ACC、GCC、CAG、CGC、CGG、GGC这11个密码子RSCU值大于1.6,偏好性较强。CUG使用频率最高,RSCU值为3.35,密码子偏好性最强;UUA使用频率最低,RSCU值为0.12,密码子偏好性最弱。

表3 22个基因密码子偏好性相关参数

表4 Claudin家族基因相对同义密码子使用度RSCU整体值

Claudin家族基因相对密码子使用度频率用RSCU值表示,上标“*”表示RSCU值大于1.6。

The relative frequency of codon usage of theClaudinfamily gene were expressed by the RSCU value,and the superscript “*” indicated that the RSCU value was greater than 1.6.

2.4 密码子使用模式的系统关系

利用HemI 1.0和MEGA 7.0对Claudin家族22个基因基于密码子RSCU值和CDS序列分别进行了聚类。RSCU聚类结果(图1)显示,Claudin-1和Claudin-20、Claudin-25聚为一类,最后与Claudin-16聚为一类。CDS序列聚类结果(图2)显示Claudin-3和Claudin-4较为接近,Claudin-10和Claudin-11较为接近。2种分析的聚类结果不一致,基于CDS的系统进化树更接近这22个基因的真实系统分类。

2.5 密码子使用影响因素分析

每个长方形代表一个密码子的RSCU值,颜色强度代表了不同RSCU值:强度在白色(RSCU<1.6)和黑色(RSCU>1.6)之间。Each rectangle represented the RSCU value of one codon,and the color intensity represented different RSCU values: the intensity was between white (RSCU<1.6) and black (RSCU>1.6).图1 Claudin家族22个基因密码子相对使用度RSCU聚类Fig.1 Clustering of RSCU values of each codon among 22 genes of Claudin family

图2 Claudin家族22个基因密码子CDS序列聚类Fig.2 Clustering analysis of CDS sequence of 22 genes of Claudin family

2.5.1 ENC绘图分析

本研究中GC3s为0.44~0.96,ENC值为30~57,ENC值与GC3s呈极显著负相关(r=-0.906,P<0.01)(图3)。Claudin家族22个基因的ENC值都沿着标准曲线下方附近均匀分布,表明22个基因密码子偏好性主要受到突变压力影响。

各点代表Claudin家族各基因;实线表示随机密码子使用假设下GG3s含量与ENC值之间的关系。Each point represented the genes of the Claudin family; The solid line indicated the relationship between the GG3s content and the ENC value under random codon usage assumptions.图3 ENC值与GC3s关联性分析Fig.3 Correlation analysis of ENC and GC3

2.5.2 PR2-plot

为进一步分析22个基因在密码子碱基组成上的偏好性,利用PR2-plot比较ATCG在密码子中的关系。以(0.5,0.5)为中心画十字,从图4可以看出,大多数点都位于十字左侧,上下均有分布,发现22个基因密码子第3位碱基含量A比T高,C比G高,说明在密码子使用中碱基存在不均衡使用现象。

图4 A3/(A3+T3)值与G3/(G3+C3)关联性分析Fig.4 Correlation analysis of A3/(A3+T3) and G3/(G3+C3)

2.5.3 中性绘图

22个基因密码子的GC12与GC3s值中性分析结果见图5,由图可以看出,GC12和GC3s之间存在极显著相关关系(r=0.755,P<0.01),表明密码子3个碱基组成无明显差异,密码子偏好性主要受突变压力影响。

图5 GC12与GC3s关联性分析Fig.5 Correlation analysis of GC12 and GC3

3 讨论

密码子偏好性分析对于深入了解转录和翻译过程的调控机制、预测外源基因最佳宿主,以及通过改良外源基因进而提高其表达水平具有重要意义[32]。密码子使用模式在生物体之间和同一基因组的基因之间存在很大差异[33-35]。Grantham等[36-37]提出每个基因组都有一个特定的密码子使用特征,它反映了特定基因组内的进化力。紧密连接蛋白基因Claudin在肠道屏障的损伤修复中发挥着重要调控作用[38],其表达量提高有助于维护肠道黏膜屏障完整性,进而缓解仔猪腹泻,因此,提高Claudin基因的表达量对于维护肠道黏膜屏障完整性以及预防仔猪腹泻具有重要意义。

对密码子使用模式的分析可以为同义密码子偏好使用的相关机制提供基础[39]。同义密码子的差异性主要由GC3s决定,由于密码子第3位碱基受到的突变压力较小,因此GC3s在分析密码子使用模式中作为一个重要参数被广泛使用[40]。本研究统计了Claudin家族22个基因同义密码子末位碱基含量,发现大多数基因密码子G+C碱基含量高于A+T碱基含量,且GC和GC3含量均高于0.5。进一步对相对密码子使用度进行分析发现,RSCU值大于1的密码子全部以G/C结尾,RSCU值大于1表示该密码子使用频率较高,说明Claudin家族基因主要偏好使用以G/C结尾的密码子。该基因家族密码子使用模式特征与欧洲葡萄bHLH基因家族使用特征一致[41],结合影响密码子偏好性的因素进行分析,可能是基因在家族进化过程中受到GC到AT的突变压力比AT到GC的突变压力高。已有研究证明,基因密码子偏好性可能受其组成偏好性以外其他因素的影响,如突变压力和自然选择压力等[29]。在一些生物的基因组中,基因表达水平与密码子使用偏好性之间存在着显著相关关系[42-43]。在描述ENC值与基因表达的反比例关系时,Wright[16]认为低的ENC值意味着更多的密码子使用偏好性和更高的基因表达水平。本研究通过中性绘图分析发现,Claudin家族基因的密码子使用模式更多地受到突变压力影响。在这些分析基础上,得出如下结论:除了单个基因的核苷酸组成,突变压力也是影响Claudin家族基因密码子使用模式的重要因素。

在目前的分子序列聚类方法中,密码子RSCU值聚类和CDS聚类被广泛应用于同一物种的不同基因进化关系分析[41]。这2种聚类分析方法在有些物种中分析结果一致[44],有些却相差甚远[45]。为进一步揭示Claudin家族22个基因的真实系统分类,本研究基于密码子RSCU值和CDS序列分别进行了聚类。RSCU聚类结果显示Claudin-1和Claudin-20、Claudin-25聚为一类。CDS序列聚类结果显示Claudin-3和Claudin-4较为接近,Claudin-10和Claudin-11较为接近。2种分析的聚类结果不一致,因此需要进一步分析基因功能。Wolburg等[46]发现Claudin-3是决定体内血脑屏障紧密连接的主要成分,而张慧慧等[47]发现Claudin-4基因表达量下降后,血脑屏障通透性增加,其完整性遭到破坏,说明Claudin-3和Claudin-4在血脑屏障功能的维持中发挥着相同的作用。促癌因子、肝细胞生长因子和表皮生长因子能够降低Claudin-7的表达,增加Claudin-3和Claudin-4的表达[48-49],进一步说明Claudin-3和Claudin-4在基因的表达上应该归为一类。启动子甲基化可导致Claudin-7基因沉默,并且Claudin-7低表达可能在结直肠肿瘤的进展过程中发挥重要作用[11]。也有研究发现Claudin-19可能与肾脏疾病相关,在人多囊肾组织中Claudin-19表达下降和定位失调[50],提示Claudin-7和Claudin-19在肿瘤的发生发展中发挥的作用一致。综上分析发现,基于CDS的系统进化树更接近这22个基因的真实系统分类,表明同一基因家族不同基因的密码子使用特性也存在差异,功能越相近的基因其密码子使用模式也越接近。提示我们今后对基因的分类不能只局限于对碱基序列组成的分析,也要结合基因功能等进行综合分析。

同义密码子相对使用度分析作为衡量密码子偏好使用的重要参数,可用于发现使用频率较高的密码子[51]。RSCU值大小反映了密码子使用的正负偏向程度[52]。本研究通过计算Claudin家族22个基因相对密码子使用度,发现23个高频密码子中,CUG、AUC、GUG、UCC、CCC、ACC、GCC、CAG、CGC、CGG、GGC这11个密码子RSCU值大于1.6,偏好性较强。多项研究表明,对基因密码子进行优化有助于提高基因表达量,促进哺乳动物细胞中蛋白的高效表达[53]。猪Claudin家族基因作为组成细胞之间紧密连接的重要结构基因,在细胞极性的维持及肠道黏膜屏障功能的发挥中起着重要作用[11]。Claudins表达量降低会导致组织渗透屏障遭到破坏,细胞极性消失,使得猪更易感染PEDV进而引起腹泻。因此,通过对本研究发现的11个最优密码子进行优化,可以改善基因GC水平,去除低频密码子,有利于增加密码子编码氨基酸的效率和丰度,进而提高Claudin家族基因在猪体内的表达,维持肠道黏膜屏障的完整性,为增强机体对病原菌的抵抗力奠定基础,也为今后对Claudin基因进行功能验证提供了技术指导。

猜你喜欢
密码子同义碱基
镰翅羊耳蒜叶绿体基因组密码子偏好性分析
应用思维进阶构建模型 例谈培养学生创造性思维
以“题”带“面” 突破密码子与反密码子的特性
密码子与反密码子的本质与拓展
until用法巩固精练
中国科学家创建出新型糖基化酶碱基编辑器
新型密码子、反密码子、氨基酸对应盘
生命“字母表”迎来新成员
生命“字母表”迎来4名新成员
西夏文《同义》重复字研究