菜青虫中肠表达基因密码子使用偏好性分析

2020-06-15 09:25郭诗琪王威威周嘉裕
生物学杂志 2020年3期
关键词:中肠菜青虫同义

张 娴, 郭诗琪, 王威威, 廖 海, 周嘉裕

(西南交通大学 生命科学与工程学院, 成都 610031)

菜青虫(Pierisrapae),菜粉蝶幼虫,属鳞翅目粉蝶科,宿主植物广泛,已知有9科35种,嗜食十字花科的白菜、甘蓝、萝卜、花椰菜等蔬菜,是危害严重的农业害虫之一[1]。中肠作为昆虫消化器官的主要部位,能分泌蛋白酶、淀粉酶和脂肪酶等多种消化酶参与消化食物,同时,由于其结构功能特点还可以作为各种毒素、病原微生物和农药等的作用靶点[2]。因此,研究菜青虫中肠表达基因功能不仅有助于阐明其中肠食物消化吸收机制,还为寻找新的菜青虫危害防治提供指导意义。

基因异源表达常作为研究基因功能及其相互作用的重要手段之一,主要分为原核和真核两种表达系统,其中常用原核表达系统包括大肠杆菌、乳酸杆菌、枯草芽孢杆菌等表达系统,真核表达系统包括酵母、昆虫、植物和哺乳动物等表达系统[3]。外源蛋白的表达受多种因素影响,如表达载体和宿主选择、基因组成及结构特点、密码子偏好性、培养条件、蛋白稳定性等,其中某一因素都可能造成蛋白表达困难[4-5]。密码子偏好性是指编码同一种氨基酸的同义密码子的非均衡使用,它是蛋白表达前需考虑的重要因素之一。在宿主表达系统中,外源基因稀有密码子过多会严重影响蛋白表达水平,甚至造成翻译的提前终止和移码突变[4-5]。

因此,本文就实验室前期获得的菜青虫中肠转录组数据,提取全长编码序列,分析其密码子组成特点,探讨菜青虫的密码子使用偏好性,同时分析参与蛋白消化的丝氨酸蛋白酶基因在不同宿主的密码子使用偏好性差异,为菜青虫丝氨酸蛋白酶异源表达提供理论依据。

1 材料与方法

1.1 数据来源

研究所采用的菜青虫中肠转录组51 457条含完全阅读框序列为实验室前期所获得,该原始数据已经提交NCBI,登录号SRP108106[6]。大肠杆菌B、毕赤酵母、烟草、拟南芥、昆虫High5细胞和哺乳动物HEK293S细胞6种宿主密码子偏好性数据来自于Codon Usage Databas(http://www.kazusa.or.jp/codon/)。利用CodonW软件(http://codonw.sourceforge.net/)计算编码区(Coding sequences,CDS)的GC含量、GC3含量、ENC和RSCU等参数,利用EMBOSS 中的CUSP(http://emboss.bioinformatics.nl/cgi-bin/emboss/cusp)和CHIPS(http://emboss.bioinformatics.nl/cgi-bin/emboss/chips)计算密码子使用频率。

1.2 密码子使用偏好性分析

筛选菜青虫中肠转录组数据中含有完全CDS的序列,使用CodonW软件分析其密码子的总GC含量、GC3含量、ENC、RSCU等参数来衡量菜青虫的密码子使用偏好性[7-10]。ENC数值在20~61之间,指密码子使用偏离随机选择的程度,反映同义密码子非均衡使用的偏好程度, 其值越接近20,则偏好程度越大。RSCU是指相对于某一个特定的密码子在编码对应氨基酸的同义密码子间的相对概率,当RSCU>1时,则该密码子相对使用概率较高;当RSCU=1时,则该密码子没有使用偏好性;当RSCU<1 时, 则该密码子相对使用概率较低。

1.3 最优密码子分析

根据Jiang等[11]的方法计算菜青虫基因的最优密码子。首先,使用EMBOSS中的CUSP分析确定菜青虫基因中的高频密码子,即密码子的相对同义密码子使用频率单值超过60%或者超过同义密码子平均占有频率的1.5倍的密码子。再将基因序列按照ENC的大小排序,选取上、下限区域10%的基因编码区序列为两子数集,分别计算其RSCU后进行比较。如果密码子RSCU在两子集间差值大于0.3,且在高表达基因子集中大于1,在低表达基因子集中小于1,则认为该密码子是菜青虫基因的最优密码子[12]。

1.4 丝氨酸蛋白酶基因异源表达分析

根据丝氨酸蛋白酶结构特点[13],从菜青虫中肠转录组中筛选出22条参与消化丝氨酸蛋白酶基因,包括11个胰凝乳蛋白酶和11个胰蛋白酶,根据从Codon Usage Database查询的大肠杆菌B、毕赤酵母、烟草、拟南芥、昆虫High5细胞、哺乳动物HEK293S细胞基因的稀有密码子,计算其在6种不同宿主的稀有密码子比例。

2 结果与分析

2.1 GC含量分析

筛选菜青虫中肠转录组数据,共获得51 457条CDS序列,使用CodonW软件对其进行密码子使用偏好性分析显示,菜青虫中肠转录组中表达基因的总GC含量在12.80%~84.00%之间,平均总GC含量为40.43%;GC3含量在2.10%~100.00%之间,平均GC3含量为38.16%。以上分析表明,菜青虫基因密码子的GC3含量偏好性不高,但不同基因间GC3含量分布范围比总GC含量分布范围大。

2.2 有效密码子数分析

根据CodonW对菜青虫中肠表达基因分析,ENC数值在22.81~61.00之间,平均ENC为53.12。根据Wright[14]和Sharp[15]等的研究,他们以ENC=35作为区分偏好性强弱的标准,菜青虫中肠表达基因中有1160条的ENC小于35,占总数的2.25%,50 297条的ENC大于35,占总数的97.75%。以上分析表明,菜青虫基因密码子使用整体偏好程度不高,但在不同基因间存在明显密码子使用偏好性。

2.3 密码子使用频率分析及最优密码子分析

使用EMBOSS中的CUSP分析菜青虫中肠转录组中51 457条CDS序列密码子使用频率,确定了UGU、GAA、UUU、AAA、AUG、AAU、CAA、UGG和UAU为高频密码子,且菜青虫偏好以A/U结尾的密码子(表1)。采用高、低表达最优密码子分析的方法确定菜青虫中肠转录组序列的最优密码子为GAA、UUU、AAU、UAU,分别编码氨基酸Glu,Phe,Asn及Tyr。它们的使用频率在高、低表达基因样本组间差异较大,且随基因表达水平升高而增加。

表1 菜青虫表达基因的同义密码子相对使用频率分析及最优密码子分析

(续表1 Continued table 1)

氨基酸密码子FractionFrequency全基因组序列低表达序列高表达序列数量RSCURSCURSCUCAG0.38812.894176 9670.8601ArgAGA0.26317.327237 8001.81.333.6AGG0.16010.546144 7371.80.671.2CGA0.16210.679146 5620.61.331.2CGC0.1409.213126 4380.61.330CGG0.1228.008109 9070.61.330CGU0.1529.995137 1800.600SerAGC0.14011.696160 5290.2700.75AGU0.18315.287209 8081.6402.25UCA0.21417.818244 5491.360.751.5UCC0.13411.163153 2010.2700UCG0.12710.571145 0810.824.50UCU0.20316.907232 0461.640.751.5ThrACA0.35519.546268 26621.332ACC0.18910.441143 29411.331ACG0.1819.991137 1180.51.330ACU0.27515.135207 7160.501ValGUA0.26314.684201 525201.33GUC0.19610.936150 0880.400GUG0.22412.544172 1590.802.67GUU0.31717.715243 1290.800TrpUGG113.238181 686010TyrUAC0.34814.540199 5490.5900.57 UAU∗0.65227.255374 0611.4101.43

注:下划线表示同义密码子中使用频率单值超过60%或者超过同义密码子平均占有频率的1.5倍的数值;星号表示最优密码子

2.4 丝氨酸蛋白酶基因异源表达分析

根据从Codon Usage Database查询结果,大肠杆菌B最稀有的6个密码子为AGG、AGA、CGA、CCC、CUA和UGU;毕赤酵母最稀有的6个密码子为CGG、CGC、GCG、CCG、CGA和UGC;烟草最稀有的6个密码子为CGG、CGC、ACG、CCG、UCG及CGA;拟南芥最稀有的6个密码子为CGC、CGG、CCC、CGA、UGC和ACG;昆虫High5细胞最稀有的6个密码子为CGG、CGA、GGG、UCG、CUA及AUA;哺乳动物HEK293S细胞最稀有的6个密码子为CGU、CGA、UCG、ACG、CCG和GUA。

根据CodonW软件分析结果,菜青虫51 457条CDS序列中有21个偏好性较强的密码子,分别是GCU、UGC、GAA、UUU、GGC、CAC、AUU、AAA、CUU、UUA、CCA、CCU、CAA、AGA、AGG、AGU、UCA、UCU、ACA、GUA和UAU。经比对发现,AGA、AGG属于大肠杆菌稀有密码子,UGC属于毕赤酵母和拟南芥稀有密码子,GUA属于哺乳动物HEK293S细胞稀有密码子,如果这4个密码子在表达基因中比例偏高,可能会在相应宿主中表达困难;而在烟草和昆虫High5细胞的6个最稀有密码子中均不含有菜青虫偏好使用的密码子。因此,与烟草和昆虫High5细胞相比,大肠杆菌B、毕赤酵母、拟南芥和哺乳动物HEK293S细胞与菜青虫密码子使用偏好性略有差异,但差别不大。

根据菜青虫中肠转录组数据中的基因功能注释,筛选消化相关酶基因,再将筛选基因序列经菜青虫基因组定位及结构域验证,去除不确定基因序列,获得130个丝氨酸蛋白酶,其中胰凝乳蛋白酶11个,胰凝乳蛋白酶同源物6个;胰蛋白酶11个,胰蛋白酶同源物13个(表2)。从菜青虫基因组中下载这22个胰凝乳蛋白酶和胰蛋白酶基因的CDS序列,分别计算其与6种宿主的稀有密码子比例,结果发现:在胰凝乳蛋白酶中,稀有密码子最多的是大肠杆菌B,其次是昆虫High5细胞和哺乳动物HEK293S细胞,毕赤酵母和烟草含有稀有密码子较少;在胰蛋白酶中,稀有密码子最多的是大肠杆菌B,其次是昆虫High5细胞和哺乳动物HEK293S细胞,烟草含有稀有密码子较少(图1)。这个分析结果与转录组总体偏好性分析结果基本吻合,即整体上来说,表达最困难的宿主是大肠杆菌B,其次是昆虫High5细胞和哺乳动物HEK293S细胞,烟草、毕赤酵母和拟南芥表达难度相对较低。

图1 菜青虫中肠胰凝乳蛋白酶(A)和胰蛋白酶(B)基因在不同表达宿主中的稀有密码子比例

表2 菜青虫中肠表达的胰凝乳蛋白酶和胰蛋白酶基因

在进行基因的异源表达时,若其含有稀有密码子比例偏高,可对稀有密码子进行修饰,在保持氨基酸序列不变的前提下,将其替换为适应宿主密码子使用偏好性的同义优势密码子,来提高基因表达效率。大肠杆菌B中6个最稀有密码子分别编码Arg(AGG、AGA、CGA)、Pro(CCC)、Leu(CUA)及Ile(AUA),可将其修饰为同义的优势密码子CGC(Arg)、CCG(Pro)、CUG(Leu)和AUU(Ile)。毕赤酵母中6个最稀有密码子分别编码Arg(CGG、CGC)、Ala(GCG)、Pro(CCG)、Gly(GGG)及Thr(ACG),可将其修饰为同义的优势密码子AGA(Arg)、GCU(Ala)、CCA(Pro)、GGU(Gly)和ACU(Thr)。烟草6个最稀有密码子分别编码Arg(CGG、CGC)、Thr(ACG)、Pro(CCG)、Ser(UCG)及Ala(GCG),可将其修饰为同义的优势密码子AGA(Arg)、ACU(Thr)、CCA(Pro)、UCU(Ser)和UCU(Ala)。拟南芥中6个最稀有密码子分别编码Arg(CGC、CGG)、Pro(CCC)、Thr(ACG)、Ala(GCG)及Gly(GGC),可将其修饰为同义的优势密码子AGA(Arg)、CCU(Pro)、ACU(Thr)、GCU(Ala)和GGA(Gly)。昆虫High5细胞中6个最稀有密码子分别编码Arg(CGG、CGA)、Gly(GGG)、Ser(UCG)、Leu(CUA)及Ile(AUA),可将其修饰为同义的优势密码子AGA(Arg)、GGU(Gly)、UCU(Ser)、CUG(Leu)和AUC(Ile)。哺乳动物HEK293S细胞中6个最稀有密码子分别编码Arg(CGU、CGA)、Ser(UCG)、Thr(ACG)、Pro(CCG)和Val(GUA),可将其修饰为同义的优势密码子AGA(Arg)、AGC (Ser)、ACC (Thr)、CCC (Pro)及GUG (Val)。

3 讨论与结论

密码子使用偏好性是生物体中广泛存在的自然现象,不同物种间、同一物种的不同基因间、同一基因的不同区域间均存在密码子使用的特异性,影响其形成因素包括碱基组成和GC含量、氨基酸保守性、翻译选择、基因长度、tRNAs丰度、蛋白质编码基因位置、密码子碱基上下组成等[16-17]。密码子使用偏好性研究具有很多运用意义,如基因定位功能、提高基因的异源表达、影响蛋白质的结构与功能、翻译起始效应、预测进化规律等[16-17]。

以菜青虫中肠转录组51 457条全长CDS序列为数据,使用CodonW、CUSP和CHIPS软件对其密码子偏爱性分析发现,菜青虫中肠转录组中表达基因的总GC含量在12.80%~84.00%之间,平均总GC含量为40.43%,GC3含量在2.1%~100%之间,平均GC3含量为38.16%,表明菜青虫的GC3含量偏好性不高,但不同基因间GC3含量分布范围与总GC含量相比分布范围较大;ENC数值在22.81~61.00之间,平均ENC为53.12,其中有1160条的ENC小于35,占总数的2.25%,50 297条的ENC大于35,占总数的97.75%,说明菜青虫中肠表达基因密码子整体偏好性程度不高,但不同基因之间存在明显密码子使用偏好性;通过高频密码子分析法和相对同义密码子使用概率确定GAA、UUU、AAU及UAU密码子为菜青虫的最优密码子,分别编码为Glu、Phe、Asn和Tyr,它们的使用频率在高、低表达基因样本组间差异较大,且随基因表达水平升高而增加。

通过计算比较菜青虫转录组序列中参与蛋白消化的22条丝氨酸蛋白酶基因在6种不同宿主(大肠杆菌B、毕赤酵母、烟草、拟南芥、昆虫High5细胞和哺乳动物HEK293S细胞)中密码子使用偏好性差异,发现整体上表达最困难宿主是大肠杆菌B,其次是昆虫High5细胞和哺乳动物HEK293S细胞,烟草、毕赤酵母和拟南芥表达难度相对较低;同种酶类基因间在不同宿主中稀有密码子差异较大,且有些基因与6种宿主密码子使用均有较大差异。因此,菜青虫丝氨酸蛋白酶在进行异源表达时,除了选择高效稳定的表达宿主,还需考虑外源基因与宿主密码子使用偏好性差异,将其中的稀有密码子修饰为优势密码子。

猜你喜欢
中肠菜青虫同义
卷心菜上的菜青虫
斜纹夜蛾取食Cry1Ca蛋白后中肠组织病理变化
分析超声在肠旋转不良合并中肠扭转的诊断价值
until用法巩固精练
成人中肠旋转不良的CT分型诊断与临床分析
西夏文《同义》重复字研究
西夏文《同义》考释三则
黄星天牛中肠中内切葡聚糖酶的鉴定与酶活性测定
小勺猫的睡前故事
同义句转换专项练习50题