肌肉生长发育可变剪接研究进展

2021-03-19 05:56孙燕勇付绍印何小龙刘永斌张文广
中国农业大学学报 2021年3期
关键词:内含子外显子亚型

孙燕勇 付绍印, 何小龙 王 标 刘永斌* 张文广*

(1.内蒙古农业大学 动物科学学院,呼和浩特 010018;2.内蒙古农牧业科学院 畜牧研究所,呼和浩特 010031)

大多数真核生物基因由外显子和内含子组成,其转录的mRNA前体经过RNA剪接,其中内含子被切除,外显子连接在一起形成成熟的mRNA序列。通过选择外显子和剪接位点,一个mRNA前体通过不同的剪接方式产生不同mRNA剪接异构体的过程称为可变剪接[1]。可变剪接是高等真核生物基因调控的核心模式,可以参与动植物生长发育[2]、信号转导[3]和生物/非生物胁迫下的积极调控反应等[4-5],也可以导致肌无力[6]、肌肉增生[7]、细胞内结构缺陷、钙调控、细胞连接和内吞作用紊乱等负面影响[8]。动物需要不同类型的肌肉才能生存,如循环、运动、繁殖和消化。在肌肉发育过程中如何转录调控产生不同类型的肌肉是肌肉领域的研究热点。近几年的研究表明,可变剪接和RNA调控对肌肉发育同等重要,RNA结合蛋白功能的改变会导致肌肉发育问题[9-10]。尽管有数百个基因被预测会结合RNA在肌肉中表达,但其功能描述较少[11]。随着测序方法和分析软件的开发与更新,研究者不断突破读段、通量和准确定量等问题瓶颈,并通过RNA-seq技术发现保守的可变剪接对肌肉组织功能具有关键影响[12-13]。本文分别就肌肉可变剪接的产生及常见模式,引起蛋白多样性的分子机制,可变剪接在人、小鼠和常见家畜肌肉上的研究进展及高通量测序数据量化可变剪接方面进行了概述,为进一步研究动物肌肉生长发育过程中可变剪接的分子调控机制奠定理论基础。

1 肌肉可变剪切的产生和常见模式

肌肉是动物个体最具活力的组织之一,它有一种天生的能力来调节对环境和生理变化的适应,包括运动、饮食和疾病等,其适应性是通过调节基因表达的转录过程实现的,而且直接与RNA转录相关的机制也可能调节肌肉生理,所以转录后机制在肌肉生物学领域具有重要的研究意义[14-15]。转录后过程包括4个主要步骤:加帽、可变剪接、切割和mRNA前体的聚腺苷酸化,最终产生成熟的mRNA。可变剪接是转录后的调控机制之一,通过这种机制,单个基因可以产生1个以上的mRNA转录本,从而表达多种具有不同特征的蛋白质亚型[18]。肌肉是表现出最高水平的组织特异性和保守可变剪接的组织之一,在哺乳动物和鸡中该特征尤为显著[1]。虽然人、牛、绵羊、猪与鸡的基因组分别只有大约20 000、19 981、20 908、21 594和 15 495 个蛋白质编码基因[16-17],但每个基因产生的独特的mRNA亚型可能是基因个数的10倍以上[18]。

可变剪接的基本模式包括外显子跳跃、可变5’和3’剪接位点、互斥外显子、内含子保留以及可变的起始外显子、与可变的终止外显子[19](图1(a))。mRNA前体(Heterogeneous nuclear RNA,pre-mRNA)中最重要的剪接信号是5’剪接位点(5’SS)、3’剪接位点(3’SS)、分支位点(A)和多嘧啶束(Y(n))。5’和3’剪接位点分别以高度保守的GU和AG二核苷酸作为内含子的第1个和最后2个核苷酸。U1小核糖核蛋白(Small nucleo ribose nucleoprotein,snRNP)复合体识别5’剪接位点,U2 snRNP复合体识别分支位点。U2AF蛋白识别3’剪接位点和聚嘧啶束。外显子剪接增强子(ESEs)、外显子剪接沉默子(ESSs)、内含子剪接增强子(ISEs)和内含子剪接沉默子(ISSs)是pre-mRNA顺势调控基序,它们募集各种RNA结合蛋白(如SR和核内不均一核糖蛋白,Heterogeneous nuclear ribonucleoprotein,hnRNP)来调控可变剪接[19](图1(c))。

除了在剪接过程中涉及到外显子或剪接位点的二进制选择的基本模式外,转录组中还存在许多复杂的可变剪接模式[19](图1(b))。在极端情况下,多个可变剪接区域的组合选择可以从一个基因产生成千上万的mRNA亚型[19]。由此产生的mRNA亚型可在细胞内具有不同的调控性质,如定位、稳定性和翻译效率,并可翻译成结构和功能不同的稳定蛋白亚型。因此,可变剪接为扩大真核生物的调控和功能库提供了一个强大机制。

深蓝色的方框表示组成剪接的外显子。红色、淡蓝色和绿色的方框代表可变剪接的外显子。

2 可变剪接增加蛋白多样性

mRNA前体的可变剪接是一种基因调控的共转录和转录后机制,通过可变区域的包含或排除,一个基因可以编码多种蛋白亚型,这通常被认为是增加蛋白质多样性的主要机制[21]。可变剪接产生蛋白质组多样性,包括具有组织特异性或发育阶段特异性功能的亚型[22],这一过程受到高度调控,涉及反式剪接因子和顺式调控基序,因此易受遗传和体细胞突变的影响[23]。可变剪接可以改变编码蛋白的性质,包括其包含的结构域、结合性质、稳定性、细胞内定位和酶活性[24-25]。一般来说,可变剪接水平较高的基因往往具有较高数量的蛋白质相互作用(Protein-protein interactions,PPI)[26],那些发生可变剪接的组织特异性基因也往往在PPI网络中处于更中心的位置[27]。可变剪接区域优先编码在蛋白质表面发现的残基[28],这些残基通常包含蛋白质及其结合伴侣的相互作用位点[29]。事实上,通过对数百对蛋白质亚型配对的蛋白质相互作用的结果进行比较,大多数的相互作用不足一半。主异构体和备选异构体属于不同的功能模块,表明同一基因产生的一组剪接异构体在功能上存在差异[32]。总之,这些结果与可变剪接在蛋白质组多样化和蛋白质相互作用调节中的作用是一致的。

尽管发生可变剪接的蛋白产物具有不同功能作用的例子有很多,但是,并非所有的可变剪接都必然导致功能蛋白的产生,也会存在以下几种可能:首先,转录可能是非编码的,不能翻译成蛋白质;第二,RNA稳定性会受到影响;第三,mRNA定位改变可能会阻碍转录本和/或蛋白质的正确功能[30-31]。最近的一项研究发现,在人类细胞中,有3/4的具有外显子跳跃和转录本亚型的核糖体参与并可能被翻译[32]。但是来自8个人类蛋白质组实验分析(包括100多个组织,细胞株等)结果检测到的多肽中只有0.4% 来自于可变剪接的转录本[33]。这说明在某些情况下,可变剪接的主要功能可能不需要在蛋白质水平上,例如,一些带有“终止子”的转录本永远不会产生蛋白质。相反,可能通过将一部分pre-mRNA转入无意义介导的衰变(NMD)途径来下调表达,这种机制被称为调节非再生性剪接和翻译。

3 肌肉发育可变剪切研究

3.1 人与小鼠肌肉发育可变剪接调控

人和小鼠肌肉发育和功能广泛受到可变剪接的调控[1]。大规模测序试验获得已知的和新的可变剪接来解释老鼠未分化的胚胎干细胞和拟胚体转录的RNA序列复杂性[34]。研究表明,在小鼠大脑、肝脏和骨骼肌组织大约3 500个不同的基因表达一个或多个可变剪接[35]。在人体主要组织中约有100 000个这类可变剪接,在20%的多外显子基因中发现了新的剪接连接,其中许多是肌肉特异性的[36]。在心脏发育过程中,CUG-BP类Elav家族成员1(CELF1)、肌样蛋白1(MBNL1)、RNA 结合蛋白-fox-1 homolog 1(RBFOX1)、RBFOX2、RNA结合蛋白24(RBM24)等多种调控可变剪接的RNA结合蛋白(RNA-binding proteins,RBPs)表达水平发生显著变化[37]。这些RBPs是肌肉RNA转录过程的关键调控因子,对mRNA表达、定位或功能的错误调控都会导致mRNA稳定性、可变剪接和相关的聚腺苷酸化缺陷,并且RBPs的剪接靶点已通过动物模型结合全基因组方法得到鉴定[38-39]。MBNL和CELF家族是调节心脏和骨骼肌发育过程中发生可变剪接的代表[40-41],它们可以调节可变剪接的协同和拮抗作用,最常见的是对可变剪接的拮抗调节[42]。肌肉发育是一个高度动态的组织重塑过程,研究人员利用RNA-seq对小鼠腓肠肌全基因组的基因表达和可变剪接进行了系统分析,时间点为胚胎期18.5 d到成年期的5个时间点。结果显示,出生后的前2周是基因差异表达和可变剪接的动态期,在发生可变剪接的基因中,钙调节功能显著增强[43]。可变剪接的发生与胎儿发育并不相邻,而是局限于出生后的前两周[43]。差异表达基因和可变剪接的基因重叠极小,提示转录和转录后调控的独立机制。差异表达的基因主要参与线粒体功能,而发生可变剪接的基因参与钙调控、细胞连接和内吞作用[43]。Ras-ERK通路调节多种细胞和生理反应,包括细胞增殖、分化、动物发育过程中的形态发生和成年人体内的稳态。DA-Raf1是A-Raf基因的剪接亚型,含有Ras结合域,但缺乏激酶结合域,对Ras-ERK通路呈显性拮抗作用。DA-Raf1通过干扰Ras-ERK通路,诱导细胞凋亡和骨骼肌细胞分化等作用[44]。另外,小鼠与人类有50% 以上的可变剪接在剪接方向和时间上是保守的,说明肌肉发育过程中的可变剪接在哺乳动物中具有一定的保守性,这将为哺乳动物的可变剪接研究提供参考。

3.2 牛肌肉发育可变剪接调控

在人类和小鼠研究的基础上,牛肌肉的可变剪接调控也取得了一些进展。He等[45]使用SOAPsplice软件对胚胎135 d和成年肉牛的肌肉组织的可变剪接进行比较分析,发现两者大约 66.6% 的基因经历了可变剪接,可变3’端剪接是最主要的类型,约占所有剪接类型的40.8%。Sun等[46]通过对胚胎、初生和成年的秦川牛肌肉组织的转录组进行分析,表明大部分基因表达在牛骨骼肌细胞分化和发育过程中发生了显著的变化。各种剪接类型在胚胎期发生个数均最多,其中内含子保留类型数目最多,其次为跳跃外显子。初生和成年期外显子跳跃类型占比最大。这与He等[46]研究报道的内含子保留较少的可变剪接机制不尽相同。

但是,解析肌肉发育复杂性仅仅比较分析剪接类型与数量是远远不够的,因此,基因编辑靶向剪接体研究也随后在家畜中逐步开展。已知MBNL是miR-30-5p家族的候选靶点,是一种可变剪接调控因子。通过靶向剪接体试验发现miR-30-5p家族成员可以灵活调控MBNL的mRNA亚型表达[47],进而影响到MBNL1下游的肌肉相关基因INSR和Trim55的可变剪接,参与到INSR或Trim55所在的肌肉信号通路中[48]。

3.3 绵羊肌肉发育可变剪接调控

绵羊是一种重要的家畜,也是许多人类医学研究的模型。绵羊肌肉中基因表达的研究将大大提高对肌肉生长的认识。虽然RNA-seq近几年被广泛应用于各种生物,但在绵羊中的研究仍然比较少,可变剪接的相关研究更是缺乏。绵羊BEGAIN基因位于印迹DLK1基因的近端138 kb和美臀突变基因CLPG的203 kb位置处[49],在绵羊骨骼肌发育过程中普遍表达[49]。有研究表明,BEGAIN基因的4个主要启动子和可变剪接的组合启动子转录本[49]在羊脑、肾脏、肝脏和骨骼肌中存在,这4种基因转录本以组织和启动子特异性的方式表现出父系或双等位基因表达[49]。这说明与对DLK1-GTL2区域的核心基因簇的影响相反,CLPG突变不会改变BEGAIN的转录水平[49]。因此,虽然BEGAIN基因代表了另一个在绵羊DLK1-GTL2印迹域中的父系表达基因,但它的表达不受CLPG突变的远程调控元件的控制[49]。Zhang等对2种不同生长速度的绵羊(小尾寒羊和杜泊羊)肱二头肌构建了2个cDNA文库,发现2组有多达5 116个和5 265个基因分别经历了13 827个和15 684个可变剪接[50],共计超过1 / 4(分别为26.02%和25.28%)的基因发生了共29 511个可变剪接事件。此外,A3SS是绵羊中最常见的可变剪接类型,可变剪接均发生在1、2和3号染色体上,其发生频率与绵羊染色体长度一致(1、2和3号染色体最长),这表明不同品种之间一些转录和翻译调控机制可能是保守的[50]。

3.4 猪肌肉发育可变剪接调控

迄今,基于转录组学对猪不同生长速度和肥胖特征的差异基因表达的相关研究较多,有助于揭示影响这些特征表型变异的遗传因素,而在mRNA亚型水平上的相关研究甚少[51-52]。猪肌肉发育中可变3’剪接是最常见的剪接类型[53],这与人类(外显子跳跃为普遍剪接类型)和水稻(内含子保留为普遍剪接类型)等有所不同[54-55]。猪肌肉可变剪接具有一定复杂性,有些基因同时发生了4种剪接类型(如CSN1S1)。肌动蛋白相关的LIM蛋白(ALP)与-肌动蛋白在z盘上共定位,对整合细胞骨架结构和转录调控起关键作用。ALP发生可变剪接后得到的mRNA亚型在猪骨骼肌发育的产前、产后及两品种间均有不同的表达谱,并且所有亚型均在分化的猪卫星细胞中被诱导,这些结果为ALP剪接水平在调控猪骨骼肌发育中的作用提供了新的见解,提示其在肌源性分化中的作用[56]。另外,猪CAPZB基因存在2种可变剪接亚型CAPZB1和CAPZB2[57]。CAPZB1在20个组织中均有表达,CAPZB2主要表达于骨骼肌和心脏,这2种亚型在骨骼肌发育和品种间的表达谱也存在差异,被列入骨骼肌发育的候选基因。Cardoso等[58]的研究证明,猪肌肉中表达的基因约有10.9%发生了可变剪接,平均每个基因有2.9个转录本,外显子跳跃是最常见的剪接类型,其次是5’剪接类型和3’剪接类型,通过比较不同背膘厚度猪肌肉的差异表达mRNA亚型,发现ITGA5、LITAF、TIMP1和ANXA2 mRNA亚型的高表达可能是引起背膘脂肪含量升高的原因。今后,对以上mRNA亚型调控功能的更广泛深入了解将有助于阐明转录多样性对猪肌肉表型的影响机理。

3.5 鸡肌肉发育可变剪接调控

鸡肌肉发育可变剪接的研究较少。近几年,随着RNA-seq分析的不断深入,有研究将侧重点转向可变剪接,Li等[59]从白羽肉鸡(42 d)和鲁宁鸡(70、120和150 d)采集肌肉组织测序,共注释到16 958个基因,其中共有6 249个基因(36.85%)发生了可变剪接。这些可变剪接包括7种类型:跳跃外显子、保留内含子、可变5’剪接位点、可变3’剪接位点、可变5’UTR剪接位点、可变3’UTR剪接位点和其它类型。在这4 个样本(42、70、120和150 d)中可变3’剪接位点数量最多,分别为4 221、4 401、4 409 和3 294,保留内含子数量最少,6个参与肌肉发育和免疫应答的DEGs(SRPK3、ENSGALG00000022884、CCL4、GATM、SESN1和PTTG1IP)在4种肌肉组织中均发生可变剪接[57]。

Delta-like 1 homologue(DLK1)是调控哺乳动物脂肪和肌肉发育的印迹基因。DLK1不同的剪接亚型在哺乳动物的肌生成调控中具有不同的功能,而火鸡和鹌鹑中没有DLK1转录本可变剪接的存在[60]。肌生成抑制素(MSTN)通过抑制成肌细胞的增殖和分化,负调控肌肉的生长发育。最近,在家禽肌肉中发现了5种MSTN的可变剪接亚型(MSTN-A到MSTN-E)。MSTN-A在肌肉中高表达,其编码的全长肽具有抗肌生成活性。另一种亚型MSTN-B也在肌肉中高度表达,并编码一种截短肽,该肽在体外具有促肌原性能力,包括促进禽类肌肉前体细胞的增殖和分化[61]。

4 可变剪切的分析方法

4.1 可变剪切分析方法进展

研究可变剪接对肌肉类型特异性发育和功能的影响需要具备识别可变剪接亚型的能力,定量分析可变剪接的传统分子生物学方法是逆转录聚合酶链反应(RT-PCR)[62]。20世纪90年代末,发展成为使用表达序列标签(ESTs)测序(即全长mRNA的片段),在真核生物中发现了广泛的可变剪接[63]。至21世纪前10年,芯片数据的广泛累积,实现了跨组织、细胞状态和物种的全局可变剪接调控过程研究。然而这些技术通量低(qRT-PCR和ESTs)、噪音高(ESTs和芯片),多局限于已知的可变剪接(RT-PCR和芯片)[64]。随后开发的二代RNA测序(RNA-seq),可以大规模并行运算,在高通量测序仪一次运行中产生数十亿的短序列读段,这不仅极大的改进了芯片数据分析可变剪接的一些不足,还可以发现新基因和mRNA亚型、定量基因表达和定量分析可变剪接[65-66]。如今,测序技术又有了新突破,以太平洋生物科学(PacBio)和牛津纳米孔技术(Nanopore)为代表的第三代测序方法(Iso-Seq),成功识别了许多具有良好特征的转录本和可变剪接[67-68]。第三代测序具有读段长、通量低、错误率高的特点,对于转录本和可变剪接的分析仍存在不足。研究人员将第三代测序仪的长而易出错的读段与第二代测序仪的短而准确的读段特点相结合,应运而生了一种混合方法,用于纠正测序错误和从长读段中获得亚型定量[66]。从测序发展的角度看,第三代长读段RNA-seq数据与EST的测序数据相似,针对EST数据开发的计算方法在PacBio和Nanopore RNA-seq数据同样适用[69]。

4.2 RNA-Seq数据量化可变剪接

通过使用RNA-seq数据来直接量化单个可变剪接是目前比较普遍的方法。在这种方法中,从RNA-seq数据中发现可变剪接,计算与特定外显子或剪接连接对齐的读长,并使用适当的统计方法来量化可变剪接和检测不同生物条件之间的差异可变剪接。在基于可变剪接的分析中,一个广泛使用的度量标准是剪接百分比(PSI或Ψ),它表示包含特定外显子或剪接位点的基因mRNA转录的百分比[70]。对于给定的可变剪接,PSI值可以通过特定外显子或剪接连接的RNA-seq读长计数来计算[71]。许多流行的用于可变剪接的RNA-seq分析的计算工具都是基于可变剪接开发的(MISO[71]、SpliceTrap[72]、rMATS[71]和MAJIQ[73]等)。这些工具对可变剪接(基本的和复杂的)的读长计数过程以及用于量化和确定差异可变剪接的统计方法的定义有所不同。尽管如此,对于同一组可变剪接,这些工具倾向于产生高度一致的PSI值[74]。鉴于PSI值代表了一个从读长计数中估计出来的比例,PSI估计值的置信区间取决于感兴趣可变剪接在整个RNA-seq的序列覆盖率,因此,更高的覆盖率会导致更可靠的PSI估计值,这是可变剪接在RNA-seq分析中的一个关键问题。研究表明,基于RNA-seq读长计数建模得到PSI值的置信区间可以改进下游统计推断[72]。此外,SUPPA是一款通过转录本定量来获取可变剪接定量的软件,它使用一种混合算法利用完整的转录本定量来进行基于可变剪接的分析,这种方法运用伪对齐算法不仅计算速度快,而且可以扩展到大型数据集。但是,它仅限于已有的文本注释,不能发现或量化新的可变剪接,这个问题是分析可变剪接遗传变异的一个阻碍,因为基因组变异可以在单个转录组中产生新的可变剪接。

5 展 望

几十年来,肌肉从受精卵发育为成体的分子驱动过程一直是备受关注的研究课题,可变剪接在调节肌肉发育和功能方面具有巨大潜力,它通过增加蛋白质多样性或蛋白质网络的机制,影响钙调控或肌纤维膜等功能广泛参与到肌肉的发育转录后调控过程中。目前,人和小鼠肌肉发育的可变剪接研究较为广泛,已经鉴定了多种调控可变剪接发生的RNA结合蛋白。仍存在很多问题有待解决,第一,肌肉中可变剪接和聚腺苷酸化的网络功能;第二,RBPs在肌肉发育中的调节机制还没有完全确定;第三,表观遗传学对细胞过程的影响,可以结合肌肉细胞体外培养试验;第四,大量的剪接异构体与可变剪接的功能效应有待于研究。由于可变剪接在哺乳动物之间具有一定的保守性,未来家畜肌肉发育的研究将建立在人和小鼠的研究基础上,并结合染色质状态、表观遗传标记和三维基因组等,进一步研究家畜肌肉发育过程中可变剪接的调控和协调;揭示单个剪接亚型的生理功能;构建控制发育和组织稳态的剪接网络,为培育高效生长发育的动物品种提供理论基础。

猜你喜欢
内含子外显子亚型
外显子跳跃模式中组蛋白修饰的组合模式分析
线粒体核糖体蛋白基因中内含子序列间匹配特性分析
外显子组测序助力产前诊断胎儿骨骼发育不良
不同方向内含子对重组CHO细胞中神经生长因子表达的影响
更 正
外显子组测序助力产前诊断胎儿骨骼发育不良
内含子的特异性识别与选择性剪切*
Ikaros的3种亚型对人卵巢癌SKOV3细胞增殖的影响
ABO亚型Bel06的分子生物学鉴定
人类组成型和可变外显子的密码子偏性及聚类分析