转录组-代谢组分析方法及其在药物作用机理研究中的应用

2018-04-02 14:30金玉李赫健冯成强
生物技术通报 2018年12期
关键词:代谢物分析方法组学

金玉 李赫健 冯成强

(1. 北京师范大学中药资源保护与利用北京市重点实验室,北京 1000875;2. 北京师范大学地理科学学部,北京 100875)

药物作用机理的研究在新药开发、提高药效和评价药物毒性、指导药物联合治疗等方面具有重要作用。目前,研究药物作用机理大多靠传统药理学方法[1],然而这些传统的策略在研究中具有局限性,主要集中在表观遗传学和形态学观察或仅仅是分子靶点的鉴定等[2]。随着高通量测序技术的发展,使用组学(Omics)这门新兴技术采集生物学数据信息的方法越来越普遍。早期的研究倾向于仅使用一种组学来分析研究[3-4],然而,越来越多的对于药物作用机理的研究正在利用多组学联合的技术手段开展[5-6]。多组学联合分析的主要优势是通过这些整合的数据可以更好地分析生物体内发生的细微变化,为预测生物体作用功能靶点提供更可靠的数据支撑。虽然在不同的文献中介绍过不同组学的研究方法,但由于价格低廉等优势,在药物作用机理研究中最常用的研究方法是转录组-代谢组联合分析,这种方法和策略在研究药物作用机理方面发挥着重要作用。近年来,许多研究人员利用转录组学、代谢组学对药物作用机理进行了大量的研究并且取得了一定的成果[6]。现今,转录组-代谢组联合分析已广泛用于探索药物作用机制的研究,本文主要从转录组学概念、代谢组学概念、转录组-代谢组联合分析概念及联合分析的方法出发,阐述它们在药物作用机理研究中的应用,目的是探讨转录组学和代谢组学及其二者联合应用在药物作用机制研究中的策略,从而不仅为今后药物作用的分子机理研究提供借鉴与参考,并且希望能够基于现有研究基础发掘新的研究思路与方法。

1 转录组学

在完成人类基因组测序以及许多其他生物基因组测序后[7],生命科学进入了后基因组时代,功能基因组学成为了目前研究的主流方法。转录组学(Transcriptomics)是功能基因组学的重要组成部分[8]。转录组学的研究对象是一种细胞或组织的基因组所转录出来的RNA的总和,其研究目的是确定基因的转录结构并解释基因功能,从而揭示药物在机体中作用的相关机制[9]。

转录组学的研究方法包括基因芯片技术(Microarray)和高通量RNA测序技术(RNA Sequencing,RNA-Seq)[10]等。最初,研究人员通过杂交测序方法将数千个短DNA片段构建成基因芯片,并通过与芯片上的特定位点探针靶向杂交来检测这些基因的表达。目前为止,大量的基因芯片研究在人们对生物变化过程的理解方面提供了实质性的帮助[11],然而,由于其杂交灵敏度有限,很难检测出低丰度的mRNA。另一种转录谱分析方法是基于高通量测序仪的发展而出现的RNA-Seq,该方法引入了测序和转录本数字化的概念,通过随机剪切的短cDNA序列测序,计算mRNA的表达量。相比于前者,RNASeq对功能基因组研究非常有效,能够检测出组织或细胞样品内全部基因表达谱。

这些转录组学方法为解释生物学功能中基因表达差异及寻找药物在机体中的作用靶点都提供了有力的技术支持。Ujihira等[12]通过基因芯片鉴定了11种与他莫昔芬反应有关的小RNA,其中之一是肿瘤抑制miRNA,miR-574-3p。Kim等[13]通过RNASeq研究了嗜油不动杆菌DR1的诺氟沙星耐药性,分析了用诺氟沙星处理的DR1和DR1之间RNA的差异。以上两项研究分别用了上述两种方法,随着科技发展,RNA-Seq由于提高了检测的特异性和准确性越来越受到学者们的青睐。转录组测序虽然可以得到大量差异表达基因和调控代谢通路,但由于基因与表型之间很难直接关联,导致关键的药物作用信号通路难以确定,因此往往很难达到预期的研究目的。

2 代谢组学

代谢组学(Metabolomics)是指定性定量测定活体系统内经病理生理刺激或遗传修饰引起的动态变化的代谢物质[1],近来广泛应用于药物毒理机制,疾病发生过程和药物开发等研究领域,特别是在新药开发领域具有深远影响[14-20]。当药物作用时,随着时间的改变,机体内往往都伴随着代谢物的微小变化,采用代谢组学现代分析技术,不仅可以测定这些微小变化的代谢物,并且通过对比代谢物可以发现特异性生物标记物。传统方法如利用生化指标对药物作用方式进行评价时,往往只局限于对特定物质进行检测而忽略了药物对机体的整体影响,难以准确反映生物系统对药物作用引起的全面变化,如今利用代谢组学评价药物对机体的作用能够更加准确全面的反映生物系统整体的动态变化,通过对变化的代谢物进行测定,可为进一步阐明药物作用的分子机制提供强大的数据支撑。

代谢组学分析方法包括核磁共振(Nuclear magnetic resonance,NMR)[21]、 液 相 色 谱 质 谱 联用(Liquid chromatograph mass spectrometer,LCMS)[22]、气相色谱质谱联用(Gas chromatography mass spectrometer,GC-MS)[23]等。不同技术其检测偏向性不同,但不同平台之间具有互补性。一般来说NMR的灵敏度最低,能检测并定性的物质少于100个,其优势是简单、无损伤、可定量[24]等。质谱的灵敏度大概是NMR的千倍,GC-MS可检测的物质数量一般为1 000个以上,但由于对样品要求比较严格,其应用受到了一定限制[25]。虽然LC-MS检测物质的数量要比GC-MS少一些,但由于其避免了对样品进行复杂的前处理等步骤,并且由于能够方便的对样本进行定性定量分析而深受大众青睐[26]。近年来越来越多学者利用代谢组学手段研究外源物质在生物体内的作用机制。王喜军等[27]通过代谢组学研究方法辅以生物化学鉴定方法阐明了茵陈蒿汤对酒精性肝病大鼠具有良好的保肝作用。查伟斌等[28]基于GC-MS检测技术的代谢组学方法,研究银杏提取物对高脂诱导动脉粥样硬化引起的代谢紊乱的作用,阐明银杏提取物抗动脉粥样硬化效果与其对脂质代谢、胆酸合成及氨基酸代谢的调控密切相关。

然而,单一代谢组学方法并不足以阐述生物系统内发生的各种变化,其方法在很大程度上取决于1H-NMR、MS[29]和色谱的发展,另外,许多学者倾向专注于某一循环系统代谢物的分析,但循环系统内的物质变化是许多生物系统共同反应的综合结果,因此通过单一代谢组学研究并不能获得对组织内产生的具体反应机制的全面阐述。另外,由于目前对代谢物种类分析的局限性,只依靠代谢组学研究结果难以对药物作用机理进行全面的生物学解释[30]。

3 转录组-代谢组联合分析方法

随着高通量测序技术的完善和各种组学方法的成熟,不同组学的组合使用越来越受欢迎,然而研究过程中对于产生的大量数据进行分析是目前面临的最大挑战。通过整合不同组学数据来分析比较不同数据间的关系以及阐述综合数据所说明的生物学问题才是最终研究目的,因此分析这些复杂数据的统计学工具必不可少。转录组-代谢组联合分析(Transcriptome-metabolism conjoint analysis) 中, 有多种数据整合分析的方法,包括基于相关性分析将数据结合的方法、基于级联的集成方法、基于多变量整合的分析方法和基于代谢通路数据库来整合分析数据的方法,学者们可以根据不同的生物学研究目的确定不同的联合分析手段[31]。

3.1 基于相关性分析将数据结合的方法

通过联合分析手段探索多元数据的简单方法之一是寻找数据集之间的相关性。这里有两种常用的方法,其中最常见的是Pearson’s和Spearman’s相关分析方法[32]。虽然科学家们期望通过此种方法找到代谢物与基因之间的关联,然而仅使用这种单一方法往往不足以达到预期目的。虽然人们普遍认为遵循中心法则的信息流动应该符合层层递进的规律,然而Kuile和Westerhoff[33]发现mRNA与其相应的代谢物之间并不符合预期的数量关系,并且Moxley等[34]也报道了酵母中转录物和代谢物之间的相关性非常低。

除了使用Pearson′s或Spearman′s等标准相关系数外,还有Goodman和Kruskal伽马检验[35],这种分析方法仅考虑每种代谢物或基因的上调或下调,如用线性模型仅通过转录组的变化预测相应代谢物变化趋势[36]。事实上,直接利用相关系数来联合分析两组学数据存在一些潜在问题,分析过程中如果那些已知在路径上密切相关的元素不表现出相关性,则我们需要通过其他的分析方法来给予辅助。

3.2 基于级联的集成方法

基于数据级联的集成方法是最早出现,且最简单的方法之一,它可将多个组学数据集集合成单一模型。通过将每种组学技术产生的数据表汇总成单个数据表,应用自组织映射[37-38]、K均值聚类分析[39]或随机森林[40]等算法进行分析。Daub等[41]介绍了一种在线软件MetaGeneAlyse,它可以通过运行上述标准方法来针对转录组-代谢组进行数据分析。代谢组和转录组数据集分别是从不同的分析技术中获得的,其两组数据集大小不一,这意味着数据集具有不同的标注模式与结构、不同的期望值、不同的底层噪声分布和不同的方差,因此,从简单连接的数据集中获得代谢组和转录组数据之间的联系并非易事。当对连接的数据集进行聚类时,来自不同数据集的元素将倾向于与其自身数据集中的其他元素聚类,从而可能会掩盖组间关联。

尽管需要进行更多的研究来弥补这些局限性,但使用诸如iCluster[42]这样的工具可将这些问题最小化,这些潜在的分布差异影响可以通过去除信号低甚至没有信号的元素将噪音的影响最小化。虽然通过预处理完全消除这些影响是不可能的,但是可以结合本文中的其他方法对代谢组-转录组数据进行进一步分析,其结果的可信度会更高。

3.3 基于多变量的整合方法

除了前面描述的相对简单的分析方法外,还可以利用多变量建模的方法进行转录组-代谢组联合分析。这种方法在用于生物学分析之前常用于化学计量学领域。两种最常见的多变量分析方法是主成分分析(Principal component analysis,PCA)和偏最小二乘回归(Partial least squares regression,PLSR)[43-44]。通过这种分析,研究人员可以利用一个数据集来预测另一个数据集并且找到两个数据集之间的“协方差”关联。与上述分析方法不同的是,这种方法可以将代谢组学和转录组学数据集保持在模型内的独立模块中。

最早利用PLS模型整合代谢组数据和转录组数据的是Griffin团队[45]。他们将两组乳清酸处理大鼠的转录组与代谢组结合,用代谢组NMR光谱作为模型的x值,转录组数据作为待预测的y值,随后他们通过模型找出了各种与基因相关的代谢物。这种建模方法解释了乳清酸对于大鼠脂肪肝作用的相关代谢物,同时结果也表明1H-NMR与基因表达谱数据相结合的方法有利于挖掘复杂生物系统中发生的微小反应。这种模型同样也被Jauhiainen等[46]以类似的方式预测转录谱中的相关代谢谱。在Griffin的方法中必须定义一种数据集作为x,事实上这两个数据集在模型中并非等价。因此,这种情况下,我们可以选择更为泛化的评价方法,称为O2PLS[47]。正交偏最小二乘法方法(Orthogonal partial least squares,OPLS)是一种新发展起来的将正交信号校正方法与PLSR进行结合对PLSR进行修正的分析方法,而O2PLS是一种泛化的OPLS,可在两个数据矩阵中进行双向建模和预测。在这个算法中,x和y是等价的,所以无论分配哪个数据集作为x或y无关紧要。Eveillard等[48]用这种方法检测了内二(2-乙基己基)邻苯二甲酸酯暴露后的人体肝脏转录物和血浆代谢物。

近年来,Boccard等[49]引入了正交偏最小二乘判别分析(Orthogonal partial least squares discriminant analysis,OPLS-DA)方法并且对比其他方法检测了NCI60细胞系的代谢组、转录组和蛋白质组,结果在所有3个组学案例中发现不同组学数据集对于得到一致的生物学解释都是有用的。OPLS-DA的主要优势在于它可以处理两个以上的数据集,并可以同时对这些模块进行统一处理,然而,该模型并未提供关于数据集之间相关性特征的信息,而是将所有数据与变量进行了对比。

多变量建模用于数据集成的选择有很多种,然而,解释模型非常复杂,目前缺乏对不同方法的全面比较,科学家需要进一步评估不同方法对结果的偏向性,所以未来可以继续优化不同分析工具,使得其不仅可以运行上述所有方法,并且分析后的结果更容易解释。如果这些目标得到满足,那么诸如O2PLS等工具将会成为集成式组学数据分析中的强大组成部分。

3.4 基于通路的联合分析方法

由于生物系统反应的复杂性,多组学的联合分析应该以生物体内的反应通路作为研究基础,而基于通路的联合分析方法正是将生物学知识与转录组-代谢组结果相结合来解释生物体内发生的变化的方法,其中不同组学数据的整合可以通过以下几种工具和方法来处理,如线上免费工具KEGG[50]、Wikipathways[51]、Integrated molecular pathway level analysis(IMPALA)[52]、iPEAP[53]和MetaboAnalyst 3.0[54]等都是利用生物学信号通路为基础支持不同组学的联合分析。很多研究利用了商业化的MetaCore(GeneGo Inc.)工具来整合两组数据[55-56],在MetaCore中,分别从两个组学数据中取最小P值数据来分析代谢物与基因之间的关系。另一种商业工具独创性路径分析(Ingenuity pathways analysis,IPA)[57]也可用于多组学集成分析,根据所有数据集中的-log(P值)之和对路径进行分类,相当于原始IMPaLA中的P值的独立组合。其他可用于生物学关键通路分析的工具有PathVisio[58]、Paintomics[59]、InCroMAP[60]和表达数据分析的整合荟萃分析(Integrative meta-analysis of expression data,INMEX)[61],这些工具都可以分析出差异表达基因和代谢物的数量。除此之外还有其他基于信号通路的分析方法,但每种方法都有各自不同的分析侧重点。

利用基于生物学反应途径的集成方法中,另一个比较重要的影响结果的分析因素是背景信息[62],虽然背景信息中包含检测到的没有统计学意义的物质,但是它们对分析也至关重要,是否分析这些背景信息会带来不同的差异通路分析结果。在转录组中,处理数据过程很容易获得背景列表,然而在代谢组中,很多物质检测不到,并且不同的检测方法对不同类型的物质具有偏好性,一些关键性的分析偏差会影响整个通路分析结果。例如,NMR容易检测氨基酸类,所以结果中氨基酸类物质会占较大比例,如果没有背景信息陈述这种偏好性,涉及氨基酸的途径将始终位于差异表达的前列。所以,作为一个中间步骤,建议研究者将其代谢组学途径分析中使用的背景信息作为补充信息来参考,这会使最终分析结果更加具有可信度。然而,基于信号通路途径的分析方法也有其弊端,由于这种方法理论上全部依赖于预先研究确定的途径,随着数据库的持续更新,对于还未确定的生物途径,有时并不能得出相应可靠的结论。

4 转录组-代谢组联合分析在药物作用机理研究中的应用

随着高通量测序技术向各个学科领域的渗透,利用现代测序技术手段有效地研究药物作用机理成为目前研究的主流发展方向之一。根据以往经验普遍认为单一的组学分析对于药物作用方式的研究不能提供足够的支撑,因此需要联合分析转录组数据与代谢组数据才能对后期进一步实验对象进行更加全面的定位[63]。

针对特定的药物研究其作用机理,通过转录组-代谢组联合分析的研究方法,对时序表达的众多基因与差异积累的代谢物信息进行整合分析,能够使我们所期望得到的机体内微小变化不被生物体内在的复杂网络所淹没,后期可结合分子生物学技术,从分子层面解释关注的生物表型,从而为研究药物作用机理提供可靠预测途径。Jennen等[64]利用转录组学和代谢组学方法研究了环境致癌物2,3,7,8-四氯二苯并二恶英(2,3,7,8-Tetrachlorodibenzop-dioxin,TCDD)对人类肝癌细胞系HepG2的相关RNA和代谢物,发现G蛋白偶联受体信号通路中的SOS1基因及氨基酸、脂质代谢和谷胱甘肽代谢过程在癌症发生发展过程中发挥至关作用。相比于前期仅使用单一转录组学进行研究,转录组-代谢组整合分析为探讨其受体介导机制提供了更为深入的分析。Zheng等[65]利用转录组-代谢组方法评估了ADMA对血清不足LoVo细胞中基因表达和代谢变化的影响,结果表明96 h血清不足导致的转录水平改变大部分通过ADMA恢复,血清不足诱导的主要信号通路包括癌症相关通路、细胞凋亡和细胞周期等;代谢组结果显示血清不足显著抑制TCA循环,改变葡萄糖和脂肪酸代谢以及核酸代谢。此研究通过两组学的联合应用不仅有效缩小了众多基因的研究范围,表明了药物在细胞内作用的关键途径及关键基因,并且为今后进一步明确药物作用机理及相关基因功能奠定了重要基础。He等[66]对二甲双胍处理不同时间的人源性结肠癌LoVo细胞进行了转录组-代谢组联合分析研究,表明在细胞活力降低前细胞有明显的时间依赖性代谢改变,主要涉及的有碳水化合物、脂质、氨基酸、维生素和核苷酸代谢途径。除了癌症信号传导途径之外,参与细胞能量代谢途径的基因表达也显著改变,表明二甲双胍可能是以时间依赖性的方式在代谢和转录水平上调节细胞能量代谢。通过高通量筛选方式,研究者初步建立了药物作用的可能途径,今后可以此为基础进行下一步的深入探究。Yan等[67]通过微观基因表达差异-宏观生物代谢组联合分析方法,系统评价了芪邓明目胶囊对糖尿病视网膜病变的作用机制,其不仅采用高通量转录组测序技术从整体水平全面反映糖尿病视网膜并发症病理状态和药物干预下机体产生的微观调控机制,还采用代谢组学方法全面系统的研究病理刺激及药物干预对机体内源性小分子代谢产物的影响,将差异表达基因与筛选鉴定出的11个潜在生物标志物有效的进行了前后印证,为未来药物作用机制研究提供了可行的策略。

由于宏观上药物作用靶点和作用机制的多样性及基因和代谢作用的多样性,转录组-代谢组联合分析会在分子水平上丰富整个药理作用研究体系。无论是新药开发还是已有药物作用机理的研究,一个关键问题需要解决,即逐步从分子水平到代谢物水平上研究解决药物发生作用的机制,而其中通过转录组-代谢组联合分析具有很强的说服力。在新药研究领域,可在开始研究阶段同时进行转录组-代谢组联合研究,这将会为今后的进一步研究增添更多的方法和内容,在药物作用机理研究领域实现质的飞跃。

5 展望

系统生物学的发展,在某种程度上改变了人们研究药物作用机理的方式,因为组学方法揭示了药物可能作用的所有潜在机制。在改进转录组学和代谢组学的可获得性和可应用性方面,研究者们已经取得了重大进步[68],但是,转录组-代谢组联合分析手段在应用中仍然有其局限性。由于高通量筛选,两个组学联合分析方法会产生大量的复杂数据,目前的分析手段仍然难以满足科学家们的分析需求,如何保证灵敏度和准确性是个难题。首先,由于转录物和代谢物存在于生物体的复杂网络中,代谢物和基因表达之间的关联和强度在不同实验条件下变化很大[33-34];其次,单一的组学分析会产生大量的数据,其中不排除固有的噪音和方差结构[62],在分析时不容易找出真正起作用的关键点。但是转录组-代谢组即不同的数据集联合分析会有很多互补的信息内容,因此综合分析多组学数据比单独分析更容易揭示潜在的生物学问题。

对比以上4种联合分析方法,在生物学研究中基于生物学途径的分析方法是最为直观也是最可取的,并且它可以为解释数据提供充足的相关信息。然而,因为这种方法是基于现有的知识水平加以分析数据,所以我们不能将此用于发现新的基因-代谢物之间的关联,因此为探索这些潜在的未知关联,还需要后续其他生物学实验加以支撑和补充。未来,需要进一步开发能够处理大型、复杂、高维数据和稀有生物领域知识的方法,以有效整合当前和下一代组学平台生成的大量生化信息,并且需要先进的易于应用和记录的统计方法予以配合,以便获得科学界的广泛采用。

随着多种技术逐步实现更高的吞吐量并扩大覆盖范围和复杂性,复杂数据分析的瓶颈将越来越多地转向有效的集成和解释。为满足这种需求,进一步发展目前使用的数据集成系统越来越有必要。另外,由于组学研究的结果往往缺乏足够的特异性,因此,这些不同的组学方法可以进行组合使用,使之相辅相成[69-70]。目前,在研究药物作用机制领域,转录组-代谢组联合分析吸引了一大批研究人员的注意力,其潜在社会价值和经济效益也日益得到重视,随着组学技术使用的普遍性与分析技术上的发展,转录组-代谢组联合分析方法在研究药物作用机制领域中的应用将会继续扩大,正确利用多组学联合分析技术合理地解释药物作用机制相关问题,必将推动药物研究进程,并且这种方法会逐步适应发展的需求。在不久的将来,多组学联合分析将推动药物开发及其作用机理的阐释进入新时代。

猜你喜欢
代谢物分析方法组学
阿尔茨海默病血清代谢物的核磁共振氢谱技术分析
基于EMD的MEMS陀螺仪随机漂移分析方法
一种角接触球轴承静特性分析方法
表面活性剂辅助微萃取-高效液相色谱法测定尿中一氯苯的2种代谢物
噻虫嗪及其代谢物噻虫胺在冬枣中的残留动态研究
中国设立PSSA的可行性及其分析方法
口腔代谢组学研究
基于UHPLC-Q-TOF/MS的归身和归尾补血机制的代谢组学初步研究
代谢组学在多囊卵巢综合征中的应用
HPLC-MS/MS法分析乙酰甲喹在海参中的主要代谢物