基于组合策略的慢性阻塞性肺疾病的差异表达基因的筛选

2014-06-23 13:56华琳夏翃周萍安立
中国医疗设备 2014年7期
关键词:首都医科大学扰动一致性

华琳,夏翃,周萍,安立

1.首都医科大学 a.生物医学工程学院;b.临床生物力学应用基础研究北京市重点实验室,北京 100069;2.首都医科大学附属北京朝阳医院 呼吸医学中心,北京 100020

基于组合策略的慢性阻塞性肺疾病的差异表达基因的筛选

华琳1,夏翃1,周萍1,安立2

1.首都医科大学 a.生物医学工程学院;b.临床生物力学应用基础研究北京市重点实验室,北京 100069;2.首都医科大学附属北京朝阳医院 呼吸医学中心,北京 100020

目的应用组合策略筛选慢性阻塞性肺疾病(COPD)的差异表达基因。方法采用芯片显著性分析算法(SAM)从GEO数据库中提取COPD差异表达基因,并通过5种基因排序算法对基因进行筛选,并对筛选后的COPD相关基因进行随机扰动分析和GO功能富集分析。结果发现GON4L和P4HB是重要的COPD相关基因。结论组合策略提高了COPD易感基因识别的准确率。

慢性阻塞性肺疾病;差异表达基因;随机扰动分析;GO功能富集分析;基因芯片

0 前言

慢性阻塞性肺疾病(Chronic Obstructive Pulmonary Disease,COPD)是一种严重危害公众健康的慢性呼吸系统疾病,患病人数多,死亡率高。患者患病后自身防御和免疫功能降低,易受外界各种有害因素的影响,逐渐产生各种心肺并发症,劳动能力和生活质量受到严重影响。COPD具有家族聚集倾向,较少由单基因缺陷引起,往往由多基因互作及多基因和环境因素互作累积所致[1]。目前,已经确认吸烟是导致COPD最重要的环境因素,但据报道仅有10%的吸烟者能进展为COPD患者[2]。日前,相关研究人员指出大气污染物会影响COPD的入院人数和死亡人数,导致COPD发病率和死亡率增加,其中PM10是主要的危险因子。以上均说明遗传易感性和环境因素对于COPD发病起着重要作用,而基因又是决定遗传易感性的关键因素。

COPD的病因十分复杂,具有遗传异质性,基因型和表现型间没有简单的对应关系。因此,目前遗传学和功能基因组学研究的热点和难点就是通过遗传标记进行连锁定位,鉴定该疾病表型的相关基因。近年来,基因芯片(Gene Microarray)技术发展迅猛,大量算法被用于识别疾病的差异表达基因,但这些算法识别的差异表达基因往往不一致。本文采用组合策略,通过对5种基因排序算法排序的COPD差异表达基因进行随机扰动分析和整合分析,还对识别的COPD相关基因进行GO功能富集分析,以提高COPD易感基因识别的准确度。

1 材料与方法

1.1 COPD数据的选择

从GEO(Gene Expression Omnibus)数据库(http:// www.ncbi.nlm.nih.gov/geo)中下载一套COPD的基因表达谱数据,包含了18个COPD患者、12个正常样本的22283个基因。按照P<0.05和错误发现率(False Discovery Rate,FDR)<0.1的标准,采用芯片显著性分析算法(Significance Analysis of Microarrays,SAM)从表达谱数据中提取差异表达基因,然后对其进行进一步的分析。

1.2 Rank方法

本文采用5种Rank方法对差异表达基因进行排序:① 传统的两两比较t检验;②Bayesiant检验[3-5];③SAM检验[3];④Welch'st检验;⑤ Shrinkaget检验[6]。把每种方法中排在前10位的基因筛选出来,进行一致性比较,再把一致的基因列出来,并进一步采用随机重排检验,分析结果的稳定性。

1.3 随机扰动分析

为判定筛选结果的稳定性,传统做法是对原始数据集进行随机扰动,然后对扰动后的数据集再进行分析。理想的结果是经过随机扰动后,Rank列表和原始数据集得出的结果保持一致。本文分别采用GeneSelector软件包中的jackknife法、label exchange法、bootstrap法和noise法进行随机扰动分析[4]。

1.4 GO富集分析

对于5种Rank方法中排在前10位的基因,将其中出现频次≥3次的基因挑选出来做GO功能富集分析,并计算相应的P值和FDR值,找出显著的GO功能结点(按照FDR<0.05的标准),从而分析出应用组合策略获得的基因的相应生物学功能。

2 数值分析结果

2.1 Rank排序筛选结果

对5种Rank方法获得的排在前10位的基因的分析结果表明,基因GON4L、P4HB、LUM、ACTA2、RPS8P8在5种方法中均排在前10位,并且出现频次最高(4次);其次是基因SERP1和S100A10,出现频次为3次。具体结果见表1。

表1 5种Rank方法中出现频次≥3次的基因

通过查阅文献,发现频次≥3次的基因中,P4HB和GON4L均是COPD相关的潜在候选基因。

2.2 随机扰动分析结果

4种方法均随机重复30次,结果如下:

(1)t检验。4种扰动分析后,GON4L排在第一位,即出现的频次最高;其次是P4HB。label exchange方法和bootstrap方法比jackknife方法的一致性差。t检验的随机扰动分析结果,见图1。

图1 t 检验的随机扰动分析结果

(2)Bayesiant检验。4种扰动分析后,GON4L排在第一位,即出现的频次最高;其次是P4HB。label exchange方法和bootstrap方法比jackknife方法的一致性差。Bayesiant检验Noise方法的结果不如t检验。Bayesiant检验的随机扰动分析结果,见图2。

图2 Bayesian t检验的随机扰动分析结果

(3)SAM检验。4种扰动分析后,P4HB排在第一位,即出现的频次最高;其次是GON4L。4种方法的一致性较为相似。Noise方法的结果一致性较好。SAM检验的随机扰动分析结果,见图3。

图3 SAM检验的随机扰动分析结果

(4)Welch'st检验。4种扰动分析后,GON4L排在第一位,即出现的频次最高;其次是P4HB。label exchange方法和bootstrap方法比jackknife方法的一致性差。Noise方法的结果一致性较好。Welch'st检验的随机扰动分析结果,见图4。

图4 Welch's t 检验的随机扰动分析结果

(5)Shrinkaget检验。4种扰动分析后,GON4L排在第一位,即出现的频次最高;排在其次是P4HB。4种方法的一致性也较为相似。Noise方法的结果一致性较好。Shrinkaget检验的随机扰动分析结果,见图5。

图5 Shrinkage t 检验的随机扰动分析结果

综上,GON4L是随机扰动分析后出现频次最高的基因。事实上,GON4L被报道过和蛋白质Yin Yang 1(YY1)相关[7],并且其调控行为在COPD患者中会出现改变[8]。此外,4种随机扰动分析后,P4HB出现频次除了在SAM方法中排在第一位,在其他方法中均排在第二位,表明P4HB也可能与COPD较为相关。事实上P4HB被发现在吸烟者中的表达要高于非吸烟者[9]。这些证据均证实GON4L和P4HB是重要的COPD相关的易感基因,且筛选结果稳定性较好。

2.3 GO功能富集分析

对于5种Rank方法中排在前10位的基因,采用clusterProfiler Package进行GO功能富集分析,结果见表2。可以看出,显著的GO功能结点主要有:GO:0030485(smooth muscle contractile fiber),GO:0016860(intramolecular oxidoreductase activity),GO:0004667(prostaglandin-D synthase activity),GO:0004656(procollagen-proline 4-dioxygenase activity),GO:0031545(peptidyl-proline 4-dioxygenase activity),GO:0016853(isomerase activity)和GO:0019798(procollagen-proline dioxygenase activity)。这些功能多与酶的活动相关。

表2 GO功能富集分析结果(FDR<0.05)

3 讨论

很多基因表达谱的基本分析都是差异表达基因的筛选,筛选方法也层出不穷。本文采用组合策略,对5种不同的Rank方法排序筛选的COPD差异表达基因进行比较,结果发现这些基因的确能够很好地区分COPD疾病和对照样本。随机扰动分析结果表明,基因GON4L和P4HB出现频次在5种方法的随机扰动分析中的稳定性较强,且经过文献验证的确是与COPD相关的基因。

作为单变量分析,对基因排序稳定性的研究是十分重要的,特别是对于不同方法获得的差异表达基因的一致性检验。最近一些研究还特别关注了稳定性的测度[10-11],比如采用聚集性测度来分析结果稳定性,可以对不同方法的结果进行更加深度的比较。此外,在具体的问题分析中,对不同方法获得的结果进行合成,也有助于对结果进行合理的解释。

稳定性在临床应用中是非常重要的,如果发现通过某方法获得的基因列表是不稳定的,说明该方法在验证新的数据集时效果可能会较差,从而产生假阴性或假阳性结果。此外,采用不同方法对同一数据集进行分析,潜在的不稳定性也会导致假阴性或假阳性结果。因此,采用更合理的测量方法来分析不同方法所得结果的稳定性,从而发现真正的疾病易感基因是非常重要的。

4 结语

随着个性化医疗和转化医学的发展,基因诊断和基因治疗逐渐成为未来医学发展的新趋势。除了应用算法组合和改进策略提高疾病易感基因识别的准确率,加强对基因诊断技术平台的建设,改进相关领域的医疗仪器和设备也十分重要。目前一些基因诊断技术有限公司已经改进了基于定量PCR的技术平台和生物芯片技术平台,为遗传性疾病、肿瘤的科研及临床诊断提供了相关的解决方案。

[1] Sethi,JM,Rochester CL.Smoking and chronic obstructive pulmonary diseas[J].Clin Chest Med,2000,21(1):67-86.

[2]Snider GL.Chronic obstructive pulmonary disease:risk factors,pathophysiology and pathogenesis[J].Annu Rev Med, 1989,40:411-429.

[3] Tusher VG,Tibshirani R,Chu G.Significance analysis of microarrays applied to the ionizing radiation response[J].Proc Natl Acad Sci USA,2001,98(9):5116-5121.

[4] Boulesteix AL,Slawski M.Stability and aggregation of ranked gene list[J].Brief Bioinform,2009,10(5):556-568.

[5] Baldi P,Long AD.A Bayesian framework for the analysis of microarray expression data: regularized t-test and statistical inferences of gene changes[J].Bioinformatics,2001,17(6):509-519.

[6] Opgen-Rhein R,Strimmer K.Accurate ranking of differentially expressed genes by a distribution-free shrinkage approach[J].Stat Appl Genet Mol Biol,2007,(6):9.

[7] Lu P,Hankel IL,Hostager BS,et al.The developmental regulator protein Gon4l associates with protein YY1,co-repressor Sin3a,and histone deacetylase 1 and mediates transcriptional repression[J].J Biol Chem,2011,286(20):18311-18319.

[8] Natanek SA,Riddoch-Contreras J,Marsh GS,et al.Yin Yang 1 expression and localisation in quadriceps muscle in COPD[J].Arch Bronconeumol,2011,47(6):296-302.

[9] Steiling K,Kadar AY,Bergerat A,et al.Comparison of Proteomic and Transcriptomic Profiles in the Bronchial Airway Epithelium of Current and Never Smokers[J].PLoS One,2009,4(4):e5043.

[10] Yang X,Bentink S,Scheid S,et al.Similarities of ordered gene lists [J].J Bioinform Comput Biol,2006,4(3):693-708.

[11] Lottaz C,Yang X,Scheid S,et al.OrderedList-a bioconductor package for detecting similarity in ordered gene lists[J].Bioinfor matics,2006,22(18):2315-2316.

Screening of Differentially Expressed Genes of COPD Based on Combined Strategy

HUA Lin1, XIA Hong1,
ZHOU Ping1, AN Li2
1.a.School of Biomedical Engineering; b.Beijing Key Laboratory of Fundamental Research on Biomechanics in Clinical Application, Capital Medical University, Beijing 100069, China;
2.Respiratory Medicine Center, Beijing Chaoyang Hospital, Capital Medical University, Beijing 100020, China

ObjectiveTo screen differentially expressed genes of chronic obstructive pulmonary disease (COPD) through combined strategy.MethodsSignificance analysis of microarrays (SAM) was used to extract the differentially expressed genes of COPD from GEO database, which then were screened through five kinds of genetic sort algorithms. Then stochastic disturbance analysis and function enrichment analysis of the screened genes were conducted.ResultsGON4L and P4HB were important genes related to COPD.ConclusionThe recognition accuracy of susceptibility genes of COPD has been improved with the application of combined strategy.

chronic obstructive pulmonary disease; differentially expressed genes; stochastic disturbance analysis; function enrichment analysis; gene microarray

R563.9

B

10.3969/j.issn.1674-1633.2014.07.050

1674-1633(2014)07-0133-04

2014-01-20

2014-02-10

北京市自然科学基金项目(7142015);北京市教育委员会

科技计划面上项目(SQKM201210025008);北京市优秀人才培养资助项目(2012D005018000002);国家自然科学基金项目(31100905);首都医科大学基础临床-合作项目(11JL30,11JL33,12JL75)。

本文作者:华琳,首都医科大学生物医学工程学院副教授。

安立,副主任医师。

作者邮箱:hualin7750@139.com

猜你喜欢
首都医科大学扰动一致性
睡前一杯奶,到底好不好?睡眠专家告诉你真相
首都医科大学危重症医学系
注重教、学、评一致性 提高一轮复习效率
对历史课堂教、学、评一体化(一致性)的几点探讨
转换机制下具有非线性扰动的随机SIVS传染病模型的定性分析
一类四次扰动Liénard系统的极限环分支
带扰动块的细长旋成体背部绕流数值模拟
IOl-master 700和Pentacam测量Kappa角一致性分析
一种改进的基于SINS/GNSS的水平重力扰动测量方法
首都医科大学北京儿童医院2017年国家级继续医学教育项目(之二)