乳腺癌转移相关分子标志物的筛选

2015-01-06 02:42周漩吴韵瑶钟兆健
广东药科大学学报 2015年5期
关键词:差异基因标志物分子

周漩,吴韵瑶,钟兆健

(广东药学院药科学院,广东广州510006)

乳腺癌转移相关分子标志物的筛选

周漩,吴韵瑶,钟兆健

(广东药学院药科学院,广东广州510006)

目的筛选与乳腺癌转移相关的分子标志物,为乳腺癌的早期诊断、预后评估以及药物靶点的研究提供参考。方法从NCBI的GEO数据库中收集乳腺癌相关表达数据,将未转移与已转移的乳腺癌数据进行对比,采用GeneSpring软件筛选差异表达基因,并通过ROC曲线与主成分分析对得到的差异表达基因进行评价。结果筛选得到40个差异表达基因,对乳腺癌转移与未转移样本分类良好。结论筛选得到的差异基因可作为乳腺癌转移的分子标志物,对乳腺癌是否转移进行预测。

乳腺癌;转移;差异表达基因;分子标志物

乳腺癌是女性最常见的恶性肿瘤之一,发病率和死亡率居妇女各类恶性肿瘤之首,严重威胁着女性的身体健康[1]。近年来乳腺癌的治疗手段和诊断方法不断提高,但乳腺癌患者的死亡率仍然得不到有效的控制。远处转移是乳腺癌患者死亡的最主要原因,目前针对乳腺癌转移的治疗尚未有明显突破。

表观遗传学改变所导致的基因表达异常是乳腺癌发生的重要因素。基因表达谱[2]是用作描绘特定细胞或组织在特定状态下的基因表达种类和丰度信息,能够反映出组织或细胞在某一特定状态下的基因表达情况。在乳腺癌发生,发展和转移的各个阶段,基因表达谱均会发生相应的变化。乳腺癌转移早,发展快,甚至在乳腺癌发展初期就已出现微小转移灶,因此,如能筛选出与乳腺癌转移相关的基因作为分子标志物,将有利于及时发现乳腺癌的转移趋势,对患者把握治疗时机有着重要的意义。

因此,本文采用生物信息学方法,对乳腺癌未转移与已转移样本进行差异表达谱的分析,并从中筛选出乳腺癌转移的分子标志物,为乳腺癌的早期诊断,预后评估等提供理论依据。

1 数据集

本文研究所用的乳腺癌基因表达谱数据来自于NCBI的GEO[3]数据库,包括GSE2603和GSE2034。其中,GSE2603包含了未出现转移的乳腺癌样本34例,已出现转移的乳腺癌样本65例;GSE2034包含了未出现转移的乳腺癌样本180例,已出现转移的乳腺癌样本106例。

2 数据分析及结果

2.1 差异表达基因谱分析

首先,采用GeneSpringGX11.5软件对GSE2603进行基因差异表达分析。将已转移的乳腺癌样本作为实验组样本,未转移的乳腺癌样本作为对照组,采用非配对t检验方法[4],分析得到差异表达基因谱。分析中设置的P值越小,得到的基因差异程度越大,本文将默认的P<0.05调整为P<0.01,共得到475个差异表达基因。

2.2 分子标志物的筛选

上述筛选得到的差异表达基因数量仍然很多,将其全部作为分子标志物显然不合理,也没有实际应用意义。一般来说,差异程度越大的基因,其作为分子标志物的判断准确性越高,但选取单个基因作为标志物,由于受到的影响因素很多,也难以实现准确判断。因此,考虑将差异程度大的基因进行联合作为分子标志物,预测未知样本是否发生转移。

分别取经分析得到的差异程度靠前的10、20、30、40、50个差异表达基因在数据集GSE2034上进行验证,考察其作为分子标志物预测乳腺癌是否转移的准确性。GSE2034中已转移的乳腺癌样本设为样本组(转移状态用“1”表示),未转移的乳腺癌样本设为对照组(转移状态用“0”表示),以各组差异表达基因为自变量,样本的转移状态为因变量,进行Logistic回归计算联合预测分子[5],构建 ROC[6]曲线。经试验发现,当取前40个差异基因(见表1)为分子标志物时,ROC曲线下的面积为 0.776,对GSE2034的预测效果最佳(见图1)。

表1 分子标志物基因Table 1 Genes of molecular markers

P 2 3 8 1-2图1 ROC曲线Figure 1 ROC curve

2.3 主成分分析

将筛选出的40个差异表达基因对GSE2603进行主成分分析[7-8]。经计算,40个差异表达基因中第一主成分能够代表原表达谱数据的70.85%,第二主成分能够代表原表达谱数据的10.21%,第三主成分能够代表原表达谱数据的10%。对各样本的3个主成分数据进行三维作图,结果见图2。

图2 GSE2603主成分分析Figure 2 Analysis of GSE2603 principal components

图中可见,未发生转移的乳腺癌组织和已经发生转移的乳腺癌组织被较好地分为2类,说明筛选出来的差异基因能有效区分乳腺癌是否转移。这些差异基因可作为乳腺癌的分子标志物,检测其在乳腺癌组织中的表达情况可对乳腺癌是否转移进行预测,为乳腺癌的预后评估提供参考。

3 小结

本文采用生物信息学方法,从GEO数据库中收集并分析乳腺癌表达谱数据,对已转移的乳腺癌样本和未转移的乳腺癌样本进行分子标志物的筛选,得到了40个差异表达基因为乳腺癌转移相关的分子标志物。这些分子标志物对乳腺癌的早期诊断、预后评估以及药物治疗靶点的选择有重要的意义。

[1]石微.DNA甲基化在乳腺癌早期诊断中的研究进展[J].科技信息,2012,32(7):643-644.

[2]WANG X,SPANDIDOS A,WANGK H,et al.PrimerBank: a PCR primer database for quantitative gene expression analysis,2012 update[J].Nucleic Acids Res,2012,40 (Database issue):1144-1149.

[3]余海浪,马文丽,郑文岭.用于基因数据挖掘的基因表达数据库GEO[J].中国生物工程杂志,2007,27(8):96-103.

[4]蒋定锋,潘娟娟,赵耐青.差异表达基因筛选方法的比较[J].中国卫生统计,2006,23(5):417-420.

[5]陈卫中,潘晓平,倪宗瓒.四种与冠心病相关指标联合诊断冠心病价值评价[J].现代预防医学,2006,33(5): 723-740.

[6]陈卫中,潘晓平,倪宗瓒.Logistic回归模型在ROC分析中的应用[J].中国卫生统计,2007,23(5):112-116.

[7]王强,许红民.主成分分析在基因芯片分析中的应用[J].军医进修学院学报,2005,26(2):145-147.

[8]黄成玉,阮晓钢,李建更.基于基因表达谱胃癌特征基因选取研究[J].微计算机信息,2009,26(4):254-259.

(责任编辑:王昌栋)

Screening of the molecular markers associated with breast cancer metastasis

ZHOU Xuan,WU Yunyao,ZHONG Zhaojian
(School of Pharmacy,Guangdong Pharmaceutical University,Guangzhou 510006,China)

ObjectiveTo screen the molecular markers associated with breast cancer metastasis,and provide a reference for early diagnosis,prognosis evaluation and drug target research of breast cancer.MethodsThe gene expression data of breast cancer was collected from the GEO database of NCBI.The non-metastasis and metastasis samples were compared to screen the differential expression genes by Genespring software,and the differential expression genes were evaluated by ROC curves and PCA.ResultsThe screened 40 differential expression genes well classified the non-metastasis and metastasis samples.ConclusionThe screened differential expression genes as the molecular markers associated with breast cancer metastasis provide a prediction tool of breast cancer metastasis.

breast cancer;metastasis;differential expression gene;molecular maker

R737.9

:A

10.3969/j.issn.1006-8783.2015.05.026

1006-8783(2015)05-0676-03

2015-06-08

周漩(1975—),女,博士,副教授,主要从事化学生物信息学研究,Email:veego_z@hotmail.com。

时间:2015-09-18 14:24

http://www.cnki.net/kcms/detail/44.1413.R.20150918.1424.002.html

猜你喜欢
差异基因标志物分子
分子的扩散
基于RNA 测序研究人参二醇对大鼠心血管内皮细胞基因表达的影响 (正文见第26 页)
“精日”分子到底是什么?
米和米中的危险分子
紫檀芪处理对酿酒酵母基因组表达变化的影响
脓毒症早期诊断标志物的回顾及研究进展
臭氧分子如是说
冠状动脉疾病的生物学标志物
肿瘤标志物在消化系统肿瘤早期诊断中的应用
MR-proANP:一种新型心力衰竭诊断标志物