基于贝叶斯-神经网络筛选矽肺早期标志物及建立诊断模型

2011-02-02 07:01马庆波王世鑫
质谱学报 2011年1期
关键词:谱峰诊断模型矽肺

马庆波,向 华,刘 伟,王世鑫

(1.重庆医科大学检验系,临床检验诊断学省部共建教育部重点实验室,重庆 400016;2.天津市东丽区东丽医院,天津 300300)

基于贝叶斯-神经网络筛选矽肺早期标志物及建立诊断模型

马庆波1,向 华1,刘 伟1,王世鑫2

(1.重庆医科大学检验系,临床检验诊断学省部共建教育部重点实验室,重庆 400016;2.天津市东丽区东丽医院,天津 300300)

应用液体芯片-飞行时间质谱技术检测了79例早期矽肺组和25例非暴露正常对照组的血清蛋白质。以贝叶斯判别法的最小错误率为目标函数,借助遗传算法全局优化搜索能力,筛选出能代表早期矽肺病人分类特征的最小最优差异蛋白质谱峰子集。用选定的差异蛋白质谱峰子集建立早期矽肺的神经网络诊断模型,该模型的特异性为96%,敏感性为96.25%,准确率为96.15%。其中,1 777 u蛋白质谱峰经过二级质谱鉴定其氨基酸序列为补体C3的1个片段C3f(complement C3f),该片段在矽肺暴露人群中异常低,具有潜在的诊断意义。

液体芯片-飞行时间质谱(MALDI-TOF-MS);矽肺;贝叶斯;神经网络;标志物

矽肺是吸入二氧化硅粉尘颗粒所致的以肺间质纤维化为主的全身性疾病。早期健康监护是矽肺防治的关键环节,但目前尚无有效的早期健康监护指标。液体芯片-飞行时间质谱(MALDI-TOF MS)技术是一种蛋白质鉴定技术,基本过程是取患者或健康对照的临床样品,如血清、尿液、脑脊髓液等,通过磁珠分离,去除样品中的高丰度蛋白和其他杂质,同时富集低丰度目标蛋白。向分离得到的样品中加入基质混合后,进行飞行时间质谱分析,得到所有蛋白的质谱图,随后选择软件内嵌的统计算法进行统计学分析,获得矽肺组的差异表达蛋白质,用于预测未知样品的归属(患者或无疾病)。最后对筛选出差异表达的多肽/蛋白进行序列鉴定,探讨矽肺的发病机制,探索发现血清早期诊断(筛检)的生物标志物。对于复杂的模式识别,软件内嵌的统计算法参数的调节能力有限,不一定能满足诊断需求。

Bonissone[1]总结过经验:样品数N与特征数n之比应足够大,通常N是n的5~10倍。本工作基于140个初始蛋白质谱峰特征空间构建贝叶斯分类器,以最小错分率为准则,启用遗传算法全局搜索最优解对原始特征空间进行筛选,构造出一个精简的特征空间。用筛选后的特征蛋白质谱峰建立早期矽肺的神经网络诊断模型,并对模型的性能做5倍交叉验证。

1 差异蛋白峰数据的提取

选用美国 Invitrogen公司的Dynabeads RPC18磁珠对矽尘暴露人群(79例)和非暴露正常对照组(25例)研究对象的血清蛋白质进行分离提取,bruker ultra Flex TOF/TOF采集信号,参数设置为:线性阳离子模式,第一离子源25 kV,第二离子源23.45 kV,检测范围800~10 000 u。使用flexAnalysis软件设置信噪比大于5的蛋白质谱峰,显示每个样本的总峰数、信噪比、峰强度和峰面积。将信号分组,矽尘暴露人群(n=79,包括无尘肺0期、无尘肺0+期和I期矽肺)作为受试组,健康人群(n=25)作为对照组,然后导入到分析软件(bruker Clinprotools 2.2)进行数据分析,组间比较采用 T检验分析,筛选出140个有统计学意义的(P<0.05)。

2 差异蛋白质谱峰的筛选

判别分析是判断样品应归于哪一个总体,并对待判样品做出正确的归类,首先要已知总体及待判样品的特征变量(差异蛋白质谱峰),从而对总体及待判样品事物的特性进行变量指标的描述,进而判别待判样品的归属。由此可知,特征变量是判别分析中的一个重要问题,变量选择是否恰当是判别效果优劣的关键。

贝叶斯(Bayes)判别思想是根据先验概率求出后验概率,并依据后验概率分布做出统计推断。将样本类别记为ωi,则先验概率为P(ωi),样本X的类条件概率密度函数为P(x/ωi)。对于待测样本,贝叶斯公式可以计算出该样本属于各类的概率,叫做后验概率,根据后验概率作为识别样本的依据。

以后验概率为判决函数:fi(x)=P(ωi/x)

对于本研究的二分类问题,i值取1和2,即选择P(ω1/x)和P(ω2/x)中较大值所对应的类作为决策结果。

按照已知P(ωi)条件下的决策规则进行决策,固定的特征变量组合(固定的差异蛋白峰组合)会有固定的错误分类率,而不能反映把整个特征空间划分成某种类型空间的总的最小错误分类率。

遗传算法是模拟生物在自然界环境中遗传进化过程的一种自适应全局优化概率搜索算法。本工作将不同差异蛋白质谱峰的相对表达值的组合定义为遗传算法的个体,每个个体是问题的一个解,称为“染色体”。大量的个体则形成了初始种群,种群中的这些染色体在后续迭代中不断进化,称为遗传。在每一代中用“适值”来测量染色体的好坏,生成的下一代染色体称为后代。后代是由前一代染色体通过交叉或者变异运算形成的。在新一代形成过程中,根据适应度的大小选择部分后代,淘汰部分后代。采用贝叶斯分类器的错误识别率为适应度函数寻求不同类型空间的总的最小错误分类率,然后不断淘汰错误分类率高的差异蛋白质谱峰组合模式,逐渐选择在分类中表现优异的差异蛋白质谱峰组合模式。

本研究采用美国 MathWorks公司的MATLAB软件编程,实现矽肺早期诊断标志物的筛选,示于图 1,调用了 MathWorks公司的Bayes分类器和英国设菲尔德大学开发的遗传算法工具箱。差异峰的FDR值选取为0.05,这也就等价于控制fdr不能超过5%。一个较大规模的遗传算法初始总群带来更大范围的搜索空间,防止过早的收敛。但是大群体增加了对于Bayes分类器评价的计算量。在本工作中,初始种群选取100,即100组7个不同蛋白峰的组合。以贝叶斯分类器作为遗传算法的评价函数对医学模型进行评价时,不仅仅要考虑到识别的正确率,更要关注特异性和敏感性,所以本工作贝叶斯分类器评价函数的输出,1为敏感性、*为特异性。预期的误差精度定义为0.01,交叉概率为0.8,变异概率为0.2,最大迭代次数为100。运用遗传算法按上述参数寻求高敏感性和高特异性的7个蛋白峰的组合。遗传算法循环100次后,算法达到了最大迭代次数,筛选出7个差异蛋白质谱峰,分别是3 317.26、5 081.66、8 671.21、1 777.41、8 761.39、5 130.84、901.47 u。

图1 特征筛选方法的总体构架Fig.1 Flowchart of biomarker selection

3 BP神经网络诊断模型的建立

建立3层BP神经网络,输入向量为x=(x1,x2,…,xn);隐层输出向量为ho=(ho1,ho2,…,hop),输出层向量为yo=(yo1,yo2,…,yoq),期望输出向量为d=(d1,d2,…,dq)。

网络学习的目的是通过调整网络中的连接权重,使实际输出与期望输出的误差最小。实现模型的具体步骤如下:用初步筛选的差异蛋白质谱峰作为神经网络模型的输入样本;取总样本的3/4为训练样本集、1/4为盲法测试样本集,输入层神经元数为7,输出层神经元数为1;输出值分别用0代表健康对照组,1代表矽尘暴露组;隐层层数及神经元数没有一个定量的标准,可以根据训练效果调整这些参数[2]。本研究使用Matlab软件在初始权值和阈值固定的条件下编程,自动形成不同隐层神经元数的组合模式完成训练[3]。其他训练参数采用默认函数。

根据均方根误差确定最佳隐藏层神经元数。

式中,yt为预测值,^yt为期望值,n为预测个数。神经网络隐藏层神经元数目为4时,MSE值最小(0.003 86),示于图2。

图2 基于不同隐藏神经元数的神经网络均方根误差Fig.2 MSEaccording to the different combination of neurons

4 诊断模型的验证

训练样本的不同顺序会对网络训练产生影响,训练出的网络随机性大、泛化能力差,为了验证诊断模型的泛化能力,可以采用交叉验证(cross validation)的方法。交叉验证是验证分类器性能的一种统计分析方法,基本思想是把样本分组,一部分作为训练集,另一部分作为测试集。首先用训练集对网络进行训练,再用测试集来检验训练得到的模型,以此作为评价网络的性能指标。交叉验证方法包括hold-out method、K-fold cross validation和leave-one-out cross validation。本工作采用 K-fold cross validation方法进行验证,该方法将原始数据分成5组(一般是均分),每个子集数据分别做一次验证集,其余的5-1组子集数据作为训练集,这样会得到5个模型,用这5个模型最终验证集的平均分类准确率作为此5-fold-CV下分类器的性能指标。选用同样的神经网络模型和参数,共进行5次计算。也就是将原始104例样本循环验证一遍,从而验证模型的可靠性。5次平均敏感性和特异性分别为96.25%和96%,预测结果列于表1。

表1 诊断模型的5倍验证结果比较Table 1 Comparison of 5-fold cross validation results

5 结论

本研究应用磁珠分选和MALDI-TOF以及ClinPro Tools软件得到了矽肺组的差异蛋白质表达谱,借助贝叶斯判别法并整合遗传算法筛选出了 7种差异蛋白特征子集。其中,m/z1 777.56的蛋白质谱峰在矽肺暴露人群中异常低表达,示于图3。进一步的二级质谱鉴定其氨基酸序列,结果为补体C3的一个片段-C3f(complement C3f)[4],示于图 4。

图3 各期人群m/z1 777.56血清蛋白差异峰质谱图Fig.3 Averagem/z1 777.56 spectrum profiles obtain from early silicosis patients and controls in range of 0.8—10 ku

已有研究证明,补体是一种重要的内源性免疫防御系统调节物,补体的C3分解片段(C3a,C3f,iC3b)在心肌梗死、阿尔茨海默病、鼻咽癌、乳腺癌、HCC和系统性硬化症等疾病中都有异常表达[5-10]。C3f能够提高血管内皮细胞的通透性,其核心分子 HWESAS还具有生长激素样作用[11]。而且 C3f能够提高皮肤成纤维细胞TGF-β1的合成和分泌[12]。成纤维细胞是矽肺发病中的效应细胞之一,由此可以推测,C3f在矽肺的发病过程中可能是通过影响成纤维细胞中的细胞因子 TGF-β表达水平而发挥其作用的。

由此可见,运用贝叶斯分类器结合遗传算法筛选出早期矽肺的代表特征所建立的神经网络诊断模型具有较高的敏感性和特异性[13],为早期矽尘暴露人群的诊断提供了新的检测方法[14-15]。在应用基质辅助激光解析电离飞行时间质谱技术发现矽肺早期血清标志物的研究中,针对高维蛋白质质谱数据,运用遗传算法作为特征空间搜索策略,利用贝叶斯分类器作为特征蛋白峰组合的评价函数,获得了一种从MALDI质谱数据筛选差异蛋白的方法。在尘暴露人群和正常对照人群数据上进行验证实验,以此选择出的最优特征蛋白峰子集,建立矽尘暴露人群神经网络诊断模型,取得了较好的分类性能。

图4 m/z1 777 Mascot搜索结果Fig.4 Mascot result ofm/z1 777

[1]BONISSONE P P,HENRION M,KANAL L N,et al.Uncertainty in artificial intelligence 6[M].Elsevier Science Pub Co,1991.

[2]邓 伟.BP神经网络构建与优化的研究及其在医学统计中的应用[D].上海:复旦大学,2002.

[3]刘耦耕,贺素良.BP神经网络结构参数的计算机自动确定[J].计算机工程与应用,2004,40(13):72-74.

[4]ROTHER K,TILL G O,HÄNSCH G M.The complement system[M].Springer Verlag,1998.

[5]HORTIN G L.The MALDI-TOF mass spectrometric view of the plasma proteome and peptidome[J].Clinical Chemistry,2006,52(7):1 223-1 237.

[6]CHANGJ,CHEN L C,WEI S Y,et al.Increase diagnostic efficacy by combined use of fingerprint markers in mass spectrometry-plasma peptidomes from nasopharyngeal cancer patients for example[J].Clinical biochemistry,2006,39(12):1 144-1 151.

[7]L EE I N,CHEN C H,SHEU J C,et al.Identification of complement C3a as a candidate biomarker in human chronic hepatitis C and HCV-related hepatocellular carcinoma using a proteomics approach[J].Proteomics,2006,6(9):2 865-2 873.

[8]LI J,ORLANDI R,WHITE C N,et al.Independent validation of candidate breast cancer serum biomarkers identified by mass spectrometry[J].Clinical Chemistry,2005,51(12):2 229-2 235.

[9]SELL E H,LAMERZJ,BUERGER K,et al.Identification of novel biomarker candidates by differential peptidomics analysis of cerebrospinal fluid in alzheimers disease[J].Combinatorial Chemistry& High Throughput Screening,2005,8(8):801-806.

[10]MARSHALL J,KUPCHAK P,ZHU W,et al.Processing of serum proteins underlies the mass spectral fingerprinting ofmyocardial infarction[J].Journal of Proteome Research,2003,2(4):361-372.

[11]XIANG Y,MATSUI T,MATSUO K,et al.Comprehensive investigation of disease-specific short peptides in sera from patients with systemic sclerosis:Complement C3f-des-arginine,detected predominantly in systemic sclerosis sera,enhances proliferation of vascular endothelial cells[J].Arthritis Care&Research,2007,56(6):2 018-2 030.

[12]向 阳,加藤智启.补体片段 C3f,DRC3f对皮肤成纤维细胞合成和分泌转化生长因子-β1的调节作用[J].湖北民族学院学报:医学版,2007,24(1):10-13.

[13]HU Y,ZHANG S,YU J,et al.SELDI-TOFMS:the proteomics and bioinformatics approaches in the diagnosis of breast cancer[J].The Breast,2005,14(4):250-255.

[14]KIM K J,CHO S B.Prediction of colon cancer using an evolutionary neural network[J].Neurocomputing,2004,61:361-379.

[15]HUANG C J,LIAO W C.Application of probabilistic neural networks to the class prediction of leukemia and embryonal tumor of central nervous system[J].Neural Processing Letters,2004,19(3):211-226.

Serum Biomarkers Selection and Diagnostic Prediction of Early Silicosis Patients Using Bayesian Network and Neural Network

MA Qing-bo1,XIANG Hua1,LIU Wei1,WAN G Shi-xin2
(1.Key L aboratory of Medical Diagnostics of Ministry of Education,Faculty of L aboratory Medicine,Chongqing Medical University,Chongqing400016,China;2.The Dongli Hospital ofTianjin,Tianjin300300,China)

Sera of 79 workers exposed to silica and 25 healthy controls were determined by matrix-assisted laser desorption ionization mass spectrometry(MALDI-TOF MS).Based on the minimum error Bayes decision theory,serum biomarkers of early silicosis patients were selected by making use of the global optimal ability of the genetic algorithm.Mass spectrometric peaks of 22 proteins were selected and used by artificial neural network(ANN)to establish a diagnostic model.A blinded test shows the ratios of correctness,sensitivity and specificity are 96.15%,96.25%and 96%,respectively.Search results of tandem mass spectra against a protein database show that the 1 777 u mass spectrometric peak is identified as C3f,which is a fragment of complement C3.The 1 777 u mass spectrometric peak is significantly decreased in silicosis patients.The results indicate that C3f may be the potential biomarkers for the diagnosis of early stage of silicosis.

book=51,ebook=50

matrix-assisted laser desorption ionization mass spectrometry(MALDI-TOF MS)silicosis;Bayes;artificial neural network;biomarker

R 135.2;TP 183

A

1004-2997(2011)01-0050-05

2010-03-25;

2010-06-17

国家自然科学基金面上项目(30771788)和天津市卫生局科技基金项目(06KG10)资助

马庆波(1974~),男(回族),陕西人,硕士研究生,从事生物医学信息的计算机处理研究。E-mail:mmqqbb@tom.com

向 华(1963~),男(汉族),重庆人,副教授,检验仪器学专业。E-mail:xianghuacq@163.com

猜你喜欢
谱峰诊断模型矽肺
X射线光电子能谱复杂谱图的非线性最小二乘法分析案例
基于无基底扣除的数据趋势累积谱峰检测算法
岩性密度测井仪工作原理与典型故障分析
基于FPGA的二维谱峰搜索算法硬件架构设计
矽肺与人体体成分关系临床研究*
矽肺患者血清中甲状腺激素和白细胞介素-6的检测及意义
X线对矽肺诊断意义
基于模糊优选反问题的电机电气故障诊断模型
对于电站锅炉燃烧经济性诊断模型的研究
104例矽肺合并症的临床分析