蛋白芯片检测技术结合多维统计推断死亡时间

2020-12-06 11:16李文晋李健卢晓军姜垚如王靓靳茜茜王英元孙俊红
法医学杂志 2020年5期
关键词:准确率蛋白质样本

李文晋,李健,卢晓军,2,姜垚如,王靓,靳茜茜,王英元,孙俊红

(1.山西医科大学法医学院,山西 太原 030001;2.包头市公安局刑事侦查支队,内蒙古 包头 014030)

死后间隔时间又称死亡时间(postmortem interval,PMI),是指死亡发生距检验尸体的间隔时间。死亡时间推断一直是法医病理学研究及鉴定的重点和难点。传统的PMI推断主要依据死后尸体现象变化规律,其主观性强,结果易受环境地域因素的干扰,准确推断死亡时间并不理想。随着分子生物学技术的发展,核酸[1](DNA、RNA)、代谢组学技术、红外光谱技术[2-4]等也广泛应用到PMI推断中。

蛋白质是生命的物质基础,承担着主要的生命活动。生命终止后,蛋白质在水解酶以及腐败细菌的作用下逐渐降解成氨基酸[5]。随着蛋白质组学技术的广泛研究,其在推断死亡时间方面也有所应用。KWAK等[6]利用双向电泳(two-dimensional electrophoresis,2-DE)和高效液相色谱-质谱法(high performance liquid chromatography-mass spectrometry,HPLC-MS)研究大鼠死后心肌、肝组织中的多种蛋白质,发现其降解变化有一定规律,在法医学PMI推断中有一定价值。

随着对蛋白质组学的深入研究,于芯片上进行毛细管电泳在蛋白质的分离分析中表现出了显著优势。2100蛋白芯片技术集成多个实验程序,包括样品处理,分离染色、脱色,检测和分析,与蛋白芯片试剂盒及2100生物分析仪(美国Agilent公司)结合使用,可以同时对多种蛋白质进行分离和检测。ZANCOLLI等[7]利用2100生物分析仪结合蛋白芯片技术研究了不同的毒蛇毒液,可根据蛋白质谱的变化快速有效地对毒液的变异、毒蛇的类别等进行分类分析。目前,2100蛋白芯片技术在药品、临床检测以及疾病诊断等[8-10]方面均有应用。

本研究收集大鼠死后不同时间点肝组织,采用2100生物分析仪结合蛋白芯片检测技术获取死后肝组织蛋白质表达谱,探索蛋白质含量变化与死亡时间的关系,为推断死亡时间寻找新的思路和技术支持。

1 材料与方法

1.1 样本制备

健康成年雄性Sprague-Dawley大鼠8只,10~12周龄,体质量250~300 g,由山西医科大学实验动物中心提供。温室饲养2 d后,腹腔注射戊巴比妥致死量(350 mg/kg)[11]处死大鼠,死后存放于16℃人工气候箱。于死后0、1、2、3、5、7、9、12、15、18、21、24、27和30 d分别取每只大鼠肝组织200 mg,放入液氮中保存。每只大鼠肝组织样本重复收集,每次收集完后闭合腹腔,并用塑料袋覆盖,共收集112个样本。收集的所有样本保存至-80℃冰箱待检。

本研究已获山西医科大学科学研究伦理审查委员会批准。

1.2 蛋白质提取

将肝组织在液氮中研磨成粉后置入微量离心管,管中加入纯水700 μL、蛋白酶抑制剂苯甲基磺酰氟(phenylmethanesulfonyl fluoride,PMSF)7μL,冰上孵育1h,以12000×g离心15min(2-16PK台式低温离心机,美国Sigma公司),吸取上清液500μL放于新微量离心管中。从每只大鼠14个时间点的新微量离心管中分别吸取蛋白质上清液35.7 μL,混合制成质量控制(quality control,QC)样本,共8个QC样本。

1.3 蛋白芯片样本的制备及检测

根据Agilent蛋白质230试剂盒(美国Agilent公司)说明书,4μL样本混合2μL含二硫苏糖醇(dithiothreitol,DTT)还原剂的样品缓冲液,把样本溶液和ladder放置在95℃水浴中加热5 min(振荡型恒温金属浴,中国奥盛仪器有限公司),加84μL去离子水进一步稀释,从稀释后溶液中取6 μL加载到蛋白芯片相应的孔道中。

每个芯片加载10个样本,将加载样本的芯片置于2100生物分析仪中进行分析,约20~30 min后,得到每个样本相对分子质量在14 000~230 000的水溶性蛋白质表达谱数据。

1.4 数据预处理

使用2100生物分析仪自带的2100 Expert专用软件获得蛋白质凝胶电泳图像(条带)和电泳色谱图(峰)。通过软件中“overlap”“comparison”等功能,根据内部标记的“lower marker”和“upper marker”对电泳色谱峰进行定标识别、校正调整。为消除杂质干扰,去除荧光强度在10 FU以下的峰。对所得峰高(蛋白质含量)进行归一化处理。

1.5 统计分析

使用SIMCA 14.1(瑞典Umetrics公司)对归一化后的QC样本、各时间点样本的峰高数据进行主成分分析(principal component analysis,PCA),若与其他样本能够较好区分,说明实验过程中样本预处理和仪器分析条件稳定,实验数据可靠[12],同时观察各时间点样本数据分组趋势。利用SIMCA 14.1中的偏最小二乘-判别分析[13](partial least squares-discriminant analysis,PLS-DA)对所有样本进行时间段划分后,再对各时间段内样本进行PLS-DA分析。检验水准α=0.05。评价PLS-DA模型质量的3个指标中,RX2表示模型概括X矩阵解释率,RY2反映模型稳定性,Q2反映模型预测性,若RX2、RY2、Q2的值大于0.5表示模型质量良好,越接近1表明模型解释率、稳定性和预测性越好[14]。对PLS-DA模型进行200次响应排序检验(response permutation testing,RPT),当回归线(R2)在y轴上的截距>0,拟合线(Q2)在y轴上的截距<0,且两条线相交于第一象限表明模型质量良好,未发生过拟合,且预测能力良好[15]。使用SPSS 24.0软件(美国IBM公司)对各时间段及时间段内不同死亡时间点的样本分别进行Fisher判别分析[16],每个时间点随机选取6个样本作为训练集,剩余2个样本作为测试集,分别计算两数据集的预测准确性。Fisher判别结果采用典则判别评价。

2 结 果

2.1 蛋白质表达谱峰特征

不同时间点的样本谱峰(图1A)形状相近,大多数峰的位置相同但峰高不同,死后不同时间点同一谱峰的峰高变异系数大于0.3;同一时间点样本(图1C)在相同迁移时间下,色谱峰高相近,且峰高变异系数小于0.3。依迁移时间先后将识别的22个峰依次命名为P1~P22,每个峰代表相对分子质量大小相近的蛋白质混合物(表1)。

图1 大鼠肝组织代表性蛋白芯片电泳色谱峰图Fig.1 Representative protein chip electrophoresis chromatogram of rats liver tissue

表1 识别的22个峰及对应的迁移时间Tab.1 22 peaks identified and corresponding migration time (n=8)

2.2 QC样本分析

QC样本单独聚为一类(图2),且与其他样本能够较好区分。

图2 死后样本与QC样本PCA散点图Fig.2 PCA scatter plot of QC samples and postmortem samples

2.3 建立死亡时间推断模型

2.3.1 PLS-DA

根据图2可以看出,0~9d样本分离明显,12~30d样本聚集明显。由于0 d样本为大鼠死后立即取材,故将样本重新分为A组(0 d)、B组(1~9 d)、C组(12~30d)。建立A组、B组、C组的PLS-DA模型,结果(图3)显示,可较好地区分各组样本。模型的RX2为 0.859、RY2为0.937、Q2为0.899。

图3 A组、B组、C组PLS-DA模型的散点图Fig.3 PLS-DA scatter plot of group A,group B and group C

PLS-DA模型的方差分析显示,A组、B组、C组间差异有统计学意义(P<0.05)。RPT结果(图4)显示,回归线(R2)与y轴交点大于0,拟合线(Q2)与y轴交点小于0,且两条直线相交于第一象限,说明该模型未发生过拟合,且预测能力良好。

图4 A组、B组、C组PLS-DA模型的RPTFig.4 RPT of PLS-DA model of group A,group B and group C

2.3.2 Fisher判别

对重新分组(A组、B组、C组)样本进行Fisher判别,典则判别结果(图5)显示,各组能较好地区分。训练集和测试集的预测准确率均为100%,训练集的内部交叉验证准确率为100.0%。

图5 3组Fisher判别结果Fig.5 Fisher discriminant result of 3 groups

B组、C组内各时间点分别建立Fisher判别模型。B组的典则判别结果(图6A)显示,各时间点能较好地区分。训练集、测试集和训练集内部交叉验证预测的准确率均为100%。C组的典则判别结果(图6B)显示,训练集的42个样本中有40个样本被正确分类,2个样本被错判,预测准确率为95.2%;内部交叉验证中,42个样本中有5个样本被错判,预测的准确率为88.1%。测试集的14个样本中,18 d的2个样本被错判到21d、24d,24d的1个样本被错判到18d,测试集预测的准确率为78.6%。

图6 B组(A)和C组(B)中各样本的Fisher判别结果Fig.6 Fisher discriminant analysis result of each time point of group B(A)and group C(B)

3 讨论

蛋白质是机体的重要组成部分,机体死亡后,在多种蛋白水解酶及腐败菌的作用下,机体蛋白质成分逐渐分解成为氨基酸和小分子含氮物质,含量逐渐减少直至消失[17]。目前,齐麟等[18]利用Western印迹法对蛋白质进行定性、定量检测,发现死亡后体内微管蛋白的变化呈一定规律性,但传统凝胶法耗时长,无法大规模、高通量地对蛋白质进行全面筛查及鉴定。另外,KWAK等[6]利用HPLC-MS也发现了多种蛋白质表达与PMI相关,虽然色谱-质谱联用技术所得数据信息可以更全面地反映死后时序性变化特点,但仪器昂贵、操作复杂等在一定程度上也限制了其在死亡时间推断中的应用。

2100生物分析仪是一个基于微流体毛细管电泳技术的完整系统,用于快速和自动化的蛋白质分析。Agilent蛋白质230试剂盒可用于分离和分析相对分子质量在14 000~230 000的蛋白质,分辨率为10%,与传统的十二烷基磺酸钠-聚丙烯酰胺凝胶电泳(sodium dodecyl sulfonate-polyacrylamide gel electrophoresis,SDS-PAGE)相比有很多优点:节省大量时间,良好的易操作性,出色的可重复性以及大幅减少危险试剂的使用[7]。此外,Agilent蛋白质230试剂盒还具有可以从微量样品中检测蛋白质、直接用生物样品(血清、尿液、组织)快速、高通量进行分析的能力。总之,2100蛋白芯片技术高通量、准确便捷、重复性好等特性可满足不同PMI下多组织蛋白质表达谱的检测。

PLS-DA是一种有监督的判别分类方法,其原理是在分类明确的条件下,根据观察或测量到的若干变量值,对不同处理样本(如观测样本、对照样本)的特性分别进行训练,从而判断未知样本如何分类的常用统计分析方法[19]。本研究基于蛋白质含量建立的PCA模型很难将14个时间点全部区分,结合法医学实践将死亡时间划分为A组、B组、C组,建立的PLSDA模型较好,说明死后蛋白质发生了变化,且随着时间的推移,蛋白质呈现一定的规律变化。

Fisher判别[20]是利用投影的数学思想,将高维的自变量沿一个合适的方向,使得组与组之间在低维空间尽可能分开的一种判别分析方法[21],其作为经典的判别分析,应用范围较广泛。用Fisher判别验证上述分组的准确性,其模型的训练集及测试集的预测准确率均为100.0%,训练集的内部交叉验证准确率为100.0%,说明模型具有良好的可靠性和预测能力,此时间点划分较为准确。出现上述样本聚集、分离分组情况的原因可能为死亡9d后蛋白质降解产物类型或含量相对稳定,使得9 d后组间差异小于9 d前。此外,对B组和C组内各时间点建立Fisher判别模型,B组训练集及测试集预测的准确率均为100.0%,训练集的内部交叉验证准确率为100.0%;C组组训练集及测试集预测的准确率分别为95.2%、78.6%,训练集的内部交叉验证准确率为88.1%。结果显示,18~24d样本错判较多,原因可能是18~24 d内蛋白质降解产物组分相似,或是表达谱数据的个体差异显现。

综上所述,2100蛋白芯片技术可以快速简捷、高量高效地获取死后不同时间点大鼠肝组织相对分子质量在14 000~230 000的水溶性蛋白质表达谱,结合PLS-DA、Fisher判别等多维统计分析将死亡时间初步分为0 d、1~9 d和12~30 d,在此基础上可进一步较好地区分1~9 d、12~30 d内各个时间点的大鼠死亡时间,表明多维统计结合蛋白芯片技术可用于死亡时间推断,为法医学死亡时间的推断提供新思路和方法。本研究目前采用动物模型作为研究对象,根据实践需要,在今后的研究中应该尽可能模拟并接近实际情况,考虑人类尸体与动物尸体的差异、尸体周围环境(温度、湿度等)、土壤特性等影响因素[22];结合更多统计分析方法,建立更加可靠的数学模型;收集尸体样本进行2100蛋白芯片分析,探究尸体样本死后蛋白质降解规律并探讨该项技术在尸体样本中的可行性,以提高死亡时间推断的实践性。

猜你喜欢
准确率蛋白质样本
蛋白质自由
人工智能与蛋白质结构
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
用样本估计总体复习点拨
推动医改的“直销样本”
高速公路车牌识别标识站准确率验证法
随机微分方程的样本Lyapunov二次型估计
村企共赢的样本