人尿液N-糖蛋白/N-糖肽规模化富集鉴定

2021-06-07 02:02尚诗婷董航言李圆圆张万军秦伟捷钱小红

色谱 2021年7期

尚诗婷, 董航言, 李圆圆, 张万军, 李航, 秦伟捷, 钱小红

(军事科学院军事医学研究院生命组学研究所, 北京蛋白质组研究中心,蛋白质组学国家重点实验室, 北京 102206)

N-糖基化修饰是一种普遍的生物学过程,在蛋白质的折叠、运输中都承担着重要的作用[1]。许多细胞生理功能及生物学过程对糖基化高度敏感[2,3],如细胞识别和信号转导[4]、细胞黏附[5]、免疫应答[6]及细胞凋亡等。当N-糖基化修饰进程表现异常,多种疾病,包括神经性疾病[7]、糖尿病[8]、肾病[9]、肿瘤[10,11]及炎症疾病[12,13]等通常会被引发。因此,深入考察N-糖蛋白/N-糖肽对疾病预防、诊断[14,15]、分期和疗效追踪评价有显著的临床参考意义。

尿液是发现疾病生物标志物、监测身体健康状态及临床诊断的常用生物样本。来源于肾小球滤过及泌尿系统分泌的尿液蛋白质组的变化可以反映人体的生理、病理状态[16]。因为血液受机体的稳态调节,在N-糖蛋白质组层面发生的早期细微变化一般只能短暂存在即可能被清除,然而尿液作为人体废弃或有害物质的集中储存场所,则刚好可以接收、储存并累积机体中的生理及病理因素,并不受机体稳态调节影响,因此尿液在N-糖蛋白质组上的研究意义和价值无法被忽略。除泌尿系统外,尿液蛋白质组研究对消化系统、心血管和内分泌系统等的快速诊断、疗效观察、预后评估以及人群健康保健都有重要价值。同时尿液取样方式完全无侵入性,可重复多次取样,且由于尿液具有更低的生物复杂性,易于分析而被广泛研究[17]。但尿液中糖蛋白质组的生理丰度会因个体间差异和生理条件的变化而波动[18],目前尚无针对健康人群尿液中N-糖蛋白生理丰度范围的研究。因此,难以判断临床疾病生物标志物研究中所发现的糖蛋白差异究竟是来自于正常生理波动、个体间差异还是疾病导致的变化,对后期大规模样本验证提出极大挑战[18]。

在复杂生物样本中,糖基化肽段丰度较低[19-21](在全部蛋白质酶解肽段的占比不高于5%),同时其具有高异质性[8,22]及较宽的动态范围,且糖肽离子化效率较低,因此进行N-糖蛋白/N-糖肽的高效分离富集是实现N-糖蛋白质组深度覆盖的重要前提[23]。目前N-糖蛋白/N-糖肽的富集方法主要包括凝集素纯化法、酰肼化学法、硼酸法和亲水相互作用色谱法等[21,24]。凝集素纯化法主要用于分析具有特定类型聚糖结构的糖蛋白/糖肽,聚糖结构覆盖率低[25]。酰肼化学法[26]反应时间过长,糖链结构易被破坏。硼酸法[9,27]因糖型不同会产生较大富集差别。亲水相互作用色谱法(hydrophilic interaction chromatography, HILIC)[28-30]对聚糖的俘获呈现广谱性、强保留性以及较高稳定性,同时HILIC高效快捷[21],具有不易破坏糖链、溶剂温和以及易兼容质谱等优点,已经被广泛应用于生物样本中N-糖肽的富集[11,31,32]。

本研究从HILIC填料粒径和缓冲溶液两方面优化了HILIC富集条件,并考察评价了N-糖肽富集的选择性与稳定性。之后,我们选取了20例健康男性志愿者和20例健康女性志愿者的中段晨尿对N-糖蛋白/N-糖肽进行了定性、定量及功能分析,并对健康人群男性与女性尿蛋白N-糖基化水平的性别差异探索研究。在此基础上采用非标定量策略对同一个体多时间点及不同个体的尿液N-糖肽的生理丰度波动进行了考察。本工作为基于尿液糖蛋白质组学的功能与机制研究和临床生物标志物筛选奠定了基础[8]。

1 实验部分

1.1 仪器和试剂

1.2 实验方法

1.2.1丙酮提取尿蛋白

取20 mL尿液在4 ℃条件下以3 000 g离心30 min,随后以12 000 g离心30 min,提取上清液。将上清液均分至2个高速离心管中,再加入其3倍体积的预冷丙酮(-20 ℃),混合均匀后放入-20 ℃冰箱中沉淀4 h。取出以后将样本在4 ℃以12 000 g离心30 min,取管中的沉淀加入400 μL 8 mol/L尿素溶液溶解尿蛋白,200 W超声后离心弃去沉淀,取上清液备用。

1.2.2FASP酶解

将所提取的尿蛋白转移至30 kD超滤管中,以14 000 g离心10 min。在尿蛋白样本中加入DTT保持终浓度为10 mmol/L,于37 ℃变性反应4 h。再向样本中加入200 μL 50 mmol/L的IAA,于室温避光处孵育40 min,随后加入200 μL 50 mmol/L的ABC溶液(pH=8.4)清洗置换溶液体系。在尿蛋白中加入0.5 mg/mL胰蛋白酶(胰蛋白酶与蛋白质的质量比为1∶100)于37 ℃酶切,共加入两次,第一次酶切时间为12 h,第二次为4 h。酶切后14 000 g离心10 min收集肽段,并测定浓度,然后移取80 μg肽段,在45 ℃下离心浓缩至3～5 μL,剩余肽段置于-80 ℃冰箱保存备用。

1.2.3HILIC富集N-糖肽

1.3 LC-MS/MS分析方法

采用C18反相毛细管柱(120 mm×150 μm, 1.9 μm),流动相A和B分别为含0.1% (v/v) FA的水溶液和含0.1% (v/v) FA的乙腈溶液,以0.6 μL/min流速洗脱样本90 min。洗脱梯度为8～60 min, 10%B～30%B; 60～79 min, 30%B～42%B; 79～80 min, 42%B～95%B; 80～85 min, 95%B。在正离子模式下采集谱图,一级质谱扫描质荷比范围是300～1 400,分辨率为70 000。二级质谱分辨率为17 500,隔离窗口(m/z)为3,动态排除时间是15 s。

1.4 数据分析

质谱数据在Maxquant 1.5.2.8软件中以Uniprot_human(2015.7, 20207条肽段)为蛋白数据库进行检索。检索参数设置如下:蛋白水解酶为胰蛋白酶,糖蛋白鉴定最大漏切数目为两个,每个肽段最大修饰数设为5个,最大电荷数设为7,可变修饰包括蛋白质N末端乙酰化、甲硫氨酸氧化修饰和脱酰胺18O位点修饰,固定修饰包括半胱氨酸烷基化修饰。母离子的质量容差最大设置为0.000 45% (w/w),二级碎片离子的质量容差最大为0.002% (w/w),蛋白质及肽谱匹配(peptide-spectrum match, PSM)的假阳性率(false discovery rate, FDR)设为1%。

为了筛选尿液中与性别相关的N-糖蛋白,对N-糖肽进行统计学分析。先对每个N-糖肽的丰度值进行转换后进行统计学检验,再以p<0.05和倍数变化(fold change, FC)>4的标准筛选出存在性别特异性的差异蛋白,随后对筛选出的N-糖蛋白进行聚类分析,定量分析不同性别组蛋白质表达水平的差异。通过Uniprot及DAVID对具有显著表达差异的蛋白(前景蛋白)进行细胞定位、生物学过程及功能的基因本体(gene ontology, GO)注释和富集分析,同时通过京都基因与基因组百科全书(kyoto encyclopedia of genes and genomes, KEGG)数据库进行代谢通路分析。

2 结果与讨论

2.1 方法优化及评价

在亲水相互作用色谱法的基础上,优化条件使HILIC富集具有更高选择性和稳定性对于糖蛋白质组研究至关重要。当前N-糖肽提取富集的过程主要包括提取、酶切和富集3个步骤。我们对富集过程中HILIC填料的活化、孵育、清洗及特异性洗脱步骤进行了优化,主要涉及对填料粒径与缓冲溶液等条件的深入考察。

2.1.1HILIC填料粒径筛选

评估了1.5 μm、3 μm和5 μm 3种粒径的填料对N-糖肽富集的效果。在FA富集体系下,清洗液为FA-H2O-ACN (5∶15∶80, v/v/v),洗脱过程包括80 μL 0.5% (v/v) FA洗脱3次,80 μL FA-H2O-ACN (0.5∶94.5∶5, v/v/v)洗脱1次。结果如下:使用1.5 μm粒径进行HILIC富集,N-糖蛋白及N-糖肽平均鉴定量为512和865,选择性为64.08%;使用3 μm粒径填料,N-糖蛋白及N-糖肽平均鉴定量分别为549和942,选择性为73.92%;使用5 μm粒径填料,N-糖蛋白及N-糖肽平均鉴定量分别为575和1 008,选择性为78.27%。HILIC富集法主要基于N-糖肽在流动相与HILIC固定相之间“富水层”分配系数不同而实现分离[33]。如图1所示,采用5 μm粒径的HILIC填料进行富集显示出更高的N-糖蛋白及N-糖肽鉴定量,且5 μm粒径下的富集选择性(N-糖肽鉴定量/肽段鉴定量)及稳定性也最高,因此选择5 μm粒径并进行下一步条件优化。

图 1 同一健康志愿者样本使用3种不同粒径HILIC填料富集后的质谱鉴定规模(n=3)Fig. 1 Scales of MS-based identification after enrichment of different samples from the same healthy volunteer using HILIC fillers of three particle sizes (n=3)

2.1.2缓冲体系优化

为了评价不同缓冲体系的富集效果,我们主要采用TFA与FA两种缓冲体系进行对比考察,涉及ACN浓度、酸浓度和洗脱次数等参数的评估,分别对两种缓冲体系下的清洗液和洗脱液及洗脱步骤进行了优化,并采用N-糖蛋白、N-糖肽、肽段鉴定量及选择性作为评价指标。在TFA体系下对一名健康志愿者的6例晨尿进行质谱分析,平均鉴定到1 142条N-糖肽,621个N-糖蛋白,选择性为78.80%。在FA体系下从相同样本中鉴定到812条N-糖肽,478个N-糖蛋白,平均选择性为58.18%。如图2所示,TFA体系下的N-糖蛋白和N-糖肽的平均鉴定量均高于FA体系,且TFA体系下数据的平均相对标准偏差(RSD)值远低于FA体系。同时TFA体系下具有更高的选择性,说明TFA体系下N-糖蛋白/N-糖肽鉴定覆盖率更高,方法更稳定。研究显示,相比于非离子对试剂,TFA作为离子对试剂通常对N-糖肽具有更高的特异选择性,该实验结果与文献[31,34]相符。

图 2 同一健康志愿者样本在2种富集体系下的质谱鉴定水平(n=6)Fig. 2 Levels of MS-based identification in different samples from a healthy volunteer under two distinct enrichment systems (n=6)

2.2 同一健康人连续时间点样本N-糖蛋白质组分析

为了观察健康人随时间推移的N-糖蛋白质组表达水平变化情况,本研究采集了同一健康青年志愿者连续5天晨尿的N-糖蛋白质组信息。质谱分析共鉴定出665个N-糖蛋白,1 238条N-糖肽,可定位到1 239个N-糖基化位点。根据样本两两比较的相关性分析结果,如图3显示,样本间N-糖蛋白质组Spearman平均相关性系数为0.901,波动范围在0.854～0.942,具有较高相关性,说明同一健康人短时间内尿液N-糖蛋白质组的生理波动比较稳定。

图 3 同一健康志愿者连续5天尿样相关性分析Fig. 3 Correlation analysis of urine samples taken from a healthy volunteer for five consecutive days

2.3 健康人样本糖蛋白质组学分析

本实验在经过伦理委员会审查与批准后进行志愿者招募,参与的受试志愿者均已知悉实验目的且签署知情同意书。本研究采用LC-MS/MS对40例健康志愿者(男性20例,女性20例)尿样进行个体化N-糖蛋白质组鉴定,采用非标定量法对每例尿样中的N-糖肽丰度进行定量,并进行后续差异蛋白筛选及功能分析。

2.3.1尿液N-糖蛋白质组分析

实验从40例尿样中共鉴定到1 016个N-糖蛋白、2 192条N-糖肽和2 194个N-糖基化位点。根据40例尿样的Spearman相关性分析结果(见图4a),40例健康人尿样平均相关性系数为0.475,其中20例男性和20例女性尿样平均相关性系数分别为0.544和0.460(见图4b和4c),男性样本相关性高于女性,也说明尿液中N-糖蛋白质组的生理丰度可能会因存在生理方面差异、个体间差异(如性别差异)而产生波动。N-糖蛋白和N-糖基化位点鉴定量累积曲线如图5所示,其累积鉴定量分别在样本数量达到14例与20例之后趋于饱和,没有继续显著上涨趋势。这为40例样本的N-糖蛋白鉴定及后续定量分析奠定基础。

图 4 不同健康志愿者尿样的相关性分析Fig. 4 Correlation analyses of urine samples from different healthy volunteers a. 40 healthy volunteers; b. 20 healthy males; c. 20 healthy females.

图 5 不同样本量下N-糖蛋白及N-糖基化位点累积鉴定量曲线图Fig. 5 Curves of cumulative identification number of N-glycoproteins and N-glycosylation sites according to sample size

2.3.2尿液N-糖蛋白定量解析

为满足大规模人群尿液N-糖蛋白分析的需求,本研究采用了非标定量法。为了更直观地获取健康人尿液N-糖蛋白质组动态变化范围,我们对40例健康个体的N-糖肽丰度分布情况进行分析,如图6所示,横坐标代表非标定量所得N-糖肽丰度的对数值,纵坐标代表不同丰度区间内N-糖肽的比例分布情况。N-糖肽的丰度动态范围跨越了5个数量级,并且右半部分曲线比左侧走势更加平缓,N-糖肽丰度为正偏态分布。这说明尿液N-糖肽的丰度跨度范围较大,并且该富集鉴定方法可有效覆盖较多低丰度的N-糖肽,对于生物标志物研究至关重要。N-糖肽在低-中-高的丰度范围内所占比例展现为先增加后减少的变化趋势,反映了健康人尿液中N-糖肽丰度的总体分布规律。

图 6 40例健康志愿者尿样N-糖肽丰度的总体分布规律图Fig. 6 Overall distribution of N-glycopeptide abundance in urine samples from 40 healthy volunteers

2.3.3N-糖蛋白功能注释与通路分析

为了初步了解富集到的N-糖蛋白的功能与相关通路,我们对全部N-糖蛋白进行了GO分析和KEGG通路富集分析。GO分析主要包括生物学过程、分子功能及亚细胞定位3个方面。生物学过程中,N-糖蛋白中占比较高的为血管生成、丝裂原活化蛋白激酶(mitogen-activated protein kinase, MAPK)级联、血小板脱粒、细胞形态发生及RNA聚合酶II对转录的负调控等。细胞亚细胞定位为高尔基体膜、细胞外区域、质膜及胞外空间等。主要涉及的细胞功能有钙离子结合、丝氨酸型内肽酶活性、病毒受体活性、跨膜信号受体活性及细胞外基质结构组成等(见附图1a,http://www.chrom-China.com)。其中显著富集的前5个GO条目是血管生成、细胞外区域、病毒受体活性、高尔基体及丝氨酸型内肽酶活性(见附图1b,http://www.chrom-China.com)。KEGG富集分析中,与N-糖蛋白相关的疾病主要有心血管疾病和免疫疾病等,涉及免疫系统、发育与再生等生物系统等(见附图2a, http://www.chrom-China.com)。其中显著富集到的5个通路为细胞黏附分子、补体和凝血级联、溶酶体、轴突导向及细胞因子-细胞因子受体相互作用(见附图2b, http://www.chrom-China.com)。

2.3.4男女人群差异蛋白分析

通过分析40例健康志愿者尿液N-糖蛋白质的表达情况,我们共鉴定到206个差异表达蛋白。如图7a所示,横坐标为女性与男性N-糖肽定量值倍数比的对数值,纵坐标表示p值的负对数。其中蓝色代表相比于男性,女性显示下调的N-糖肽,红色代表相比于男性,女性显示上调的N-糖肽。女性人群有175个N-糖蛋白相比于男性明显下调,有31个N-糖蛋白比男性显著上调。接下来对筛选到的差异N-糖蛋白的表达水平进行聚类分析。如热图7b显示,两者N-糖肽的表达量显示出明显的性别差异,说明性别可能是正常个体尿液中N-糖蛋白质组存在差异的一项重要因素,在临床诊断及生物标志物的筛选中应予以考虑。

图 7 (a)依赖于性别差异表达的N-糖蛋白的火山图与(b)差异表达水平热图Fig. 7 (a) Volcano plot of gender-dependent differentially expressed N-glycoproteins and (b) heatmap of protein expression levels a. In the volcano plot, blue dots represent down-regulated N-glycopeptides in women compared to men, and red dots represent up-regulated N-glycopeptides in women compared to men; b. The heatmap shows the expression levels of N-glycopeptides differentially expressed between men and women.

2.3.5N-糖蛋白功能注释与通路分析

为研究男女人群中存在表达差异的N-糖蛋白在生物学过程、分子功能及亚细胞定位方面的差异,我们对其进行了GO分析。如图8a所示,差异蛋白中占比高的生物学过程包括血小板脱粒、血管生成、骨化、成骨细胞分化与RNA聚合酶II对转录的负调控等。差异蛋白定位的主要亚细胞区域包括细胞外区域、高尔基体膜、细胞质膜与细胞质等。分子功能分析发现钙离子结合、丝氨酸型内肽酶活性、病毒受体活性、细胞外基质结构构成与蛋白酶结合等与差异蛋白密切相关。其中显著富集到的前5个GO条目为血小板脱粒、细胞外区域、骨化、急性炎症反应的正调控及细胞外基质结构组成等(见图8b)。

图 8 基于差异表达的N-糖蛋白的功能注释与通路分析Fig. 8 Functional and pathway analysis of differentially expressed N-glycoproteins a. The results of GO analysis are sorted in ascending order of protein ratio, and the top five items of the categories “biological process”, “cellular component”, and “molecular function” are displayed; b. The results of GO analysis are sorted in ascending order with respect to their p value, and the top 12 GO items are shown; c. The results of KEGG analysis are sorted in ascending order of protein ratio, and include cellular processes, environmental information, human diseases, metabolism, and organismal systems.

此外根据KEGG数据库分析,显著富集到的代谢通路涉及130个N-糖蛋白。在差异蛋白中占比较高的前3个通路为聚糖的生物合成与代谢、辅助因子和维生素代谢及脂质代谢。疾病方面,差异蛋白在心血管疾病、内分泌和代谢疾病、细菌或病毒性传染病及癌症疾病中具有较高比例。生物系统里,在免疫系统、发育与再生与消化系统等占比更丰富(见图8c)。其中显著富集到的前3个代谢通路为细胞黏附分子、补体和凝血级联反应及其他糖降解。

3 结论

综上所述,本研究在优化HILIC富集条件的基础上,通过5例同一健康人的多时间点尿液样本考察了短时间内尿液N-糖蛋白质组的生理性波动情况。并通过对20例健康男性和20例健康女性尿液样本的N-糖蛋白/N-糖肽的定性、定量分析,考察了健康人群尿液N-糖蛋白/N-糖肽的定量范围。进而对健康人群尿蛋白N-糖基化水平进行了性别差异研究,筛选到206个男性和女性的差异N-糖蛋白。通过对差异N-糖蛋白的功能注释及通路解析,挖掘了男女健康人群尿蛋白N-糖基化水平呈现显著变化的分子信息,提示性别差异作为一个影响因素在基于尿液糖蛋白质组的疾病标志物研究中需给以重视。