代谢组学信息获取与数据预处理瓶颈问题探讨

2014-09-12 12:16王敏黄寅张伟张尊建许风国

药学进展 2014年2期

关键词：代谢物组学样本

王敏，黄寅，张伟，张尊建*，许风国**

(1. 中国药科大学药物质量与安全预警教育部重点实验室，江苏南京 210009；2. 中国药科大学天然药物活性组分与药效国家重点实验室，江苏南京 210009；3. 澳门科技大学中药质量研究国家重点实验室，澳门 519020)

·前沿与进展· ADVANCES IN PHARMACEUTICAL SCIENCES

代谢组学信息获取与数据预处理瓶颈问题探讨

王敏1,2，黄寅1,2，张伟3，张尊建1,2*，许风国1,2**

专题：组学与网络药理学

编者按：近年来，随着医药生命科学的不断深入，人们逐渐意识到一些问题：例如，对于肿瘤、心血管疾病、糖尿病及神经性疾病等复杂疾病，仅使用针对单一分子靶点的高特异性化合物难以获得很好的疗效，基于“一个基因，一种药物，一种疾病”的传统药物研发模式已显示出其发展的局限性；又如，中药化学成分的复杂性，导致很多关键性科学问题（中药药效物质基础、作用机制、配伍规律和毒性机制等）不能得到有效解决，使得中药现代化的进程变得尤为艰难。而组学（Omics）和生物信息学（Bioinformatics）等新兴学科的诞生和飞速发展，为上述难题的攻克提供了可能。2013年10月，由中国科协主办、中国药学会和《中国天然药物》编委会承办的中国科协第86期“新观点新学说”学术沙龙在南京召开，多位专家学者就“网络药理学，中药现代化的新思路新方法”这一主题展开了交流，为与会代表奉献了一场思想的盛宴。本刊编辑部特邀出席此次会议的四位专家——中国药科大学许风国教授、中国科学院上海药物研究所周虎研究员、解放军后勤工程学院赵静教授和重庆大学吕海涛研究员作客本期“前沿与进展”栏目，与读者分享他们在组学技术与生物信息学技术研究中的成果和思路，为网络药理学及中药现代化研究的进一步发展提供宝贵的参考。

经过近15年的快速发展，代谢组学已逐步成熟并渗透到生命科学和医学研究领域的各个层面。随着认识的不断深入，各种影响代谢组学研究的细节因素和技术瓶颈逐步被揭示。从生物样品采集与制备、原始数据采集、数据预处理和方法学验证等方面系统探讨了影响代谢组学研究的主要瓶颈问题，以期推动代谢组学研究的精细化和规范化发展。

代谢组学；数据采集；数据预处理；方法学验证

随着人类科学研究思维从“点”到“面”再到“系统”的不断“相位转移”，催生了基因组学、转录组学、蛋白质组学和代谢组学等各种组学技术。其中代谢组学主要研究生物体系在内、外因素（如遗传变异、疾病侵袭、药物干预、环境变化等）作用下，所含内源性小分子代谢物（一般指相对分子质量低于1 000的代谢物）种类、数量变化的动态规律及与生理、病理变化的关联。代谢组学以生物体内参与物质传递、能量代谢和信息传导等代谢调控的全体小分子物质即代谢组（metabolome）为研究对象，这些内源性小分子代谢物处于生物信息流的末端，它们的整体轮廓包含着基因组（genome）、转录组（transcriptome）、蛋白质组（proteome）变化及相互间协调作用的终极信息，能直接反映生物体的表型（phenotype）特征。

代谢组学从1999年Nicholson提出概念，经历了近15年的快速发展，目前已逐步成熟并已渗透到生命科学和医学领域的各个层面，尤其在药物研发[1]、疾病诊断[2-4]、药物毒性和机制研究[5]、植物代谢物研究[6-8]等诸多方面展现出良好的潜能。据统计，全球每年发表的代谢组学相关SCI论文超过3 000篇。中国学者对代谢组学研究也表现出越来越大的热情，2013年国家自然科学基金资助代谢组学相关研究课题180项，基金资助的总量超过1亿元（见图1）。

图1 2003—2013年间国家自然科学基金资助的代谢组学相关科研项目数的逐年统计结果（数据统计截至2013年12月31日）Figure 1 Number of metabolomics-related research projects supported by the National Natural Science Foundation of China between 2003—2013

然而，随着代谢组学研究从粗放向精细的转变，各种影响代谢组学研究的细节因素和技术瓶颈也逐步被揭示。本文结合笔者所在课题组在该领域多年的研究成果，从生物样品采集与制备、原始数据采集、数据预处理和方法学验证等4个方面系统探讨了影响代谢组学研究的主要瓶颈问题，以期推动代谢组学研究的精细化和规范化发展。

1 源于样品的细节因素与相关技术瓶颈

生物样品的采集和前处理是代谢组学研究的初始步骤，生物样本自身的质量往往决定了代谢组学研究结果的可靠性和价值。影响生物样本质量的主要因素包括样本种类、采集时间、采集部位、样本数、前处理方式等。尿样、血清、血浆、组织、细胞等是代谢组学研究常用生物样本，在选取何种生物样本时，既需充分考虑实验的目的、分析方法的特点，同时要兼顾实验动物和人体试验伦理学。实验设计中需要采集足够数量的代表性样本，减少生物样品个体差异对分析结果的影响，应充分考虑实验对象的饮食习惯、性别、年龄、昼夜节律。此外，生物样本前处理方式选择要综合考虑简便性、重现性、代谢物覆盖广等因素。

1.1 血样

作为临床实验和病理学研究最常采用的一种生物样品，血样具有易于采集且蕴含代表生物体整体特征的代谢物信息的特点。但是，血样采集部位、是否加抗凝剂、抗凝剂种类、抗凝剂浓度、放置时间等因素都会影响血样的质量，如在实验设计和操作中对这些因素不加严格控制，必将影响代谢组学研究结果的可靠性。

血样采集过程中是否使用抗凝剂是一个需要慎重考虑的问题，抗凝剂对血样所含代谢物的种类、数量甚至浓度水平都有较大影响。已有研究揭示，血浆所含代谢物数量显著少于血清。在浓度水平方面，小分子多肽、次黄嘌呤、黄嘌呤在血清中含量显著高于血浆，而溶血磷脂酰肌醇在血清中含量却显著低于血浆[9]。Barri等[10]采用UPLCESI-QTOF/MS系统比较血清和分别采用柠檬酸、EDTA和肝素作为抗凝剂得到的血浆样本间的差异。结果表明，血清与采用不同抗凝剂制备的血浆样本在PCA得分图上存在明显分界线，且不同抗凝剂所得血浆样本亦存在一定差异。不同抗凝剂所得血浆样本不但整体代谢轮廓不同，而且特定代谢物如尿酸、酪氨酸、蛋氨酸、尿苷、腺嘌呤、焦谷氨酸等的浓度水平也彼此间差异显著。研究还发现采用柠檬酸和EDTA为抗凝剂时，抗凝剂自身会对共流出物产生离子信号的抑制或增强，影响结果的重现性，并建议选择不加抗凝剂的血清样本或者用肝素血浆样本进行LCESI/MS代谢组学研究。但肝素血浆并不适于GC-MS代谢组学分析，Bando等[11]研究表明，当采用肝素抗凝制备血浆时，肝素衍生化产物的峰会掩盖内源性代谢物。综合现阶段的研究，血清样本似乎是LC/MS和GC/MS代谢组学研究的首选。

对于血样采集，采血部位、放置时间、麻醉剂等因素也是需要考虑和考察的影响因素[9,11]。已有研究证明静脉穿刺和毛细血管采血、腹主动脉和颈静脉等不同取血方式所得血样代谢轮廓图有所差别。血样放置时间包括3个方面：一是从全血采集到离心分取血清或血浆之间的放置时间；二是从分取血清或血浆到冻存的时间；三是从血样冻存到代谢组学分析间的时间。血样放置时间的长短以及可能产生的影响需要认真考察和严格控制。Yin等[12]研究发现，全血室温放置制备血浆代谢物信号强度减弱，其中64个代谢物发生显著性变化，而全血冰浴放置制备血浆4 h内稳定。血浆样品冻融4次，代谢轮廓图仅有很小的变化，表现在个别代谢物上，如左旋肉碱。出于人道主义以及动物伦理学的要求，在进行实验动物取血时往往会先麻醉，因此麻醉剂种类和浓度也是代谢组学研究需要考量的因素，Bando等[11]考察了麻醉剂对血浆样本GC-MS代谢轮廓的影响，发现麻醉剂的使用仅会减少动物的不适反应，不会减低个体差异，乳酸含量在应激的状态（腹主动脉取血、非麻醉状态）下会显著增大。对于血样，溶血是常见现象，溶血程度将严重影响生物标记物筛选结果的可靠性。研究发现，与轻度溶血血浆相比，中度和重度溶血的样本中69个代谢物发生显著性变化，且代谢轮廓图个体差异大[12]。

1.2 尿样

尿液是代谢组学研究中另一个常用的生物样本，具有非破坏性、可重复多次采样以及含有丰富代谢物信息、样品前处理简单等特点。在收集尿液时应注意控制个体状态（如饮食等）、收集的步骤（包括时间、体积和温度）、防腐剂（如叠氮化钠、甲醛等）等因素对实验的干扰。Bando等[11]比较了不同采集时间段和采样条件对尿液内源性物质的影响，结果表明不同采样间隔（4和24 h）所得尿样代谢轮廓谱和个体间离散程度有较大区别，这综合了昼夜节律、样本放置等因素的影响。此外，Bando等还发现，与常温相比，在冰上收集尿液，个体差异小，更有利于代谢组学分析。在尿液的收集和保存过程中，为抑制细菌的生长和微生物降解作用，Want等[13]建议在冰上收集24 h的大鼠尿液，同时在收集容器中加入抑菌剂叠氮化钠。

2 源于信息获取的细节因素与相关技术瓶颈

在代谢组学研究中，分析方法是连接原始生物样本和生物标记物以及相关代谢通路的桥梁，因此代谢组学研究中采集信息的分析方法应能够全面、无偏向性地反映生物样本的代谢轮廓。一个理想的代谢组学分析方法或分析策略应具备以下几点：1）无偏向性：涵盖各种代谢物类型，可测浓度范围广泛；2）高通量：样本处理简单或者不需要样品前处理；3）稳定性和重现性好；4）可同时定性定量测定代谢物。GC/MS、LC/MS和NMR是目前代谢组学研究中信息获取的3种主要分析方法和手段，它们各有优缺点，在实际应用中，为实现代谢物的更广覆盖，这3种方法一般多组合使用。

2.1 基于GC/MS的代谢组学信息获取

GC/MS的主要优点是灵敏度高，色谱分离重现性和质谱检测重现性高，当采用电子轰击源（EI）时有标准质谱图库辅助代谢物鉴定，GC/MS成为代谢组学研究支柱分析平台之一[14-16]。然而，GC/MS分析对象仅限于挥发性好和热稳定性高的代谢物，由于大多数内源性代谢物如氨基酸、脂肪酸、胺类、糖类、甾体等是非挥发性的极性化合物，不能直接进样分析，需要对样品进行化学衍生化，转化成相应的挥发性衍生物以满足GC/MS检测。硅烷化、酰基化和烷基化是3种常用的衍生化方式，其中硅烷化适用于所有含活性氢的化学官能团（如―COOH、―OH、―NH―和―NH2）且相对操作简易，GC/MS代谢组学常采用双（三甲基硅烷基）三氟乙酰胺（BSTFA）和N-甲基-N-（三甲基硅烷基）三氟乙酰胺（MSTFA）试剂进行硅烷化[4,17]。由于羰基和BSTFA或MSTFA硅烷化试剂反应缓慢且易发生异构化，因此在样品进行硅烷衍生化之前常常先进行甲氧胺肟化反应。

样品前处理步骤越多，引入误差的概率就越大。肟化及硅烷衍生化反应过程所涉及的各个因素（如反应时间、温度、衍生化试剂类型等）都会影响GC/MS信息获取的质量，其最为严重的后果就是导致“多峰多来源”的现象。所谓“多峰”是指一个化合物在GC/MS色谱图上表现为多个色谱峰，而“多来源”是指一个色谱峰来源于几个不同的化合物。造成GC/MS“多峰多来源”的原因涉及样品制备和分析整个过程，包括衍生化过程中所产生的副产物，不完全衍生化，溶液中或衍生化过程中化合物构型转变，提取、衍生化和气化室中样品的降解等[18-19]。“多峰多来源”问题已成为GC/MS代谢组学研究中的一大技术瓶颈，它既影响后续数据处理，曲解生物标记物和代谢通路，又影响代谢组学结果生物意义的阐释。

2.2 基于LC/MS的代谢组学信息获取

与GC/MS相比，LC/MS具有分离效能高、分析速度快、检测灵敏度高的特点，同时不受样品挥发性和热稳定性的限制，无需衍生化即可分析体液中的极性化合物，应用范围广。相对于常规样品分析，代谢组学的研究对象是更为复杂的生物样品基质，如血浆、尿样、组织等，并且样品数量巨大，这就要求液相色谱具有更加高效、快速、灵敏的性能。为满足上述要求，研究者们常采用小颗粒填料（通常小于2 μm）的超高效液相色谱（UPLC）进行生物样品分析。UPLC与MS联用为代谢组学提供更加高效灵敏的分析平台。

在目前基于LC-MS的代谢组学信息获取中主要技术挑战包括两个方面。1）代谢物的鉴别：不同于GC/MS分析具有标准谱图库用于代谢物结构鉴定，LC/MS分析中代谢物的鉴别主要以待测物质的准确质荷比为基础，在网络数据库[如HMDB（Human Metabolome Database，网址：http://www.hmdb.ca/）等]中进行匹配分析，来确定代谢物结构，但这种方式极易造成假阳性结果。LC/MS分析中保留时间和碎片质谱图在不同仪器系统间是不可重现的，这主要是由于液相色谱柱本身的化学性质及仪器厂家的设计不同导致。因此，在没有可供定性鉴别的标准谱库的情况下，代谢物结构解析存在较大的难度。为合理准确地确证代谢物，首先应判断代谢物的离子类型，再结合准确质荷比在数据库中进行匹配，分析代谢物的二级或多级裂解规律，初步确证代谢物，最后和标准品或类标准品（即与代谢物具有同一裂解途径、同一中性丢失或相同离子碎片的物质）进行核对。2）分析方法上对化合物的偏向性：弱极性的化合物，如磷脂、非极性氨基酸，在反相色谱柱（RPLC）保留行为良好，而极性化合物会在死时间出峰，不能很好地分离和检测。Spagou等[20]比较了25个代谢物在RPLC和亲水作用色谱柱（HILIC）上的保留行为，发现HILIC可以提供在RPLC上保留差的极性化合物的信息，作者认为结合分析RPLC和HILIC的数据信息可以更为全面地研究代谢组，但这无疑会成倍地增加代谢组学研究工作的量和难度。

2.3 基于NMR的代谢组学信息获取

作为一种结构分析的有力工具，NMR主要优势在于能够对样品实现无创性、无偏向性的检测，样品不需要繁琐处理，单位样品检测成本低，重现性良好[21]。对于NMR的代谢组学信息获取，目前存在的主要问题是由于分段切割积分造成的变量与代谢产物不对应性。NMR图谱分析与信息提取技术主要采用分段积分（Binning）的方法。在对NMR获得的数据进行分析时，首先要根据检测样本的NMR谱图生成m行（每行代表1个样本）n列（每列对应样本的1个变量）的原始数据矩阵，由于每个样本数据量非常大，为了便于分析，通常需要先将谱图数据分段积分，降低矩阵的维数。分段积分就是把NMR图谱按一定的步长（如0.04 ppm）切割成数百个小单元，并对每个单元进行积分，每个单元对应1个变量，以此构建数据矩阵。这种方法存在的最大问题是，它完全由软件自动完成，可能会把1个完整的信号峰割裂成几段或者把不同峰的部分积分到一起，得到的变量可能与代谢物没有直接关联。此外，由于化学位移易受酸碱度的影响，不同样本间酸碱度的差异导致了相同信号化学位移的不同，这就使得NMR数据更加敏感复杂，并最终影响生物标记物筛选和生物学意义的阐释[22]。

3 源于数据预处理的细节因素与相关技术瓶颈

采用仪器分析得到的原始图谱并不能直接用于化学计量学分析，还需要对数据预处理。将原始图谱转变为数据矩阵，充分抽提所获数据中的潜在信息，消除或减小实验和分析过程中带来的误差是代谢组学数据预处理的主要目的。代谢组学数据预处理主要包括以下几个方面：峰识别、提取、排列、对齐、合并、共有峰筛选等；缺失值的填补；归一化（normalization）；标尺化（scaling）等步骤。

随着代谢组学的迅猛发展，用于数据前处理的商品化软件也应运而生，由于NMR、GC/MS和LC/MS图谱中信息表现形式不同，每种软件的适用对象也不同，例如XCMS、MZmine、Metalign、Metaboanalysist等可处理GC/ MS和LC/MS数据，MestreNova、Xwin NMR、MestReC、AMIX等可处理NMR数据。虽然软件可辅助进行数据预处理，提高效率，但所得结果的可靠性值得探究。Koh等[23]利用GC/MS分别对混合标准品和实际生物样本（膀胱癌和健康受试者的尿液）采集数据，采用Calibration feature、Statistical Compare、MetAlign、 MZmine这几种软件对数据进行预处理，比较不同软件的峰对齐准确性，发现不同的软件对混合标准品和实际生物样品图谱峰对齐的准确度都不能达到100%，且存在差异，对实际生物样本数据处理后所构建的OPLS-DA模型的预测能力也存在差异。这一研究结果提示商品化软件的峰对齐算法不同且存在不足，需进一步改进，实际工作中需慎重选择合适的软件处理图谱，或者可采用多种软件进行交互验证。此外，在软件自动处理数据的基础上，手动去核对信息，以确保数据预处理的准确度也是必不可少的环节。

3.1 归一化

生物样本中代谢产物种类繁多，且浓度差异很大（达几个数量级），从生物学角度分析，浓度高的代谢物不一定比浓度低的代谢物具有更重要的生理作用；相反，某些低浓度的物质可能在指示药物作用或疾病过程中起着不容忽视的作用。因此，为了保证检测到的所有代谢物能被公平地分析，需要对数据进行归一化。

在尿样的分析中，相同采集间隔，受饮水量及其他生理因素影响，尿液的体积存在较大的差异，其所含代谢物浓度也会存在较大的差异。因此，需要对数据进行归一化处理以消除尿液体积造成的变异。目前尿样代谢组学研究主要有4种归一化方法：体积法、肌苷法、渗透浓度法、总面积法。Warrack等[24]采用高低剂量给药建立大鼠磷脂质病模型（雌雄各半），对收集的尿液进行LC-MS分析，比较了不归一化和分别采用4种归一化方法构建PCA模型的聚类情况，渗透浓度法、总面积法能够将4组样品分开，其他3种方法则不能有效区别4组样品。

若代谢组学研究对象是细胞，那么归一化以减少细胞数目差异所造成的变异也是必要的，Silva等[25]比较了细胞提取物代谢组学研究中3种归一化方法：细胞计数法、蛋白含量法及DNA法，DNA法归一化由于不需要单独的平行样品，且在不同细胞系和时间序列分析的准确性、重现性都较好，作者推荐使用DNA法对细胞代谢组学数据进行归一化处理，但如果实验中使用了破坏细胞生长周期的DNA破坏剂，此时笔者更推荐使用细胞计数法进行校正。

3.2 标尺化

与归一化是针对同一样本不同变量的预处理方式不同，标尺化是针对不同样本同一变量的处理。生物体在内、外因素（如遗传变异、疾病侵袭、药物干预、环境变化）作用下，代谢物浓度会发生倍数级变化，在统计分析前需将所有变量的响应强度大小统一在同一个标尺上，避免变量自身响应强度差异对模型的影响，这个过程即是数据标尺化的过程。常用的标尺化方法有：均值中心法（meancentering）、自标尺化（autoscaling）、Pareto scaling、逻辑转换法（log transformation）、Power transformation等[26]。均值中心法是将每个变量减去该变量的平均值，对变量的大小没做任何变化，即数值大的变量仍然占有较大的权重；自标尺化以标准差为标尺化因子，自标尺化后每个变量的标准差为1，具有相同权重，但是这个方法会放大由于仪器或者其他因素导致的系统偏差；Pareto scaling和自标尺化很相似，以标准差的平方根为标尺化因子，在一定程度上消除了变量响应的影响又不至于放大系统偏差，但是这种方法对变化大的变量很敏感；逻辑转换法不同于上述方法，是对变量的一种非线性转化，可以减少变量的方差差异性，但是无法处理0值变量。对于同一组数据，Masson等[27]采用均值中心法和Pareto scaling处理后，高丰度变量变异较大，PCA的分类情况过度取决于高丰度的变量，而忽视低丰度变量的分类作用，采用逻辑转换法进行标尺化之后，数据的变异呈均匀分布，高低丰度变量对模型分类贡献在同一标尺上。每一种标尺化方法都有其优缺点，对于一组数据，选用合适的标尺化方式能在一定程度上确保数据分析结果的合理性。

4 方法学验证相关细节因素与技术瓶颈

方法学验证是整个实验数据可靠的基本保证，是基于无歧视分析的非目标性代谢组学和基于目标代谢物定量的目标性代谢组学研究的基础。

目标性代谢组学研究是针对某类生物标志物或者某条完整的代谢通路进行精细化、定量化的研究。这类代谢组学研究大多参考FDA生物样品分析的方法学验证指导原则[2,28]，一般从特异性、标准曲线和定量范围、定量下限、精密度和准确度、稳定性等几方面考察，这部分方法学验证的方法和评价标准都比较成熟明确。

非目标性代谢组学旨在无歧视分析所有内源性代谢物，目前主要有GC-MS、LC-MS、NMR这3种分析平台。NMR是相对稳定和可重现的分析方法[22]，对于基于LC-MS和GC-MS代谢组学方法学验证，众多研究者都进行了积极的探索，目前主要采用基于质控（quality control，QC）样品的方法学验证[20,29-33]。目前主要有3种类型的QC样品：样品中各类成分代表性物质的混合标准品QC样品，等量待分析样品均匀混合的pooled QC样品及商品化替代QC样品[4,17]。对于混合标准品QC样品，一方面由于非目标代谢组学所研究的样品成分往往是未知的，要获得各类成分标准品在实际工作中比较困难，另一方面同一类成分选取一两个成分标准品，并不具有完整的代表性，所以笔者不推荐采用混合标准品QC样品进行方法学验证。基于pooled QC样品的代谢组学方法学验证在目前代谢组学研究中应用最为广泛。Pooled QC样品通过取相同量的待分析样品（如血浆、尿液等）均匀混合得到，被认为可以反映在分析检测过程中可能遇到的所有成分，代表待分析样品的平均情况。但是对于大规模代谢组学研究，如HUSERMET project，经年累月，为确保样品稳定，部分样品分析和数据获取是在完成所有样品采集之前进行的，pooled QC样品是无法制备获取的，此时就采用商品化替代QC样品。商品化替代QC样品并不是实际分析样品，常常会损失一些代谢物信息。

仪器从开机到平衡稳定需要一段时间，Spagou等[20]通过PCA模型中的第一主成分时间序列相关性图谱（time series dependency of the first component）说明前几针样品的保留时间和质谱响应变异较大，所以一般会在正式开始实验前进5～10针的调节QC（conditioning QC）样品使仪器状态达到稳定，以消除保留时间和质谱响应变异。

在大批量未知样品分析时，QC样品被均匀地插入样品分析过程中，以验证进样期间分析系统的稳定性。常用非监督的主成分分析（PCA）的得分图（score plot）和第一主成分时间序列相关性图谱展示分析方法的稳定性[20,33]。一个稳定的分析方法，QC样品在PCA得分图上聚集度较好，然而QC样品在PCA得分图上聚集并不一定能说明分析方法稳定。因为PCA模型包含未知样品和QC样品，若待分析样品的差异性很大，仪器系统不稳定、色谱柱老化等原因造成的微小变异性会被待分析物巨大的差异掩盖，在PCA得分图上并不会展现出来。PCA模型中的第一主成分时间序列相关性图谱从另一个角度说明分析过程中分析方法的变异，进一步确认方法的稳定性。方法稳定可靠的前提下对样品分析，可以反映遗传变异、疾病侵袭、药物干预、环境变化等因素所导致的代谢差异，从而找出相应的生物标记物和代谢通路。

此外，代谢组学研究中，特别是大规模大批量代谢组学研究，例如流行病研究，生物样品采集后常常不能实时分析，样品需要先保存起来。另外由于偶发性的仪器故障等原因，样品可能需要再次分析。样品分批后放入进样器中按进样序列分析需等待一段时间。实际工作中应根据具体情况，验证保存和分析过程中样品的稳定性，选择性地对生物样品在进样器、冰冻、冻融条件下以及不同存放时间进行稳定性考察，以确定样品的存放条件和时间。

5 展望

目前，代谢组学研究已逐步成熟，并逐渐实现了从粗放型向精细化的转变。关注和研究生物样品采集与制备、数据采集、数据预处理与统计分析以及方法学验证每个操作步骤中所包含的“瓶颈问题”，建立通用、可靠、严谨的研究规范，保证代谢组学研究结果的可靠性和可重现性是当前的首要任务。

此外，代谢组学作为系统生物学的重要组成部分，其未来主要发展的趋势还包括：从非目标性代谢组学到目标代谢组学，从宏观到微观研究；将细胞、动物研究所获得研究结论有效可靠地转化到人体样本研究；发展更为广谱的、原位、即时、通用的检测方法，同时完成高丰度代谢物和低丰度代谢物的检测；代谢组学数据与其他组学（如基因组学、转录组学、蛋白质组学等）多组学数据的融合、关联分析等。

[1]Zhou W J, Song J Z, Fu W W, et al. Chemical comparison of two dosage forms of Hemp Seed Pills by UHPLC-QTOF-MS/MS and multivariate statistical techniques [J]. J Pharm Biomed Anal, 2013, 84: 59-68.

[2]Struck W, Siluk D, Yumba-Mpanga A, et al. Liquid chromatography tandem mass spectrometry study of urinary nucleosides as potential cancer markers [J]. J Chromatogr A, 2013, 1283: 122-131.

[3]Loftus N J, Lai L, Wilkinson R W, et al. Global metabolite profiling of human colorectal cancer xenografts in mice using HPLC-MS/MS [J]. J Proteome Res, 2013, 12 (6): 2980-2986.

[4]Jiang M, Chen T, Feng H, et al. Serum metabolic signatures of four types of human arthritis [J]. J Proteome Res, 2013, 12 (8): 3769-3779.

[5]Geng L L, Ma C, Zhang L, et al. Metabonomic study of Genkwa Flosinduced hepatotoxicity and effect of herb-processing procedure on toxicity [J]. Phytother Res, 2013, 27(4): 521-529.

[6]Zhu H B, Wang C Y, Qi Y, et al. Fingerprint analysis of Radix Aconiti using ultra-performance liquid chromatography-electrospray ionization/tandem mass spectrometry (UPLC-ESI/MSn) combined with stoichiometry [J]. Talant, 2013, 103: 56-65.

[7]Wolfender J L, Rudaz S, Choi Y H, et al. Plant metabolomics: from holistic data to relevant biomarkers [J]. Curr Med Chem, 2013, 20 (8): 1056-1090.

[8]Sun H, Wang M, Zhang A H, et al. UPLC-Q-TOF-HDMS analysis of constituents in the root of two kinds of Aconitum using a metabolomics approach [J]. Phytochem Anal, 2013, 24 (3): 263-276.

[9]Denery J R, Nunes A A, Dickerson T J. Characterization of differences between blood sample matrices in untargeted metabolomics [J]. Anal Chem, 2010, 83 (3): 1040-1047.

[10]Barri T, Dragsted L O. UPLC-ESI-QTOF/MS and multivariate data analysis for blood plasma and serum metabolomics: effect of experimental artefacts and anticoagulant [J]. Anal Chim Acta, 2013,768: 118-128.

[11]Bando K, Kawahara R, Kunimatsu T, et al. Influences of biofluid sample collection and handling procedures on GC-MS based metabolomic studies [J]. J Biosci Bioeng, 2010, 110 (4): 491-499.

[12]Yin P Y, Peter A, Franken H, et al. Preanalytical aspects and sample quality assessment in metabolomics studies of human blood [J]. Clin Chem, 2013, 59 (5): 833-845.

[13]Want E J, Wilson I D, Gika H, et al. Global metabolic profiling procedures for urine using UPLC–MS [J]. Nat Protoc, 2010, 5 (6): 1005-1018.

[14]Phua L C, Koh P K, Cheah P Y, et al. Global gas chromatography/ time-of-flight mass spectrometry (GC/TOFMS)-based metabonomic profiling of lyophilized human feces [J]. J Chromatogr B, 2013, 937: 103-113.

[15]Liu Y M, Cheng Y, Chen T L, et al. GC/TOFMS analysis of endogenous metabolites in mouse fibroblast cells and its application in TiO2nanoparticle-induced cytotoxicity study [J]. Chromatographia, 2012, 75 (21/22): 1301-1310.

[16]Wei C M, Li Y, Yao H, et al. A metabonomics study of epilepsy in patients using gas chromatography coupled with mass spectrometry [J]. Mol Biosyst, 2012, 8 (8): 2197-2204.

[17]Dunn W B, Broadhurst D, Begley P, et al. Procedures for large-scale metabolic profiling of serum and plasma using gas chromatography and liquid chromatography coupled to mass spectrometry [J]. Nat Protoc, 2011, 6 (7): 1060-1083.

[18]Xu F G, Zou L, Ong C N. Experiment-originated variations, and multi-peak and multi-origination phenomena in derivatization-based GC-MS metabolomics [J]. Trends Analyt Chem, 2010, 29 (3): 269-280.

[19]Xu F G, Zou L, Ong C N. Multiorigination of chromatographic peaks in derivatized GC/MS metabolomics: a confounder that influences metabolic pathway interpretation [J]. J Proteome Res, 2009, 8 (12): 5657-5665.

[20]Spagou K, Wilson I D, Masson P, et al. HILIC-UPLC-MS for exploratory urinary metabolic profiling in toxicological studies [J]. Anal Chem, 2010, 83 (1): 382-390.

[21]Lindon J C, Keun H C, Ebbels T M, et al. The consortium for metabonomic toxicology (COMET): aims, activities and achievements [J]. Pharmacogenomics, 2005, 6 (7): 691-699.

[22]Emwas A H M, Salek R M, Griffin J L, et al. NMR-based metabolomics in human disease diagnosis: applications, limitations, and recommendations [J]. Metabolomics, 2013, 9 (5): 1048-1072.

[23]Koh Y, Pasikanti K K, Yap C W, et al. Comparative evaluation of software for retention time alignment of gas chromatography/time-offlight mass spectrometry-based metabonomic data [J]. J Chromatogr A, 2010, 1217 (52): 8308-8316.

[24]Warrack B M, Hnatyshyn S, Ott K H, et al. Normalization strategies for metabonomic analysis of urine samples [J]. J Chromatogr B, 2009, 877 (5/6): 547-552.

[25]Silva L P, Lorenzi P L, Purwaha P, et al. Measurement of DNA concentration as a normalization strategy for metabolomic data from adherent cell lines [J]. Anal Chem, 2013, 85 (20): 9536-9542.

[26]van den Berg R A, Hoefsloot H C, Westerhuis J A, et al. Centering, scaling, and transformations: improving the biological information content of metabolomics data [J]. BMC genomics, 2006, 7: 142.

[27]Masson P, Spagou K, Nicholson J K, et al. Technical and biological variation in UPLC-MS-based untargeted metabolic profiling of liver extracts: application in an experimental toxicity study on galactosamine [J]. Anal Chem, 2011, 83 (3): 1116-1123.

[28]Huang Y, Tian Y, Li G, et al. Discovery of safety biomarkers for realgar in rat urine using UFLC-IT-TOF/MS and1H NMR based metabolomics [J]. Anal Bioanal Chem, 2013, 405 (14): 4811-4822.

[29]Gika H G, Macpherson E, Theodoridis G A, et al. Evaluation of theflight mass spectrometry [J]. J Pharm Biomed Anal, 2010, 52 (1): 129-135.

[32]Tan Y X, Yin P Y, Tang L, et al. Metabolomics study of stepwise hepatocarcinogenesis from the model rats to patients: potential biomarkers effective for small hepatocellular carcinoma diagnosis [J]. Mol Cell Proteomics, 2012, 11 (2): 1070-1083.

[33]Zelena E, Dunn W B, Broadhurst D, et al. Development of a robust and repeatable UPLC-MS method for the long-term metabolomic study of human serum [J]. Anal Chem, 2009, 81 (4): 1357-1364. repeatability of ultra-performance liquid chromatography–TOF-MS for global metabolic profiling of human urine samples [J]. J Chromatogr B, 2008, 871 (2): 299-305.

[30]Chen Y H, Xu J, Zhang R P, et al. Assessment of data pre-processing methods for LC-MS/MS-based metabolomics of uterine cervix cancer [J]. Analyst, 2013, 138 (9): 2669-2677.

[31]Lv Y H, Liu X R, Yan S K, et al. Metabolomic study of myocardial ischemia and intervention effects of compound Danshen Tablets in rats using ultra-performance liquid chromatography/quadrupole time-of-

[专家介绍] 许风国：1980年1月生，博士，教授，江苏特聘教授，博士生导师。分别于2002年、2005年和2008年获得中国药科大学药物分析学专业学士、硕士和博士学位；2008年8月—2012年3月先后在新加坡国立大学医学院和公共卫生学院从事博士后研究工作；2012年3月全职回国，现任中国药科大学药学院教授、药物质量与安全预警教育部重点实验室“药物代谢组学”研究方向学术带头人。

许风国教授现已入选江苏特聘教授计划和教育部新世纪优秀人才支持计划；为江苏省“创新团队计划”领军人才。主持国家自然科学基金项目（No.81302733）、教育部科学技术研究（科学技术类）项目（No.113036A）等国家及省部级科研项目4项；担任Bioanalysis杂志（SCI影响因子3.223），Chinese Medical Journal（SCI影响因子0.864），Asian Journal of Chemistry（SCI影响因子0.266）等多家SCI收录学术期刊的编委。已发表相关学术论文50余篇，其中SCI收录论文39篇，累计影响因子＞100。

许风国教授课题组从事药物代谢组学与分析毒理学方面的研究，近年来依托色谱、光谱及其联用技术，围绕代谢性疾病、药源性疾病，积极开展创新性药物分析技术方法与生物学、医学、化学、药理毒理学的交叉研究，逐步形成稳定的“药物代谢组学”研究方向，主要研究领域包括：1）疾病及药物干预的网络靶标发现与验证；2）药源性疾病发生机制与预测；3）中西药联用减毒增效的作用机制。

Discussion on Bottleneck Problems in Data Acquisition and Pre-Processing of Metabolomics

WANG Min1,2, HUANG Yin1,2, ZHANG Wei3, ZHANG Zunjian1,2, XU Fengguo1,2
(1. Key Laboratory of Drug Quality Control and Pharmacovigilance Affiliated to Ministry of Education, China Pharmaceutical University, Nanjing 210009, China; 2. State Key Laboratory of Natural Medicines, China Pharmaceutical University, Nanjing 210009, China; 3. State Key Laboratory for Quality Research in Traditional Chinese Medicines, Macau University of Science and Technology, Macau 519020, China)

Metabolomics has been matured and penetrated into all aspects of life sciences and medical research after 15 years’ development. With the deepening of understanding, factors influencing metabolomics research were also gradually revealed. In this paper, the main technical bottleneck problems of metabolomics in sample collection & preparation, data acquisition, data pre-processing and method validation have been systematically summarized and discussed, aiming to promote the refinement and standardization development of metabolomics study.

metabolomics;data acquisition; data pretreatment; method validation

Q591

1001-5094(2014)02-0081-08

*接受日期：2013-12-07

项目资助：国家自然科学基金项目（No.81274108, No.81302733）；教育部科学技术研究项目（No.113036A）；教育部新世纪优秀人才支持计划（No. NCET-13-1036）；江苏省创新团队计划

*通讯作者：张尊建，教授；研究方向：药物现代仪器分析； Tel：025-83271454； E-mail：zzj@cpu.edu.cn

**通讯作者：许风国，教授，江苏特聘教授；研究方向：药物代谢组学与分析毒理学；Tel：025-83271021； E-mail：fengguoxu@gmail.com