一种面向多组分定量的通用谱图解析方法

2017-10-19 09:17管启圆李姗姗蒋潇潇徐静娟陈洪渊
分析科学学报 2017年5期
关键词:混合物信噪比组分

管启圆, 李姗姗, 蒋潇潇, 康 斌, 徐静娟, 陈洪渊

(生命分析化学国家重点实验室,南京大学化学化工学院,江苏南京 210023)

多组分分析在化学分析中非常重要,它与工业生产、食品和药物分析、材料测定、科学研究等诸多领域有着密切的关系[1 - 3]。多组分分析的最终目的不仅仅是了解复合样品中的所有成分,而且还需要定量显示混合物中每种成分的含量。混合物中不同组分的鉴别通常需要与每个组分的特征理化性质相关的指纹信息,诸如拉曼光谱(RS)、傅立叶变换红外(FT-IR)光谱,紫外-可见(UV-Vis)光谱、核磁共振(NMR)和质谱(MS)等仪器分析方法可以提供独特的、代表不同化学成分的谱图数据,这使得我们能够通过它们的谱图特征来区分鉴定不同的成分[4 - 7]。然而,在实践中如果化合物的结构太复杂,或者一些组分在谱图中的信号太相似,则很难直接从它们的化学谱图中直接分辨。为了克服这个困难,一些多元分析方法,如主成分分析(PCA)、线性判别分析(LDA)和偏最小二乘判别分析(PLS-DA)等被用来处理庞大复杂的谱图数据[8 - 12]。其中,PCA是一种数学投影方法,它将原始谱图数据变换成包含PC scores的新的矩阵空间,其中原始数据按照方差从最大到最小进行重排,使得整个谱图被分离为“信息”部分和“噪音”部分。“噪音”部分可以被弃置,因此数据的维度大大减少,而剩余的“信息”部分则可以用于分类或区分不同的样本。由于其在样品分类区分方面简单、快捷、高效等优势,到目前为止已经有大量使用PCA对各种谱图进行不同成分辨别和分类的报道[13 - 16]。

因此,为适应多组分体系中各组分快速定量的需要,这项工作中我们展示了一个定量主成分分析(quantitative PCA,qPCA)方法,用于在混合物中各组分谱图已知的前提下,快速根据实测的混合物谱图确定混合物样品中每个成分的比例。该方法通过PCA同时处理每个组分和目标混合物的谱图,从混合物谱图中分解出各组分的特征峰信号。计算得到PC scores后,混合物中每种组分的比例可以从描绘混合物和每种组分之间的相对关系的PC scores图中计算得到。这种方法使我们能够获得未知混合物成分比例信息的可靠结果,而无需进行任何谱图解析。首先我们通过模拟谱图评估了信噪比、成分数量、特征变量数量对qPCA计算准确度的影响。使用混合氨基酸作为模型,我们从实验角度验证了qPCA在UV-Vis、FT-IR、RS、NMR和MS这5种分析方法上的实用性,并且还讨论了其限制。结果表明,这种方法可以作为一个通过谱图解析混合物成分含量的通用策略,可应用于许多相关领域。

1 实验部分

1.1 化学品和样品预处理

购自Sigma-Aldrich(中国上海)的苯丙氨酸(Phe)、色氨酸(Trp)和酪氨酸(Tyr)被选为三种组分,并且还制备了10组它们不同物质的量比混合物。所有13个样品被研磨以使得样品分布均匀并各分成5组,每组样品的量分别为约5 mg、2 mg、2 mg、4 mg和1 mg。为了收集RS,将第一组中的13个样品置于锡箔上,并且将每个样品的表面变平,以确保可靠、可重复的谱图采集。 将第二组中的样品分别和大约200 mg KBr一起研磨,然后在FT-IR光谱采集之前在机械压力机中压制以形成半透明片状。在用UV-Vis分光光度计分析之前,将第三组中的每个样品溶解在200 mL去离子水中。通过分析第四组中的样品获得NMR光谱数据。该组中的每个样品溶解在0.5 mL氘代水中,然后转移到NMR管中进行1H-NMR分析。将第五组中的样品溶解在去离子水中,并稀释至最终浓度约为 1 mg·L-1用于MS分析。

1.2 RS、FT-IR、UV-Vis、NMR和MS谱图的采集

RS使用装配有785 nm激发激光,以及具有物镜50×/0.75 N.A.显微镜的Renishaw inVia-Reflex Raman光谱仪。使用Nicolet 6700 FT-IR光谱仪(Thermo Scientific)收集红外光谱。选择UV-3600UV-Vis-NIR分光光度计(Shimadzu Corporation)作为紫外光谱的采集仪器。使用Bruker Avance Ⅲ400 MHz核磁仪(Bruker Corporation)来获取1H-NMR谱。最后,采用装备有电喷雾离子源(ESI)的Agilent 6530B Q-TOF MS仪(Agilent Technologies Inc)收集质谱数据。每种仪器分析方法均获得每个样品的20张谱图,并将所有谱图从0至1归一化。

1.3 数据分析

谱图数据用MATLAB R2015b(Mathworks,Natick,MA)分析和处理,建模分析也是一样。还用MATLAB产生了一系列不同组分数、信噪比、特征峰数目的模拟谱图,用于评估这三个因素对qPCA计算结果的影响。对于每个确定的成分数、信噪比、特征峰数目取值组合,除产生相应的成分谱图之外,还另外生成1 000组对应于各个成分的随机比例组合。对于每个比例组合,通过将每个生成的组分谱与对应比例相乘,然后相加得到该比例构成下的混合物谱。然后将得到的混合物及其各成分谱排在一起,并且将5 000个随机噪音信号添加到每个行向量,以形成包含大量随机噪音信号的常规谱。随机噪音的强度由信噪比决定。最后用qPCA处理所得谱图计算出比例,然后与实际混合比例进行比较。

处理RS、FT-IR、UV-Vis、NMR和MS谱图的方法相同,这里选择RS作为实例来阐明我们的数据处理方法。将每个样品的所有谱图进行面积归一化并求取平均以获得代表性光谱。接着将三个氨基酸的代表性谱图乘以在混合物中的对应比例,然后将3个乘积加起来以形成自动面积归一化的理论混合物谱图。校准曲线通过将理论混合物谱图除以实验混合物谱图得到。依次选择10个比例组合中的每一个用于交叉验证,将相应的实验谱图乘以由其余9个比例组合计算得到9条校准曲线的平均值,以产生校准谱图,然后使用10组校准谱图来计算比例。最后,通过计算每个实际比例和某个计算值之间的平均绝对偏差来进行准确度评价。

MCR-ALS分析使用了由Tauler等人开发的工具[17]。

2 结果与讨论

2.1 数学模型和计算策略

在稳定体系中,理论上混合物可以被认为是其所有组分的线性组合,并且系数是它们在混合物中的百分含量,范围从0到1,总和为1。如果能够获得混合物和其所有成分的足够信息,我们就可以计算各系数。具体地说,如果所有样品组成结构都可以完全由它们的谱图体现,而没有不相关的信号,并且信号强度与每个组分的浓度线性相关,则我们可以直接用这些谱图来计算系数。

假设该混合物由n组分形成,并且给定检测范围,无论是各纯组分还是混合物的谱图都可以存储为列值是对应于“x轴”的相应位置强度的行向量。组分和混合物的光谱数据可以逐行排列(图1A),则我们用以下两个方程来计算混合物内各个成分比例值K:

CTK=MT

(1)

suK=1

(2)

其中,su是向量求和计算,上标T表示转置。将各纯组分谱图C和混合体系谱图M逐行排列成矩阵A,然后PCA算法应用于A以获得PC scores(图1B)。

图1 PCA处理前后数据结构展示。(A) 所有组分(红色)及其混合物(蓝色)的谱图分别构成了矩阵C和矩阵M,C、M并排构成了矩阵A;(B) 矩阵A经PCA处理之后,分别得到组分(红色)和混合物(蓝色)的PC scores 矩阵SC、SMFig.1 Data structure illustrations.(A) Spectra alignment before a PCA transformation.Spectra intensities of constituents and the mixture are stored as matrix C and row vector M,respectively.Aligning C and M vertically forms matrix A;(B) Structure of PC scores after the PCA transformation.Scores correspond to constituents and the mixture are stored as matrix SC and row vector SM,respectively.Aligning SC and SM vertically forms matrix SA

图2 组成比例几何计算方法。 谱图经PCA计算得到PC Scores后投影到直角坐标系中,然后运用其位置关系计算比例含量。图中混合体系组分数量分别为2(A)、3(B)和4(C)Fig.2 Geometrical calculation strategy.Calculate proportion of each constituent within a mixture geometrically after mapping the spectra data with PC scores when the number of constituents is 2(A),3(B),4(C).In each subplot,'C' stands for the constituents and 'M' corresponds to the mixture

但是,这种计算有一个重要的制约因素,即对实验谱而言,并不是C、M中的所有元素(列)都匹配方程(1),只有各个组分的特征峰或能满足。我们不能在对各谱峰进行准确地归属之前简单地导出谱图数据然后计算K值。而如果混合物中成分复杂,或者各成分谱峰信号难以肉眼区分,谱图解析会是件很困难的事。此外,谱图中的污染和噪音信号也是不可忽略的因素。由于PCA算法能够快速地从众多噪音信号中发掘出各谱图的特征信号,所以可以帮助我们从繁冗的谱图解析中解脱出来,同时仍然得到比例K的可靠估计。在采用PCA算法提取特征信息后,可以利用包含最丰富特征峰信息的前面几个PC的scores来计算比例含量K。常规的PCA过程有两个主要步骤会改变原始数据:均零过程和PCA投影过程[9,18]。可以证明,这两个过程都不会影响K值的计算。

qPCA通过同时处理多组分系统与纯组分的谱图,从而从中提取出每个组分的有效特征信息用以计算各自在混合体系中的比例。具体地,首先计算出所有谱图的PC scores,然后用前几个PC的scores计算比例K。PC scores图(图2)反映了各组样品之间的关系,距离越近,表明两个样品组成上的相似度越高。混合物样品点与某个纯组分距离越近,表明该组分在混合物中的占比越高。所以可以用几何的方法计算各线段距离来得出比例K。比如对于具有2种成分的多组分系统,我们可以得到混合物和组分谱图的PC scores,并将它们映射到直角坐标上(图2A),并根据混合物及其成分的几何关系计算K值 。每个成分的比例可以通过以下两个方程计算:

(3)

(4)

其中,kC1和kC2分别是组分C1和C2在混合物M中的比例。对于具有3(图2B)、4(图2C)甚至更多种成分的多组分系统,比例可以采用类似的方法进行计算。

或者我们可以直接使用线性代数的方法进行计算。为了计算n种组分的混合体系中各个组分的含量,我们需要建立含n个方程的方程组,其中之一是方程(2)。因此,只需要前n-1个PC的scores就可以计算出百分含量矩阵K:

Kn×1=[SCe]T[SM1)]T

(5)

其中,e是具有和SC相同行数的全1列向量,Kn×1则是n行1列的矩阵。

2.2 计算机模拟信号验证

使用MATLAB产生的模拟谱图,用于考察组分数、信噪比和特征峰数目对该方法准确度的影响。图3A展示了一组示例谱图。其中No.1~5表示5个纯组分谱图,其特征峰数目为1,信噪比为50,组分数为5。No.6为混合谱图,组分比例构成对应于1 000个比例组合中的某一个。平均偏差对信噪比(图3B)的关系图表明,较大的信噪比有利于得到更接近真实值的计算结果。这可归因于更大的信噪比有利于PCA更好地提取谱图中的特征信息[19]。在信噪比达到40之后,准确度发展缓慢,其中当组分的数量被设置为5,并且特征信号的数量被设置为10时,计算得到平均偏差是1.30%。特征信号数量具有与信噪比相似的行为(图3C)。更多的特征信号数量提供更好的计算精度,可能是因为它们有助于在应用PCA时提高特征信息提取效果[20]。此外,混合物中成分数越多,计算结果偏离真实值(图3B和图3D)的可能性越大。很有可能是因为成分数越多,用于计算所需要的PC数量越多,而后面的PC所包含的谱图特征信号并不如前面的,从而导致了准确度的下降。计算结果表明,即使仅含有一个信噪比为100的特征峰,当组分的数量高达50时,平均偏差仍低至7.25%。

图3 使用训练数据集进行验证。(A)一组用于模拟测评的示例谱图,组分数、信噪比、特征峰数目分别设为5、50、1;(B、C、D)qPCA计算值与真实值之间的偏差随信噪比、特征峰数目、成分数目的变化趋势Fig.3 Validation with training data.(A) A spectra example generated for modeling with values of number of constituents,signal-to-noise ratio and number of characteristic variables set to 5,50 and 1,respectively;(B,C and D) Modeling results show that the mean relative deviation between proportion values calculated using this method and the presetting proportion combinations is dependent on signal-to-noise ratio,number of constituents and number of characteristic variables

2.3 实验验证

2.3.1RSqPCA在具体实验方面的验证以RS谱图为例进行说明。为了提高准确度,可先建立校准曲线。将三个氨基酸的谱图(图4A)乘以混合物的相应实际百分比例,之后进行加和以形成理论谱图(图4B)。显然,即使是纯化合物的形式,每个氨基酸的RS谱图也是相当复杂的,也就很难直接从混合物谱图中计算出其中成分的含量。将理论谱图除以实验谱图来计算校准曲线(图4C)。10种已知混合物总体计算得到10条校准曲线。误差棒图(图4D)显示这些校准曲线的标准偏差并不显著,表明理论谱图和实验谱图之间的关系不会受到各组分任何比例变化的影响。最后在每个拉曼位移处的实验谱图响应值乘以校准曲线上对应位置的校正值得到理想谱图,以获得更准确的计算结果。

图4 拉曼光谱和校正曲线。(A)苯丙氨酸、色氨酸、络氨酸的Raman谱图;(B)三种氨基酸特定比例混合后得到的理论谱图和实验谱图;(C)得到的校正曲线;(D)所有10组混合物计算得到的校正曲线的分布Fig.4 Raman spectra and calibration curves.(A) Raman spectra of phenylalanine,tryptophan and tyrosine;(B) Theoretical (upper) and Experimental (lower) Raman spectra of mixtures of phenylalanine,tryptophan and tyrosine in a specific proportion combination;(C) Calibration curve calculated with the theoretical and experimental spectra;(D) Error plot shows the mean (black) and standard deviation (red) of calibration curves (n=10)

依次选择各个混合物用于交叉验证,并且将相应的实验谱图乘以通过其余9个混合物计算所得校准曲线的平均值。然后,10组校准后的谱图分别和纯组分的谱图一起用qPCA计算百分含量并和真实值进行比较。最终计算用了各组PC scores的平均值(图5A、B)。最后,通过计算比例与相应实际比例之间的偏差来进行准确度评估,结果表明平均偏差只有2.86%。

2.3.2比较qPCA与手动选择方法和MCR-ALS我们也可选择视觉上两个特征拉曼信号756 cm-1和1 010 cm-1来手动计算混合物中各氨基酸的含量。获取该位移处混合物及其纯组分的信号强度值,然后与约束方程(2)一起解出比例值。另外,MCR-ALS已经成为从复杂谱图中提取所需信号而不需要样品组成信息的流行方法,并且它还能以与qPCA非常不同的方式估计混合物的浓度分布[17,21]。因此,我们也使用了MCR-ALS处理我们的实验数据计算浓度信息,并将结果与qPCA比较(图5C)。结果如图5C所示,qPCA比手动方法优越得多,这可能归因于qPCA考虑了整个RS谱图的信息,因此更全面地诠释了样品,并且在某些数据点系统误差的影响被削弱;也比MCR-ALS更准确,这可能归因于MCR-ALS并没有很好地利用所提供的各纯组分的谱图信息。结果显示和qPCA明显优于另外两种方法。

2.4 其它实验验证及讨论

进行RS谱图评估之后,我们将qPCA方法扩展到其他谱学方法。将UV-Vis、FT-IR、NMR和MS(图6A~D)的谱图与RS谱图作类似处理。qPCA及手动选择方法和MCR-ALS的计算精度的计算结果(图6E~H)对比表明,qPCA都能够提供更准确的计算结果。另外,对于诸如RS、UV-Vis、FT-IR、NMR的谱学方法已经实现了计算结果和实际比例值之间良好的一致性。这些谱学方法都可以通过它们的谱图描述混合体系中各组分的特性。理论上,如果谱图中信号强度与某组分的浓度线性相关,使用这些信号来手动计算各成分比例含量是很准确的。但对于实际谱图,很难保证某个特征信号的强度与成分浓度线性相关。qPCA方法考虑了整个谱图并从中提取特征信号,因此在实际谱图的比例含量计算中能够得到更为准确的结果。对于ESI-MS,每种组分的相应信号强度可能不是线性依赖于其在混合物中的浓度,因为所有组分的分子在电喷雾阶段竞争结合离子,而结合能力在不同种类的组分之间差距较大[22]。因此qPCA的计算结果与真实比例含量值之间的平均偏差为14.08%,几乎与用手动计算的准确度相同(14.16%)。但考虑到qPCA并不需要任何手动的谱图解析,所以仍具有不小的优势。

图5 Raman实验验证qPCA。(A、B)运用qPCA处理Raman谱图的两个实例;(C)qPCA、手动选择、MCR-ALS计算结果与真实值偏差的对比Fig.5 Method validation with Raman spectral data.(A,B) Two typical examples of proportion calculations of each amino acid within the mixture geometrically after mapping the calibrated Raman spectra of testing mixture together with spectra of 3 amino acids with their PC scores.Mean scores were used to calculate proportions for each mixture;(C) Comparison between our method,manual method and MCR-ALS method.Deviations from true values show that our method is much more accurate than other two

图6 苯丙氨酸、色氨酸、络氨酸的FT-IR(A)、UV-Vis(B)、1H-NMR(C)、ESI-MS(D)谱图及qPCA、手动选择、MCR-ALS方法应用到各谱学方法的计算结果与真实值偏差对比(E~H)Fig.6 FT-IR (A), UV-Vis (B), 1H-NMR (C), ESI-MS (D) spectra of phenylalanine (blue), tryptophan (red) and tyrosine (green). All spectra were normalized from 0 to 1. Comparisons of quantification accuracy between our method, manual method and MCR-ALS method for instrumentation methods FT-IR (E), UV-Vis (F), 1H-NMR (G) and ESI-MS (H) respectively were also showed. It is obvious that our method is mostly more accurate than other two methods

3 总结

在本研究中,我们第一次引入一个名为qPCA的通用定量策略,并用于多组分系统中各组分比例含量的测定。这个方法规避了繁冗的谱图解析过程,并且计算机模拟和RS、FT-IR、UV-Vis、NMR、MS实验都获得了可信的计算结果。这种方便、可靠、可程序化的策略适用于涉及多组分系统分析的诸多领域。

猜你喜欢
混合物信噪比组分
多组分纤维混合物定量分析通用计算模型研制
正丁醇和松节油混合物对组织脱水不良的补救应用
两种64排GE CT冠脉成像信噪比与剂量对比分析研究
组分分发管理系统在天然气计量的应用
一种难溶难熔未知组分板材的定性分析
基于深度学习的无人机数据链信噪比估计算法
黑顺片不同组分对正常小鼠的急性毒性
金雀花中黄酮苷类组分鉴定及2种成分测定
低信噪比下基于Hough变换的前视阵列SAR稀疏三维成像
保持信噪比的相位分解反褶积方法研究