多环芳烃气相色谱保留指数与结构参数的定量关系

2011-06-04 05:56戴益民黄可龙李浔曹忠曾巨澜
关键词:邻接矩阵分子结构芳烃

戴益民 ,黄可龙,李浔 ,曹忠 ,曾巨澜

(1. 中南大学 化学化工学院,湖南 长沙,410083;

2. 长沙理工大学 电力与交通材料保护湖南省重点实验室,湖南 长沙,410004;3. 长沙理工大学 化学与生物工程学院,湖南 长沙,410004)

煤、石油以及有机质不完全燃烧产生大量的多环芳烃化合物,由于它们大多在环境中的化学稳定性高,水溶性低且长期残留,因而具有潜在的致癌、致畸和致突变作用,对环境的危害极大。如何在多环芳烃异构体尚难以获得标识化合物且缺乏其普遍的色谱数据的情况下简捷而又快速地对其生物毒性和环境行为进行预测,筛选出具有潜在危害的化学品成为重要的研究课题[1-2]。气相色谱保留指数是进行色谱定性分析的基础,当固定相一定时,化合物在色谱柱上的保留行为与分子结构及其化学和电性特征密切相关;因此,根据分子结构特征建立定量结构-色谱保留关系(QSRR)对预测化合物的保留指数、选择色谱分离条件以及探索色谱保留机制是非常有效的途径。随着QSRR 技术日益被重视,已有很多研究利用拓扑、电性和几何特征等对化合物分子进行结构描述,并建立分子结构-色谱保留之间的定量相关模型来预测化合物的色谱保留指数[3-8],但QSRR主要集中用于烷烃、烯烃、醇和胺类化合物的研究,而用于多环芳烃化合物的研究较少[9-10]。鉴于此,本文作者选择 100个多环芳烃化合物为研究对象,在分子距离矩阵和邻接矩阵的基础上提取出表征多环芳烃分子支化度的描述子CN和表征多环芳烃分子结构的描述子 CT,应用线性回归方法进行建模。

1 原理与方法

化合物的气相色谱保留指数是分子微观结构的宏观反映。通常多环芳烃的色谱保留值随其碳原子数和其相对分子质量的增加而呈近似递增规律,但取代多环芳烃的保留值,由于分子结构特点及其内部相互作用的影响,使其随碳原子数和相对分子质量增加明显表现出线性偏离;因此,探讨能够准确描述多环芳烃分子结构的参数是进行其定量结构色谱保留关系研究的关键。目前,常用的参数有几何参数、电子参数和拓扑参数,而通过图论方法得到表征化合物结构的分子描述符,是定量表征化合物的重要手段。对于任一n个顶点的分子图可以构造1个n×n的距离矩阵和邻接矩阵。距离矩阵中元素dij等于图中连接顶点i和j的最小边数,当i和j间不连通时,dij取无穷大。邻接矩阵中任何边 r和边 s邻接,则在矩阵的(r,s)和(s,r)位置记为1,其他位置记为0。对于任一分子图,其距离矩阵D和邻接矩阵A分别表示为:

通常分子拓扑指数的计算可通过对描述分子图的邻接矩阵和距离矩阵的处理来实现。距离矩阵主要反映分子结构大小及其支化度信息,而邻接矩阵反映分子的连接方式。为充分考虑分子中顶点原子的性质和成键情况及分子中原子与原子的连接关系,在距离矩阵D和邻接矩阵A的基础上作如下处理得到矩阵C:

利用MATLAB程序求出矩阵C的所有特征值λi,为此提出2个新的分子结构描述子CN和CT:

其中:描述子CN由矩阵C的特征值加和的平方根所构成,表征由多环芳烃的距离矩阵和邻接矩阵相乘得到的对称矩阵向量范数[11]。另外,根据平面直角坐标系中2点之间距离公式可知:描述子 CN等于多环芳烃分子中各顶点到分子中心的距离,能有效反映分子支化度及各顶点之间相互作用的程度。CT由矩阵C的特征值的和所构成,表征分子结构的大小。当界面分子处于不对称力场时,分子主体间相互作用与分子界面上相互作用力的差异导致分子结构发生变化。与六元环相比,由于五元环中缺失的顶点与相邻两顶点之间不存在相互作用,扭转角发生改变导致分子构型发生变化,相应分子体积和表面积减少。

2 结果与讨论

2.1 数据来源

本文研究的100个多环芳烃化合物的气相色谱保留指数见文献[12]。表 1所示为所有化合物的名称及相应的实验气相色谱保留值。

2.2 模型与检验

根据式(1)和(2),在计算机上采用MATLAB软件编程求出分子结构描述子 CN和CT,见表 1。利用线性回归法将100个多环芳烃的气相色谱保留指数与其结构参数CN和CT建立相应的两描述子回归模型,并采用留一法对该模型进行交互校验检测,所得结果

如下:

表1 部分多环芳烃的分子结构描述子CN和CT以及气相色谱保留指数的实验值和计算值Table 1 Molecular structural descriptors CN and CT of part PAHs and experimental/calculated gas chromatography retention index data

其中:IR的表达式中,括号内前面数字为回归系数期望值,后面数字为标准偏差;n为样本数;m为变量数;R为复相关系数;RCV为交互检验的复相关系数;SRM为均方根误差;F为Fisher检验值。由以上结果可知:其削减误差为 99.4%,表明采用描述子 CN和CT来描述多环芳烃气相色谱保留指数的变化规律仅0.6%的随机因素未被揭示。按式(3)得出的部分计算值见表 1,其平均相对误差为 1.37%,最大相对误差仅为 4.76%,预测值与实验值较吻合,且其复相关系数R和RCV非常接近,说明描述子CN和CT包含了影响多环芳烃气相色谱保留指数的主要结构因素;同时,模型有很强自身拟合能力以及对外部样本的预测能力。

建立 QSRR 模型的目的是预测未知化合物的色谱保留行为,因此,模型不仅要求相关性能好,建模误差小,同时还要求预测能力强,即对不包含在训练集内的样本即外部测试集里的样本具有较强的预测能力。为此,将100个多环芳烃随机抽出近2/3样本作为训练集,剩余的化合物(表1中带“*”号)作为测试集用来检验模型的预测能力。同样采用线性回归法对训练集进行回归分析:

结果表明:由训练集所建立的模型拟合质量和预测能力与全部数据的模型结果非常接近,说明模型具有很好的稳健性。用基于训练集数据所建立的 QSRR模型来预测测试集中的多环芳烃气相色谱保留指数,预测结果如图1所示,所有样本都均匀分布于过原点45°直线周围,没有特别明显的异常点。

为了更加直观地观测误差的分布情况,由训练集与测试集的模型估计误差分布图(图2,化合物序号见表1)可知:绝大多数样本的误差分布在±2倍均方根误差以内,仅几个为明显离群值。另外,将100个样本的Cook距离值与中心化杠杆值作图也得到同样的结论,仅36和72号等几个样本稍显异常。

2.3 模型比较

为进一步评价本文所选择的参数对多环芳烃气相色谱保留指数进行预测的有效性,在相同样本数的情况下,Kang等[9]根据分子极化效应理论,采用碳链的准长度与准共轭体系表面积作为描述符进行多元线性回归(MLR)分析;周丽平等[10]从分子图论拓扑学角度出发,提出用六元素组成的分子距边矢量表达多环芳烃化学结构,对其气相色谱保留值进行定量相关性研究,相关结果如表2所示。从表2可知:本文所用方法仅根据分子的距离矩阵和邻接矩阵提取2个分子结构描述符得到模型统计结果均优于文献[9-10]中的结果,而且该方法具有参数计算简单、无需查找任何数据的优点。

图2 100个多环芳烃保留指数计算结果偏差Fig.2 Deviations of retention index for 100 PAHs

2.4 模型的物理意义

当色谱分离条件一定时,被测组分的气相色谱保留指数主要与分子本身结构及其化学和电性特征密切相关。本文定义的 CN表征由多环芳烃的距离矩阵和邻接矩阵相乘得到的对称矩阵向量范数,反映分子支化度的情况,结果表明:随着支化度的加大,化合物在固定相上的色谱保留作用降低,这可能是同分异构体的分子支化度加大后其分子形状类似球体,与色谱柱固定相接触面积变小,分子间色散力也随之变小的缘故。而CT反映分子结构大小,随着碳链长度增加,分子体积增大,色散力也加大,因而,化合物在固定相上的保留作用增强,相应的多环芳烃气相色谱保留指数值增大。应当指出的是:当多环芳烃分子中含有五元环时,描述子CT须在正常求得结果的基础上减去2才能得到良好的回归结果。这可能是与六元环相比,五元环的扭转角变化较大导致构型发生变化[13],分子色散力与极化率变小,使分子与色谱柱固定相接触面积变小的缘故。

表2 本文QSRR模型与文献[9-10]中的回归模型统计结果比较Table 2 Statistical results comparison of QSRR models for this paper and Refs. [9-10]

虽然所建模型都符合建模要求,但有必要讨论分子结构描述子各自对整个模型所做的贡献,进而探讨具有不同物理意义的参数对多环芳烃气相色谱保留指数的影响。为此,采用相对贡献(Ψr)和百分数贡献(Ψf)[14]来定量描述参数对模型的贡献。其中,Ψr和 Ψf分别定义为:

式中:ai和分别为模型中第i个描述子前的系数及该参数的平均值;R2为模型的判定系数。通过分析,CN的相对贡献和百分数贡献分别为-8.007和2.03%;CT的相对贡献和百分数贡献分别为 384.741和97.37%,可知CN和CT对所构建的QSRR模型贡献不同,增加分子体积、减小分子支化度有利于多环芳烃气相色谱保留指数的增加。CT的贡献更大,说明分子结构大小是决定多环芳烃气相色谱保留指数变化规律的主要因素,而支化度则起补充作用。

3 结论

(1) 用描述子 CN和 CT对多环芳烃的气相色谱保留指数进行模拟,模型对内部样本具有较强的估计能力,同时,对外部样本具有较强的预测能力。

(2) 描述参数计算简单,仅根据分子的距离矩阵和邻接矩阵就可以得到满意的结果。所建模型不仅在一定程度上阐明了多环芳烃气相色谱保留指数与其分子结构信息之间的关系,同时也为研究多环芳烃化合物的色谱保留行为提供一种新的方法。

[1] Ferreira M M C. Polycyclic aromatic hydrocarbons: A QSPR study[J]. Chemosphere, 2001, 44(2):125-146.

[2] Santiuste J M, Harangi J, Takács J M. Mosaic increments for predicting the gas chromatographic retention data of the chlorobenzenes[J]. Journal of Chromatography A, 2003,1002(1/2): 155-168.

[3] Liu F P, Liang Y Z, Cao C Z, et al. QSPR study of GC retention indices for saturated esters on seven stationary phases based on novel topological indices[J]. Talanta, 2007, 72(4): 1307-1315.

[4] Farkas O, Zenkevich I G, Stout F, et al. Prediction of retention indices for identification of fatty acid methyl esters[J]. Journal of Chromatography A, 2008, 1198/1199: 188-195.

[5] Chen H F. Quantitative predictions of gas chromatography retention indexes with support vector machines, radial basis neural networks and multiple linear regression[J]. Analytica Chimica Acta, 2008, 609(1): 24-36.

[6] 王宇, 刘树深, 赵劲松, 等. 电拓扑状态预测有机磷酸酯类化合物的气相色谱保留指数[J].化学学报, 2006, 64(10):1043-1050.WANG Yu, LIU Shu-shen, ZHAO Jing-song, et al. Prediction of gas chromatographic retention indices of organophosphates by electrotopological state index[J]. Acta Chimica Sinica, 2006,64(10): 1043-1050.

[7] 刘凤萍, 梁逸曾, 曹晨忠. 拓扑-量子指数醛酮气相色谱保留指数及沸点的定量构效关系[J]. 分析化学, 2007, 35(2):227-232.LIU Feng-ping, LIANG Yi-zeng, CAO Chen-zhong.Quantitative structure property relationship study of gas chromatographic retention indices and boiling points for oxo-compounds using topological-quantum descriptors[J].Chinese Journal of Analytical Chemistry, 2007, 35(2): 227-232.

[8] LI Xiao-ru, LAN Zheng-gang, LIANG Yi-zeng. Analysis of volatile chemical components of Radix Paeoniae Rubra by gas chromatography-mass spectrometry and chemometric resolution[J]. Journal of Central South University of Technology,2007, 14(1): 57-61.

[9] Kang J J, Cao C Z, Li Z L. Quantitative structure–retention relationship studies for predicting the gas chromatography retention indices of polycyclic aromatic hydrocarbons quasi-length of carbon chain and pseudo-conjugated system surface[J]. Journal of Chromatography A, 1998, 799: 361-367.

[10] 周丽平, 夏之宁, 李伯玉, 等. 多环芳烃分子结构的距边矢量表征及其气相色谱保留指数预测[J]. 色谱, 2001, 19(1): 25-31.ZHOU Li-ping, XIA Zhi-ning, LI Bo-yu, et al. Estimation of gas chromatographic retention index for polycyclic aromatic hydrocarbons using VMDE[J]. Chinese Journal of Chromatography.2001, 19(1): 25-31.

[11] 李志斌. 线性代数[M]. 北京: 机械工业出版社, 2006: 97-98.LI Zhi-bin. Linear algebra[M]. Beijing: China Machine Press,2006: 97-98.

[12] Lee M L, Novotny M V, Bartle K D. Analytical chemistry of polycyclic aromatic compounds[M]. New York: AcVmdemic Press, 1981: 1-5

[13] 邢其毅, 裴伟伟, 徐瑞秋, 等. 基础有机化学[M]. 3版. 北京:高等教育出版社, 2005: 88.XING Qi-yi, PEI Wei-wei, XU Rui-qiu, et al. Fundamentals of organic chemistry[M]. 3rd ed. Beijing: Higher Education Press,2005: 88.

[14] Needham D E, Wei I C, Seybold P G. Molecular mounting of the physical properties of the alcanes[J]. Journal of American Chemical Society, 1988, 110: 4186-4194.

猜你喜欢
邻接矩阵分子结构芳烃
第三代国产芳烃成套技术首套装置建成投产
石油沥青中致癌多环芳烃含量测定研究
关于重芳烃轻质化与分离的若干思考
三步法确定有机物的分子结构
压裂返排液中瓜胶浓度检测及分子结构解析
解读分子结构考点
基于邻接矩阵变型的K分网络社团算法
负钛铜基载氧体在煤化学链燃烧中多环芳烃的生成
基于子模性质的基因表达谱特征基因提取
丙烯酸酯类降凝剂的Monte Carlo模拟计算及分子结构设计