醛酮化合物色谱保留指数的集成全息定量构效关系模型

2021-03-11 02:29臧芸蕾薛志伟葛懿擎
色谱 2021年3期
关键词:全息准确度化合物

雷 斌, 臧芸蕾, 薛志伟, 葛懿擎, 李 伟, 翟 倩, 焦 龙*

(1. 西安石油大学化学化工学院, 陕西 西安 710065; 2. 核工业二〇三研究所, 陕西 咸阳 712000; 3. 庆安集团有限公司, 陕西 西安 710077)

全息定量构效关系(hologram quantitative structure-activity relationship, HQSAR)是一种以分子的亚结构片段(即分子全息)为结构描述符的定量构效关系(quantitative structure-activity relationship, QSAR)方法,具有建模简便快速、预测准确度高的特点,已广泛应用于化学、生物学、医学等众多领域[1-6]。HQSAR方法通常是建立分子全息描述符与样品性质之间的个体偏最小二乘(partial least squares, PLS)回归模型。但个体回归模型容易欠拟合和过拟合[7],为了获得更准确可靠的回归模型,可以训练多个个体模型,通过一定的结合策略,形成一个综合了多个个体模型的集成模型。这种综合多个个体模型的方法称为集成建模(ensemble modeling)。集成建模方法可以克服使用单一个体模型的缺陷,提高模型的预测能力[8-10],已经成功应用于QSAR建模、光谱分析、机器学习和人工智能等领域[11-14]。有必要研究能否应用集成建模方法提高HQSAR模型的预测能力。

色谱保留指数(retention index, RI)是色谱分析中的重要参数[15,16]。醛酮化合物种类众多,实验测定其RI值的时间和经济成本高,不同化合物在不同极性固定相上具有不同的保留行为,有必要建立不同极性固定相上醛酮化合物的RI值QSAR模型[17-19]。DB-210和HP-Innowax固定相具有强极性和高的使用温度上限,可用于醇类、硫醚类、脂类和醛酮类化合物色谱保留指数的测定。因此,本研究应用集成建模结合HQSAR方法研究了醛酮化合物在DB-210和HP-Innowax固定相上的色谱保留指数QSAR模型。

1 实验与方法

1.1 数据集

用于研究的34种醛酮化合物(如表1所示)在2种不同极性固定相DB-210和HP-Innowax上的RI实验值引自文献[20]。将34种化合物随机分为两组:第Ⅰ组(Group Ⅰ)包括26种化合物;第Ⅱ组(Group Ⅱ)包括8种化合物。

(1a)

(1b)

(2)

(3a)

(3b)

表 1 34种醛酮化合物在两种色谱柱上的保留指数实验值[20]与预测值

1.2 实验过程

1.2.1分子模型构建及构象优化

1.2.2分子全息产生及HQSAR模型构建

HQSAR方法将分子结构划分为包含所有可能结构(线性、分支、环状、搭接或重叠)的分子片段(molecular fragments),再将分子片段进行编码使之转化为分子全息(molecular hologram)。分子结构片段的特征主要由片段特性(fragment distinction, FD)和片段尺寸(fragment size, FS)两个参数规定。FD参数可以选择的值包括原子(atoms, A)、化学键(bonds, B)、连接(connections, C)、氢原子(hydrogen atoms, H)、手性(chirality, Ch)和供体/受体原子(donor/acceptor atoms, DA)。A可以区分不同类型的原子;B可以识别原子形成化学键之间的差异;C可以描述片段内原子的杂化状态;Ch可以描述片段中原子和化学键的立体化学信息;H可以描述分子片段的氢键供体或受体情况[24]。FS参数值包括最小原子数(M)和最大原子数(N)。通常M的取值最小从2开始;N的取值须大于M,最大值一般为12且不超过分子的总原子数。通过环丰度检验算法(cyclic redundancy check, CRC)计算每个结构特征碎片出现的频率,将各个分子碎片映射为0~231的伪随机整数,使得每个分子可被表示为一定长度的整数串,进而采用Hashing算法将它们转换为具有相同长度的整数串,即为分子全息[25]。在SYBYL-X 2.0的HQSAR模块中,分子全息长度(hologram lengths, HL)从系统默认的6个值:97、151、199、257、307和353中进行选择。用PLS方法建立化合物分子全息与性质之间的HQSAR回归模型。通过调整FD、FS及全息长度等参数来优化模型[26]。

1.2.3集成模型构建

集成模型的构建通常由两个步骤组成:(1)建立一系列多样化的个体模型(子模型); (2)采用适当的集成规则,对各子模型的预测结果进行集成,得到集成(共识)结果。主要思路是通过多个模型的集成,个体模型的误差可被其他多个个体模型所补偿从而使得集成模型的整体性能优于个体模型。要获得好的集成模型,各子模型应该具有一定的准确度,且子模型应该足够多样化。因此,本文采用由不同参数建立的个体HQSAR模型作为子模型(h1,h2,h3, …,hT)建立集成HQSAR模型,以各子模型预测值的算术平均值作为集成模型的预测结果,如式(4)所示:

(4)

式(4)中:hi(x)表示各子模型的预测值,T表示子模型的个数。

2 结果与讨论

2.1 个体HQSAR模型

用外部测试集验证和留一交叉验证评估HQSAR模型的预测能力。外部测试集验证以第Ⅰ组作为训练集,采用上述最佳建模条件建立不同固定相上的个体HQSAR模型,预测第Ⅱ组8个化合物的RI值,结果如表1及表4所示。用第Ⅰ组完成留一交叉验证,即共进行26次预测,每次选定一个样本作为测试集,以其余25个样本作为训练集,仍然采用上述最佳建模条件建立模型,依次预测26个醛酮化合物的RI值,结果如表1及表4所示。外部测试集验证和留一交叉验证结果表明醛酮化合物的分子全息描述符与RI值之间存在一定的定量关系,建立的HQSAR模型准确可靠。与在固定相HP-Innowax上建立的模型相比,在固定相DB-210上所建立的最佳个体HQSAR模型准确度更高。

表 4 个体HQSAR模型与集成HQSAR模型的统计参数

2.2 集成HQSAR模型

3 结论

对34种醛酮化合物的HQSAR集成建模研究证明,醛酮化合物的分子结构与RI值之间存在定量关系,可以建立醛酮化合物RI值的个体HQSAR模型。应用集成建模方法对个体HQSAR模型进行集成,则可以提高对RI值的预测准确度。这说明集成建模是一种提高HQSAR模型稳健性和准确度的有效方法,HQSAR方法与集成建模方法相结合可以用于研究和预测醛酮化合物的RI值。

猜你喜欢
全息准确度化合物
全息? 全息投影? 傻傻分不清楚
影响重力式自动装料衡器准确度的因素分析
碳及其化合物题型点击
碳及其化合物题型点击
"全息投影"
Phosphatidylinositol-3,4,5-trisphosphate dependent Rac exchange factor 1 is a diagnostic and prognostic biomarker for hepatocellular carcinoma
全息欣赏:小学美术“欣赏·评述”学习新样态
例析高考中的铁及其化合物
论提高装备故障预测准确度的方法途径
对GB 17167实施过程中衡器准确度要求问题的探讨