基于遗传算法DYRK1A抑制剂的定量构效关系研究

2022-07-28 00:44毕梦舟张娜
科技资讯 2022年15期
关键词:杂环描述符抑制剂

毕梦舟 张娜

(北京工业大学环境与生命学部 北京 100124)

阿尔茨海默病(Alzheimer's Disease,AD),也称作老年痴呆症,是一种渐进且不可逆转神经退行性疾病,主要症状为记忆和认知功能障碍及生活自理能力丧失,成为严重危害中老年人生命健康的头号公敌。因此,抗AD药物研发成为脑医药领域的刻不容缓的研究课题[1-2]。双特异性酪氨酸磷酸化调节激酶1A(Dual-Specificity Tyrosine Phosphorylation Regulated Kinase 1A,DYRK1A)因磷酸化多种蛋白底物而参与神经系统的发育过程,已成为重要的抗老年痴呆的治疗靶点[3]。然而,目前尚无相关治疗药物上市。因此,靶向DYRK1A 的抗神经退行性疾病药物的研发,具有重要的学术意义和潜在的临床应用价值。

迄今为止,已报道的DYRK1A 的ATP 竞争性抑制剂多为芳香杂环类化合物,如噻唑类、吲哚类、吡啶类、嘧啶类等[4-5]。但多数抑制剂存在选择性较差、毒副作用大及成药性低等其他缺陷,阻碍其进一步成为候选药物,因此,兼具高活性及优类药性的新型DYRK1A抑制剂具有重要的临床应用价值及良好的应用前景。目前,关于DYRK1A 抑制剂研究主要集中在新型化合物的优化及筛选方面,而相关的构效关系研究较少,进而影响抑制活性的结构因素也尚不明确,导致新型抑制剂优化中存在一定的盲目性和随机性。

定量结构-活性关系(Quantitative Structure-Activity Relationships,QSAR)模型是将化合物的结构与其生物活性定量相关联的方法,识别与性质密切相关的结构特征,在现代创新药物研发领域发挥重要的作用[6-7]。然而,目前DYRK1A抑制剂的构效关系研究局限于单一骨架的某类化合物,所构建的模型仅识别出某类活性基团且适用范围有限[8]。因此,构建基于多分子骨架抑制剂的构效关系模型,识别多样性的药效分子描述符,可为新型优化提供结构素材及理论指导,具有重要的学术意义。

该文综合考虑化合物骨架多样性及其抑制活性的广度,选取了文献报道的117 个DYRK1A 杂环类抑制剂,运用遗传算法与多元线性回归法相结合的方法,构建基于分子描述符的QSAR 模型,揭示影响化合物抑制活性的结构特征,为新型DYRK1A 抑制剂的发现提供了重要的理论支持。

1 研究方法

1.1 化合物数据集及分子描述符计算

从文献中收集的117 个杂环化合物,包括苯并噻唑类,6-氮杂吲哚类及苯并吡咯类,其pIC50值(pIC50=logIC50)作为模型构建的因变量。数据集的pIC50值范围为4.444~8.523,表明数据集化合物的生物活性值分布较为广泛且范围合理。并将该数据集以3∶1的比例分为训练集(89)和测试集(28),分别用于模型构建及性能预测。运用DRAGON 7.0[9]软件计算所有化合物分子描述符,去除具有高度自相关,最终得到634个分子描述符作为QSAR模型的自变量。

1.2 QSAR模型建立

基于上述筛选所得分子描述符,采用软件QSARINs 2.2.2[10]中GA 与MLR 相结合方法,自动挑选变量个数及最佳变量并进行多元线性回归,建立QSAR 模型,其中种群大小、突变率、遗传数分别设置为200、20、2 000,并针对模型进行基于QUIK准则和多标准决策的筛选及排序。

1.3 最优QSAR模型验证

采用内部验证和外部验证方法分别对模型的稳健性及预测能力进行评价。其中,内部验证采用留一法交叉验证方法,外部验证则是基于模型对外部测试集的预测值与实验值比较。以交叉验证系数Q2和相关系数R2作为评价标准,当两者均大于0.5时,说明模型具有良好的稳健性和预测能力。

1.4 2.5模型适用域

在OECD 准则[11]的指导下,针对研究所建立的QSAR 预测模型需要存在一个具有明显意义的适用域(Applicability Domain,AD)来度量模型预测值是否在AD的范围内,这也是验证QSAR预测模型是否可靠的重要标准之一。在初始化合物变量环境里,利用杠杆值和标准化模型确定AD 值。化合物的杠杆距离被描述为帽值(hat values,h),警示杠杆值h*是衡量QSAR预测模型准确性的重要参数。当h<h*时,可认为数据集化合物在正常范围内;当h>h*时,则认为有个别数据集化合物被判定为异常值。标准残差值也是判定效应离散区间的重要参数,一般情况下标准残差的边界数值是±3。当数据集化合物的标准残差值在-3 到3 之间时,可被认定为正常值。

2 结果与讨论

2.1 最优QSAR模型选择与验证

运用GA 与MLR 相结合的方法产生了100 个QSAR模型,并基于QUIK准则和MCDM进行自相关性模型的剔除及打分排序,最终获得含4 个分子描述符的QSAR模型。由表1可知,影响芳香杂环类抑制剂活性的结构因素包括矩阵描述符SpAD_B(m),自相关描述符GATS5m,功能组计数描述符nCb-和原子对描述符B02[C-O]。该研究中最优模型的训练集化合物数量与分子描述符数量的比例约为22,符合训练集化合物的数量与QSAR模型所用分子描述符数量的比例应大于等于5这一规则。同时,这4个描述符中的任意两个描述符的相关性均小于0.7,表明这些描述符相互独立,多重共线性的问题并不显著。

表1 最优QSAR 模型的分子描述符、相关系数及其化学意义

内部和外部验证的统计学参数Q2和R2均大于0.5,说明最优模型具有较高的可靠性和预测能力。基于模型的活性预测值和实验值的散点图,实验值与预测值均匀分布在拟合线附近且无明显偏差,说明所建立的最优QSAR 模型具有良好的稳定性和预测性,见图1(a)。

图1 最优模型预测能力评价及适用域分析图

图2 与分子描述符相关的DYRK1A抑制剂

2.2 模型适用域及异常值分析

图1(b)所示为最优模型适用域结果,该模型的预测活性标准化残差在-3 到3 之间。由图可知,无论是训练集还是测试集化合物都不存在效应异常值,均在AD 范围内。值得注意的是,训练集化合物(114)的帽值大于杠杆阈值(h*=0.169),说明此数据点为结构异常值。从结构上看,可能因其4 号位为氢原子而其他相同公共骨架化合物的4号位为芳香环而导致结构上出现差异,但其误差仅为-0.191 5,说明此模型具有较为可靠的预测能力。

2.3 最优QSAR模型分析

由表1 可知,SpAD_B(m)是基于Burden 矩阵绝对偏差值的分子量加权,与抑制活性正相关,此值的增加则会提高化合物的抑制活性。GATS5m表示基于拓扑距离为5的Geary自相关的分子量加权,与抑制活性呈负相关。nCb-描述符是指苯环(sp2杂化状态)上取代基的数目,与抑制活性呈负相关,即化合物中苯环上取代基越多,其DYRK1A 抑制活性越弱。如不含苯环的化合物24(IC50=0.093 8 μm),其抑制活性优于含有取代苯的化合物33(IC50=3.86 μm)。负相关系数B02[CO]则表示拓扑距离小于2 的C-O 键的存在与否,即化合物中存在拓扑距离小于2 的C-O 键,则其DYRK1A抑制活性越小。例如:不含C-O键的化合物105(IC50=0.01 μm),其抑制活性是含有C-O 键的化合物108(IC50=0.233 μm)的23倍。故综上可知,以上4个描述符被识别为影响化合物DYRK1A抑制活性的关键因素。

3 结语

该研究运用遗传算法(GA)和多元线性回归(MLR)相结合的方法,构建了具有较高可靠性和预测能力的DYRK1A 杂环类抑制剂QSAR 模型,且识别出了与抑制活性相关的药效分子描述符,为新型DYRK1A抑制剂的优化提供了结构素材及理论指导。

猜你喜欢
杂环描述符抑制剂
基于结构信息的异源遥感图像局部特征描述符研究
基于AKAZE的BOLD掩码描述符的匹配算法的研究
N-杂环化合物:从控制合成到天然物
中草药来源的Ⅰ类HDAC抑制剂筛选
Linux单线程并发服务器探索
凋亡抑制剂Z-VAD-FMK在猪卵母细胞冷冻保存中的应用
特征联合和旋转不变空间分割联合的局部图像描述符
组蛋白去乙酰化酶抑制剂的研究进展
磷酸二酯酶及其抑制剂的研究进展
铜N-杂环卡宾化合物的合成及其在有机合成中的应用