QSPR 建模方法及其在染料敏化太阳能电池性能预测方面的研究进展

2023-02-18 12:42范文花
浙江化工 2023年1期
关键词:描述符染料分子

范文花

(西安石油大学 化学化工学院,陕西 西安 710065)

近几年,可再生能源应用材料的选择已成为全球能源战略中最紧迫的问题之一,与硅光伏电池相比,染料敏化太阳能电池(dye sensitized solar cell,DSSCs)具有易于制造、生产成本低等优点。DSSCs 是一种分子光伏(PV)系统,模仿自然界的光合作用原理,利用染料吸收太阳辐射能,生成电荷载体,然后将其分离、传输和收集为太阳能[1]。染料敏化剂作为DSSCs 的关键组成部分,在决定相应电池性能方面发挥着重要作用[2]。目前,DSSCs的研究主要是找到影响光电转换效率(photoelectric conversion efficiency,PCE)的关键结构并对其进行改善,设计新型敏化剂,提高PCE。DSSCs 的光电转化效率主要由短路电流密度(Jsc)、开路电压(Voc)和填充因子(FF)决定,为了获得高PCE,这三个参数应尽可能高[3]。

据估计,目前DSSCs 可实现的最大理论PCE为32%,意味着目前13%的记录可以改善[2]。实现改善的常用方法是基于人类关联和概括经验的能力,设计和合成新型染料,随后组装电池并检查电池性能。但这种“反复试验”的方法非常耗时、昂贵,而且在为DSSCs 寻找突破性染料时效率低下。

定量结构-性质关系(quantitative structureproperty relationships,QSPR)已被广泛用于预测各种化合物的物理化学性质、环境行为参数以及毒性,是描述化学结构和活动之间潜在关系的数学模型[4]。目前,QSPR 被认为是设计DSSCs 潜在染料公认的工具[2],QSPR 模型不是盲目地花费大量时间和金钱来设计有机染料敏化剂,而是一种富有成效的、合理的敏化剂染料开发方法[5]。本文简单介绍了QSPR 建模过程,染料敏化太阳能电池QSPR 建模中常用的分子描述符,建模方法以及QSPR 在DSSCs 性能预测方面的应用。

1 QSPR 建模基本原理

1.1 QSPR 建模过程

QSPR 建模过程一般包括4 个步骤。

(1)数据收集和整理。可靠的数据对建立良好预测性能的模型极为重要,这就要求数据样本不能太少,必须具有代表性且化学结构相似。

(2)计算并选择分子描述符。用专业软件计算得到大量分子描述符,但需要用最少的结构参数来表征尽可能多的化学信息且要保证变量之间不存在很高的相关性,因此需要进行变量选择,同时也要保证特征变量与因变量之间具有相关性,以确保模型可以拟合。

(3)建立分子描述符与性质参数之间的定量构效模型,这是QSPR 研究中的主要步骤。

(4)模型验证与评价。QSPR 模型建好后,需要评价指标来评价模型的质量,其中包括稳定性、可靠性以及预测能力[4]。

1.2 分子特征和描述符

在QSPR 研究中,基于这样一个假设,即化合物行为的变化(由任何可测量的物理化学性质表示)可以与化合物结构特征的数值变化相关,表示化合物分子结构的数值称为“分子描述符”[4]。在相关文献中,经常会用到的分子描述符有拓扑指数描述符、组成描述符、电子性质描述符、量子化学描述符、几何描述符以及常见的分子指纹描述 符(MACCS、Pubchem、FP2、Extend、Daylight、Hybridization 及Morgan)等。

PCE 量化了太阳能电池的整体性能,尽管影响PCE 的因素非常复杂,但敏化剂的电子特性对DSSCs 的整体性能非常重要。Fan 等[2]通过测定与光学性能有关的5 种不同电子性质(G,Oav,Dav,A,LHE)来建立QSPR 模型,预测PCE。结果显示,用上述分子描述符建立的模型具有良好的预测性能。Pourbasheer 等[6]利用6 种描述符建立富勒烯衍生物的GA-MLR 模型以预测化合物作为聚合物太阳能电池受体的光电转换效率,显示了适当的统计结果并表明量子化学描述符对增加PCE 有显著影响。Padula 等[7]使用电子描述符和结构描述符通过线性和非线性机器学习模型预测光伏效率,同时表明这两个参数可以提高模型的预测能力,使相关性达到R≈0.7,这种相关性允许对有效材料进行可靠地预测。

2 QSPR 建模方法

2.1 多元线性回归

多元线性回归(MLR)是经典的建模方法之一,它的目标是为多个独立变量与因变量之间的线性关系建模。独立变量和因变量之间的关系见式(1)。

式(1)中:b0是常数项,x 是自变量,yi是因变量,b1到bn是自变量的系数。

MLR 模型基于以下假设:自变量与因变量之间存在线性关系,自变量彼此之间的相关性不是很高,且每个自变量都对模型有贡献。为了选择对因变量贡献大的自变量,可以通过变量选择方法来限制自变量数量。常见的变量筛选方法有遗传算法、主成分分析法、模拟退火法、多元线性回归法等,通过这些方法找出自变量与因变量的最佳组合,继而建立MLR 模型。Kar 等[8]通过基于遗传算法的多元线性回归分析(GA-MLR),利用KMedoid 聚类分割技术对数据集进行分割,随后建立芳胺染料PCE 和量子化学描述符之间的最佳QSPR 模型。此QSPR 模型对于表征和预测对光转换至关重要的供体:π 桥:受体(D-π-A)关系的性质具有重要意义。通过MLR 算法可以建立稳健且具有预测能力的QSPR 模型,然而,此算法只能捕获结果变量和自变量之间的线性关联,可能无法充分检测数据中的非线性关系[9]。

2.2 偏最小二乘法

偏最小二乘法(PLS)是一种关联两个数据矩阵的建模方法。PLS 具有一个理想的特性,即模型参数的精度随着相关变量和观测值的增加而提高[10],由此建立的模型拟合性、稳健性与预测能力均较好。由于PLS 增加了模型验证的部分,其在QSPR 方面的优势明显大于MLR。

Venkatraman 等[11]报道了第一个成功的QSPR模型,使用分子场分析(CoMFA)和基于振动频率的特征(EVA)描述符对40 种香豆素和苯胺衍生物分子结构的光伏性能(PCE,Voc,Jsc,λmax)参数建立偏最小二乘回归模型并分析了不同模型的性能。结果显示,所建立的模型具有很强的预测性和鲁棒性,QSPR 模型可用于新型光伏材料的合理结构设计和评估,香豆素和苯胺衍生物重要结构特征的识别对于设计具有改进太阳能电池性能的未来有机染料非常有用。Tortorella 等[12]使用基于半经验计算和3D 分子相互作用场的描述符,应用偏最小二乘算法合理化结构-光伏性能关系,并对系数进行研究,以阐明不同分子性质对最终性能的贡献,证明了在计算材料科学的背景下,化学计量学和分子建模工具可以有效地促进光伏应用。Venkatraman 等[13]使用117 种吩噻嗪类染料敏化剂构建了QSPR 模型,使用半经验AM1 方法对化合物分子进行优化,将基于振动频率的特征值(EVA)描述符采用偏最小二乘回归方法建立QSPR 模型,之后采用进化从头设计技术设计了5 种新型染料,将PCE 从9.2%提高到9.52%。Krishna 等[14]利用PLS 算法建立了染料敏化太阳能电池PCE 的多个QSPR 模型,使用了大约1200 种染料,涵盖7 种化学类别,7 种化学类别已开发的QSPR 模型有助于快速预测新/未经测试染料的PCE 以及设计新染料。偏最小二乘回归在线性算法中应用最为广泛,能够很好地拟合自变量与因变量之间的线性关系,其计算简单且便于掌握。

2.3 支持向量机

支持向量机(SVM)通过核函数间接实现非线性分类或函数回归。核函数表示特征空间中任意两个数据点(特征向量)之间的内积,是支持向量机的关键,隐含地定义了低维和高维空间之间的映射。核函数的计算是基于低维空间中的数据,但最终结果在高维空间中显示。因此,可以避免直接在高维空间中进行复杂的计算,可以使用基于核函数的支持向量机处理函数的非线性数据。SVM 适用于小样本分析,具有通用性、鲁棒性、泛化能力好等优点,相比线性建模等旧方法具有无法比拟的性能。

仲籽彦[15]利用支持向量机建立了354 种有机染料敏化分子的PCE 与分子描述符之间的级联QSPR 模型。实验表明,级联模型(第一级以分子描述符为输入,以Jsc、Voc和FF 为输出;第二级以第一级的输出为输入,以PCE 为最终输出)无论是预测能力、拟合优度还是模型稳定性均明显优于非级联模型,能够有效地预测有机染料敏化剂的PCE,成本低并相对稳定。崔艳莹[16]使用全局集成模型SVM-KNN-WMA 构建分子描述符与光电转化效率之间的回归模型,实证表明其性能优于单一支持向量机,基于全局集成模型可以预测具有较高PCE 的新型有机太阳能材料。

综上所述,复杂结构模型对于改进复杂预测是可行的,集成模型因能够通过组合多个机器学习模型产生一个优化的模型而被逐渐应用于QSPR 的研究中。

2.4 人工神经网络

20 世纪90 年代,人工神经网络(ANN)开始被用于QSPR 研究中,目前典型的神经网络模型主要包括多层感知器、BP 神经网络、径向基神经网络等。ANN 是一种数据驱动的建模方法,可以找到输入和输出变量之间的关系,而无需对关系进行明确分类。人工神经网络模型通常包含3层:1 个输入层、1 个或多个隐藏层和1 个输出层(图1)。层由几个节点组成,ANN 从输入层接收数据,输入层将信息传递到下一层,即隐藏层。隐藏层中的每个神经元接受前一层的加权线性求和,并将值映射到非线性激活函数上,从而产生神经元输出。隐藏层中每个神经元的输出值就是下一层神经元的输入值,输出层生成用作最终预测的值。

图1 BP 神经网络结构图Fig.1 Structure diagram of BP neural network

Xu 等[17]利用人工神经网络建立染料分子结构与染料吸收最大值之间的定量结构-性质关系,得到了决定系数R2=0.991 的非线性模型,通过测试集验证了模型的可靠性。此模型可以在染料实际合成之前估算其最大分子量。大量的实验证明,人工神经网络可以用来建立预测性能较好的QSPR 模型,但在网络训练时会存在不稳定性,必须结合合理的描述符筛选方法和模型验证方法。

2.5 随机森林

随机森林(RF)是一种非线性基于树的集成学习方法(bagging)。引导聚合是RF 的关键思想,当训练一个模型时,每棵树从训练集中随机选择多个样本以形成一个新的子集,然后从输入中随机选择多个特征来做出决策。通过投票,数百个决策树产生一个输出,以提供最佳答案。随机森林能处理高维度数据且不用做特征选择,对数据集适应能力强,训练速度快,实现比较简单,泛化能力强,训练完成后可以给出特征重要性,但相比于单一决策树,随机性让研究者难以对模型进行解释。

Venkatraman 等[5]建立了简单而稳健的QSPR模型,以预测73 个吩噻嗪染料的必要光伏特性,如Jsc、Voc和PCE。使用6 种不同的分子描述符(从基于原子环境的表示到利用半经验分子轨道信息的表示)开发了RF 回归模型,在所用描述符中,使用EVA 描述符生成了预测能力和鲁棒性最佳的模型。

2.6 深度学习建模

在过去几年中,深度学习已在许多领域产生了变革性影响,深度学习已被证明是利用大型数据集建立QSPR 模型的有用工具。深度神经网络模型通常包含3 层:1 个输入层、多个隐藏层和1个输出层。在深度神经网络(DNN)的“学习”过程中,隐藏层和输出层中所有神经元的值通过前一个神经元的值之和×权重+偏差计算,其中权重和偏差可以根据预测和目标之间的误差进行更新,直到误差达到最小值。需要对模型的超参数进行调优,超参数包含两部分:一是网络的结构参数(包括神经网络的层数、激活函数的类型、每层神经元的数量等),二是训练优化器的参数(包括优化器的类型、学习率、动量参数、正则化惩罚参数等)。输入层、隐藏层通常采用ReLu 激活函数,输出层神经元采用线性激活函数,优化器函数选择为“Adam”。在调整超参数的过程中,层数和神经元数越多,DNN 越深越宽,往往拟合能力越强,预测精度越高。然而,过多的层和神经元往往存在过度拟合问题,即对训练集的预测准确,但对测试集的预测较差。因此,模型要开发具有适当拟合能力的DNN 最佳体系结构,以便对输入和输出之间的复杂关系进行建模。

在已有的深度学习定量构效关系研究中,其中一类研究是采用大量的分子描述符表征分子结构信息并基于深度学习关联目标性质;另一类研究则使用深度学习直接对以图或文字形式表示的分子结构进行学习,并基于矢量化的分子信息关联目标性质[18]。Wu 等[19]为了预测有机太阳能电池的光电转换效率,开发了新的分子签名编码和信息嵌入策略以描述分子的组成结构,利用集成双向长短时记忆(Bi-LSTM)网络对分子信息进行处理,注意机制被用来识别对PCE 性能有重要影响的片段,最后利用反向传播神经网络(BPNN)建立深度学习体系结构。与其他几种建模方法的结果相比,该方法在预测精度上具有竞争力且能够识别决定性的分子成分。于程远等[20]采用一种类语言的分子描述符描述有机化合物,建立深度学习模型,以实现高精度的PCE 预测,获得了R2为0.97、MSE 为0.16 的预测结果,与现有方法的比较表明,该方法在精度上具有竞争力。Sun 等[21]开发了一个基于卷积神经网络(CNN)的ResNet 深度学习模型,能够识别化学结构和自动分类,其在预测有机太阳能电池(OPV)供体材料的PCE 方面取得了90%以上的准确率。这项研究表明,深度学习可以用于评估OPV 材料,能有效地建立光伏结构-性能关系。虽然深度学习具有上述优点,但DNN 模型缺乏透明度和可解释性,很难知道模型从训练数据集中学到了什么,即DNN 内部是一个“黑箱”,仅展示了可能的结果,而没找到真正的因果关系。

3 QSPR 模型评价指标

用平均绝对误差(MAE)、均方根误差(RMSE)和决定系数(R2)这3 个评价指标来评价模型的预测能力,其具体数学定义分别见式(2)~(4)[22]。

较低的MAE 和RMSE 表示模型的预测误差越小,预测结果越优;R2越大,拟合效果越好。当R2应用于测试集时,其值等于外部解释的方差(Q2),将评估指标应用于测试集时,对模型的性能进行比较。

4 QSPR 在DSSCs 上的相关应用

QSPR 建模可以通过化学分子描述符以及太阳能电池化合物的结构特征,探索分子结构与目标性质之间的关系,太阳能电池的性能可以通过评估重要的光伏参数确定,例如PCE、Jsc、Voc、FF。通过DSSCs 数据库得到实验值,运用数学建模方式建立QSPR 模型得到预测值,通过模型的相关参数评价模型的性能,当相关参数优异时,就可以通过QSPR 模型去预测未知化合物的性质,设计新型化合物。

4.1 最大吸收波长的QSPR 模型

吸收强度最大时所对应的波长称为染料的最大吸收波长(λmax)。λmax是染料的一个重要特性,标志着染料最基本的颜色,目前染料的最大吸收波长是通过实验获得的,虽然是有效的,但存在一些缺点和局限性,并且该方法不易用于有毒或挥发性物质。对于还没有合成的材料,也不能使用。基于上述问题,QSPR 可能是理想的候选方法。

Xu 等[23]采用线性回归算法对70 种染料敏化分子进行建模,λmax在378 nm 和660 nm 之间。Dragon 软件用于根据优化的分子几何结构计算3D 描述符,使用Kennard-Stones 算法,将整个染料集分为训练集和测试集,在训练集上,使用逐步MLR 为QSPR 模型选择描述符,最终选择了10 个描述符,得到的模型R2=0.95,并对描述符的显著性进行排序。实验表明该模型具有预测性,适用于任何化学结构的常规染料。因此,这种QSPR 模型应该有助于开发新的DSSCs 敏化剂,以达到预期的最大吸收波长。Asadollahi-Baboli等[24]使用Codessa 和Dragon 软件计算三维描述符来表示染料分子,随后使用多元自适应回归样条(MARS)和自适应神经模糊推理系统(ANFIS)等不同的化学计量学工具,结合蒙特卡罗(MC)采样技术,选择最重要的描述符,建立有机染料最大吸收波长的QSPR 模型,预测染料的λmax。实验表明,QSPR 提供了一种替代、快速、准确的方法来预测DSSCs 中染料的λmax。Krishna 等[25]开发了用于染料敏化太阳能电池染料最大吸收波长的预测模型,包括5 种化学类别,将通过最佳子集选择方法得到的2D 描述符建模。该研究从开发的模型中确定了几个对提高最大吸收波长很重要的化学属性,可用于预测新型或未经测试的有机染料的λmax。

4.2 光电转换效率的QSPR 模型

PCE 是衡量太阳能电池器件性能优劣最直观的参数,PCE 的大小反映了太阳能电池将光能转换成电能的能力,因此研究者不遗余力地探索提高PCE 的方法。传统的实验方法耗时耗力,虽有效,但存在一些缺点和局限性,而应用QSPR 能在一定程度上解决这些问题。

Hernández 等[26]应用B3LYP 交换相关能泛函和6-311G**基组,计算了70 种染料敏化剂分子的结构和电子性质。使用硬度(η)作为与PCE 相关的电子特性,以及四个结构描述符Mor25i、Mor28i、E1v 和HATS2p,使用QSAR-INS 软件通过多元线性回归、遗传算法以及组合方法设计了QSPR 模型预测PCE,R2=0.62 表明QSPR 模型可用于预测未知化合物,并得出硬度是测量PCE 的重要电子描述符这一结论。Yan 等[27]使用23 个吩噻嗪衍生物建立3D-QSAR 模型。生成的Topomer CoMFA 模型在统计学上具有显著性,留一交叉验证系数(q2)为0.698,非交叉验证相关系数(r2)为0.966。理论预测的PCE 与实验观测值吻合良好,验证了Topomer CoMFA 模型的高预测能力,此模型也为染料敏化剂的结构-性能关系提供新的视角和新的见解,并可能有助于染料敏化太阳能电池中尚未合成的有机敏化剂的合理设计、选择和预测。Tortorella 等[28]选择从3D 分子相互作用场(GRID/MIFs)图像中提取的适当描述符以及半经验计算描述符来描述目标结构,使用PLS 建立并分析了PCE 模型,以阐明结构-性能关系,此模型为设计潜在的高性能候选者提供指导。

4.3 Jsc×Voc 的QSPR 模型

由于许多因素会影响DSSCs 的性能,因此难以优化系统。例如,通过增加导带边缘(Ec)处的能量以减缓电子注入,可能有利于DSSCs 的性能。一方面,这将导致Voc的增加;另一方面,这将同时导致电子注入驱动力的降低,可能会导致Jsc的降低。而且FF 可以看作是常量,很难映射到染料的性质。因此,DSSCs 的性能可以通过电流和电压的乘积来量化,代表这两种效应之间的折衷[2]。

Venkatraman[29]等使用QSPR 模型(根据经验数据校准)建立香豆素染料敏化剂Jsc和Voc的乘积模型。该方案能够提出具有不同分子结构(Dπ-a、D-a-π-a、D-D-πa 等)和锚定基团的多种染料,证明了使用基于人工进化的全自动从头计算方法来建立Jsc×Voc模型,能够设计新的、有前途的、性能更好的香豆素染料敏化剂。

5 结论与展望

定量结构-性质关系能够用于染料敏化太阳能电池的研究中,通过机器学习与量子化学结合以及深度学习的应用,能够更好地为设计新型染料,提高光电转换效率服务。如果有好的描述符,就可以得到更健壮、更通用的模型。目前,研究人员依靠直觉选择描述符,而智能分子描述符选择值得进一步探索。更重要的是,应该更加注重提高模型的可解释性。目前,机器学习与QSPR 在DSSCs 方面的结合已日渐成熟,深度学习以其自动学习特征的优势,使得未来的研究会更多关注深度学习体系,建立深度学习的QSPR 模型来预测光电性能,设计新的染料分子,不断提高光电转换效率。虽然深度学习有诸多优点,但仍然存在一个问题,即此模型就像一个黑匣子,只会做出判断而不提供理由。在目前的研究背景下,不知道哪个结构对分子的高性能起重要作用。因此,了解深度学习模式的思考方式,将丰富深度学习领域的研究内容,从而为人类社会带来更大的价值。

猜你喜欢
描述符染料分子
基于结构信息的异源遥感图像局部特征描述符研究
新染料可提高电动汽车安全性
中国染料作物栽培史
分子的扩散
基于AKAZE的BOLD掩码描述符的匹配算法的研究
Linux单线程并发服务器探索
“精日”分子到底是什么?
米和米中的危险分子
染料、油和水
特征联合和旋转不变空间分割联合的局部图像描述符