基于NARX动态神经网络直拉硅单晶直径预测模型

2022-02-01 06:15徐圣哲高德东吴昊昊张西亚韩永龙李丽荣
人工晶体学报 2022年12期
关键词:单晶特征参数晶体

徐圣哲,高德东,王 珊,吴昊昊,张西亚,韩永龙,李丽荣

(1.青海大学机械工程学院,西宁 810016;2.阳光能源(青海)有限公司,西宁 810007)

0 引 言

发展太阳能光伏发电是实现国家“双碳”目标、优化能源结构和提高能源占有量的强有力措施。硅由于具有储量大、化学性质不活泼、电化学和热稳定性好等优点被广泛应用于光伏发电领域[1]。在直拉法硅单晶直径控制中,比例积分微分(proportion integration differentiation, PID)控制对于非线性、大滞后和不确定性等问题的控制效果不佳[2-3]。因此,许多学者提出在直拉硅单晶生长过程控制中应用基于模型的控制方法[4]。

在机理建模方面,Winkler等[5]采用集总参数法,建立了适合于控制的晶体直径和晶体生长速度模型、固体-液体界面热关系模型和弯月面质量计算模型。Rahmanpour等[6]建立了非线性的状态空间模型并对晶体的实际直径和弯月面高度进行了分析。Derby等[7]提出了一种在时变空间域上进行偏导的晶体传热模型。张妮等[8]建立了一种二维轴对称浸入边界热格子Boltzmann模型来研究晶体生长中的相变问题。Chen等[9]在横向磁场下建立了硅熔体流动、热场分布、氧含量浓度三维模型。张晶等[10]基于抛物型偏微分方程对时变空间域的对流扩散过程建立了温度模型来研究等径阶段晶体直径波动。在数据驱动建模中,等径阶段晶体直径控制分为单特征参数和多特征参数两方面。在单特征参数方面,王春阳[11]在粒子群优化算法的基础上建立了加热器功率-晶体直径支持向量回归模型,并根据预测模型设计无模型自适应预测控制算法。王可[12]运用多模型策略和分段线性法,建立“加热-升温”模型,并设计模型控制器对单晶炉晶体生长过程中的各主要过程进行了分段和模拟。李欣鸽[13]基于带外源输入的非线性自回归(nonlinear autoregressive with exogeneous inputs, NARX)神经网络建立等径阶段加热器温度-晶体直径非线性模型并设计预测控制算法。上述基于数据驱动的模型控制方法的研究中均采用单一的特征参数即加热器-晶体直径,未考虑其他特征参数的影响。在多特征参数方面,刘聪聪等[14]建立了基于混合变量加权堆栈自编码随机森林的软测量模型并利用灰狼优化算法对其进行优化,实现了晶体直径控制及V/G值的实时在线监控,其研究主要目的为控制硅单晶缺陷。高德东等[15]建立了基于数据驱动的BP神经网络晶体直径预测模型,并采用遗传算法对其进行优化。上述研究未从机理方面考虑,未探究特征参数对等径阶段晶体直径的时延影响。

由于直拉法硅单晶生长过程中存在多种机理假设,多场耦合下边界条件不明确和化学变化交错且相互影响等问题,导致机理建模困难[16]。基于数据驱动的模型控制方法采用单一的特征参数或未考虑特征参数对等径阶段晶体直径的时延影响。NARX动态神经网络是一种具有记忆功能、结构简单和使用范围广的神经网络,在处理时间序列的建模和预测等各种非线性问题上效果良好[17-20]。因此,本文提出一种多输入单输出的NARX动态神经网络的等径阶段晶体直径预测模型,为晶体直径的控制提供了一种更准确的辨识模型,同时为实现晶体高质量、大尺寸生长控制提供了一种有效的手段。

1 晶体直径预测模型的工作流程

基于神经元的晶体直径预测模型如图1所示,具体分为数据准备、神经网络训练和神经网络计算三部分。在数据准备部分,对单晶炉拉晶车间晶体直径生长数据中的关键特征参数通过最大信息系数(maximal information coefficient, MIC)算法进行分析,确定对等径阶段影响最大的特征参数,并将选取的数据分为训练数据和验证数据两部分,分别用于神经网络训练和神经网络的可靠性验证。在神经网络训练部分,首先构建合适的神经网络拓扑结构,并对其进行初始化。然后,导入训练数据进行神经网络训练,通过训练调整神经网络各层间的权值,得到精度满足要求的神经网络,并通过验证数据对神经网络进行验证。最后将得到的神经网络用于后续计算。

图1 基于神经元的晶体直径预测模型Fig.1 Crystal diameter prediction model based on neuron

2 特征参数识别与处理

2.1 基于 MIC 的参数相关性分析

直拉硅单晶等径阶段特征参数与晶体直径的相关性分析属于特征降维,应采用过滤式特征选择的方法。该方法中的MIC是基于互信息理论提出的一种特征选择算法,具有普适性和均衡性的特点,能够有效度量两变量的线性或非线性关系,以及不同类型数据间的相关性[21-22]。因此,本文通过MIC分析特征参数与晶体直径的相关性。两随机变量的 MIC 表达式为:

(1)

式中:Ω(nx,ny)表示大小为nx×ny的二维网格集合;B(n)=nα为最大网格数,n为数据样本个数,α为常数,α∈(0,1),其具体取值可根据经验或数据规格设置。

MIC算法的核心思想是在两个变量散点图的基础上,将散点图上的观测点利用划分网格栅G的方法分割成nx×ny

加热功耗和主泵功耗二者散点图如图2所示,图2(a)为加热功耗-晶体直径散点图,图2(b)为主泵功耗-晶体直径散点图,二者散点图基本相同,计算加热功耗和主泵功耗的MIC为0.998 8,二者具有极强的线性关系,可认为加热功耗和主泵功耗相互冗余。去除冗余参数主泵功耗和拉晶过程数值恒定的特征参数晶转速度和红外液温,对剩余16个特征参数按照MIC值从高到低排列,按照顺序逐渐增加模型输入特征参数数量并试算,结果如图3所示。随着模型输入特征参数数量的增加,模型运算速度降低。当模型输入特征参数数量小于7时,随着数量的增加预测值与测试值之间的均方根误差(root-mean-square error, RMSE) 逐渐减小;当模型输入特征参数数量大于7时,随着数量的增加预测值与测试值之间的RMSE逐渐增大;当模型输入特征参数数量为7时,预测值与测试值之间的RMSE最小。考虑模型训练速度和精度,选取与晶体直径相关性较高的7个特征参数(加热功耗、球阀开度、主室炉压、副室炉压、主加热功率、整棒拉速、炉壁测温)作为模型输入。优化调节这7个特征参数将最大程度调节直拉硅单晶等径阶段晶体直径。

图2 MIC散点图。(a)加热功耗-晶体直径散点图;(b)主泵功耗-晶体直径散点图Fig.2 MIC scatter plots. (a) Heating power consumption-crystal diameter scatter plot; (b) main pump power consumption-crystal diameter scatter plot

图3 不同数量模型输入和均方根误差的关系Fig.3 Relationship between different number of model inputs and root mean square error

2.2 数据标准化

在多指标评价体系中,由于各种评价指标的尺度和尺度单位都不尽相同,在不同指标之间存在巨大差异,若不对数据进行标准化(归一化)处理,指标的数值高低将会影响分析结果,导致后续训练精度不佳。因此,为了消除指标之间的量纲影响,提高数据可靠性和训练精度,在使用数据前对其进行标准化处理。将所选用7个模型输入特征参数和1个模型输出特征参数进行min-max标准化(min-max normalization)处理,对原始数据的线性变换使结果值映射到[0,1]。转换函数如下:

(2)

式中:xmax为样本数据的最大值;xmin为样本数据的最小值;x*为数据标准化后参数。本文采用标准化之后的特征参数组成的7元组Xi(i=1,2,3,…,6,7)作为模型输入,晶体直径Y作为模型输出,如表2所示。

表2 模型输入输出特征参数Table 2 Inputs and outputs characteristic parameters of model

3 晶体直径预测模型建立

NARX模型是基于线性ARX模型发展而来,常用于时间序列建模。NARX 动态神经网络由输入层、隐含层和输出层三部分组成,其结构如图4所示。

图4 NARX动态神经网络结构模型Fig.4 Structure model of NARX dynamic neural network

NARX动态神经网络的输入分为外部输入和反馈输入两部分,两部分均含有时间延迟结构。这表明NARX动态神经网络的输出不仅由当前的外部输入所决定,还受外部输入时间延迟和反馈输出时间延迟的影响。该结构能够提高神经网络的学习性能和对历史数据的敏感度,可以更好地捕捉到系统的动态特性。NARX模型的定义方程是:

y(t)=f[u(t-1),u(t-2),…,u(t-nu),y(t-1),
y(t-2),…,y(t-ny)]+e(t)

(3)

(4)

(5)

式中:u(t)表示为在t时刻的输入时序数据;y(t)表示为在t时刻的输出时序数据;nu表示输入的时延阶数;ny表示输出的时延阶数;e(t)表示模型误差;Hk(t)表示第k个隐含层神经元输出层的输出;ωik表示连接第i个外生输入和第k个隐含层的神经元;ωjk表示第j个反馈输入和第k个隐含层神经元;ωok表示隐含层和输出层的权值;bk、bo表示偏置;f(·)表示非线性激活函数;g(·)为线性激活函数。

神经网络中的隐含层不直接同输入输出连接,它通过处理输入数据的特征来更好地进行数据处理和划分,因此隐含层数很大程度影响神经网络对数据的处理能力。隐含层数为1层时,神经网络可以逼近任意连续函数。综合考虑模型精度及复杂程度,选取隐含层数为1。隐含层中神经元数也称为节点数,通常由经验法或反复实验法选取,如神经元数目过少会无法匹配数据全部特征,出现欠拟合的情况,影响训练精度。如神经元数目过多,训练过程将会增加,甚至会出现过拟合的情况,同样影响训练精度。通过试算,当隐含层中神经元数为10时,预测值与测试值之间的RSME最小。因此,隐含层神经元数为10。加热功耗与晶体直径的MIC为0.529 4,对直拉硅单晶等径阶段直径影响最大。由硅晶体生长理论可知,实际拉晶生产中加热功耗对晶体直径影响很慢,经验滞后时间约为8 min[13]。根据模型时延参数计算:

(6)

在晶体直径测量数据中采样时间Δt=60 s,经验滞后时间t=8 min,计算晶体直径时延参数d=8。因此,输入时延阶数和输出时延阶数均取8。

NARX动态神经网络的训练方法会极大地影响到它的预测性能,常见的训练算法指标对比如表3所示。Bayesian Regularization算法需要更大的内存和更多的收敛时间,但对于困难或嘈杂等特殊的数据集,具有良好的泛化效果。Scaled Conjugate Gradient算法需要较少的内存,适用于求解线性方程组和无约束优化问题。LM(Levenberg-Marquardt)算法需要内存较多,收敛时间较短,该算法将最速下降法与高斯-牛顿法相结合,根据离最优解的距离选用不同的算法,既可以克服最速下降法离最优解的距离较近时收敛速度慢的问题,又可以克服 Hessian矩阵无法迭代不满秩的问题。考虑收敛速度和训练精度,本文选取LM算法作为训练算法。综上所述,NARX动态神经网络的模型参数为隐含层数为1,隐含层神经元数为10,输入时延阶数和输出时延阶数为8,训练算法为LM算法。

表3 常见的训练算法指标Table 3 Common training algorithm indicators

4 晶体直径预测

4.1 NARX动态神经网络晶体直径预测

采用来源于拉晶车间提供的三台单晶炉等径阶段8轮生产数据,将预处理后的完整数据80%划分为训练集(train set)、10%划分为验证集(validation set)、10%划为测试集(test set),用于模型的训练、筛选和评估。训练后NARX动态神经网络测试集的误差直方图如图5所示,图5中横坐标误差为标准化后晶体直径相对误差,其误差值为标准化后晶体直径真实值与预测值差值 (Post-standardization error=Post-standardization target-Post-standardization prediction),纵坐标为测试集的数量。图5(a)所示的No.1单晶炉测试集误差分布集中在0误差线附近,处于-0.03~-0.01之间的误差的数量最多。随着距离0误差线距离增大,存在误差的数量逐渐减小,所有误差处于-0.10~0.07之间。图5(b)所示的No.2单晶炉测试集误差分布集中在0误差线附近,处于0~0.01之间的误差的数量最多,较其他区间误差数量比较突出。随着距离0误差线距离增大,存在误差的数量逐渐减小,所有误差处于-0.05~0.06之间。图5(c)所示的No.3单晶炉测试集误差大部分集中于-0.03~0.04之间。随着距离0误差线距离增大,存在误差的数量逐渐减小,所有误差处于-0.08~0.07之间。由图5所知,三台单晶炉误差数值和误差分布均较为理想,满足预测要求。

图5 NARX动态神经网络误差直方图。(a)No.1单晶炉;(b)No.2单晶炉;(c)No.3单晶炉Fig.5 Error histogram of NARX dynamic neural network. (a) No.1 single crystal furnace; (b) No.2 single crystal furnace; (c) No.3 single crystal furnace

通过缩小训练数据可验证NARX动态神经网络的有效性[23]。针对No.3单晶炉,缩小训练数据,采用5轮单晶炉等径阶段生产数据,其余NARX动态神经网络模型设定不变,训练结果如图6所示。5轮数据的No.3单晶炉测试集误差大部分集中于-0.04~0.04,有相当一部分数据误差处于-0.14~-0.05,其所有误差处于-0.14~0.07,同图5(c)相比预测误差明显增大。在缩小训练数据的情况下,可以获得较好的直径预测结果,验证了NARX动态神经网络的有效性。然而,随着训练数据的减少,预测误差逐渐增大。

图6 No.3单晶炉误差直方图(5轮)Fig.6 Error histogram of No.3 single crystal furnace (5 rounds)

4.2 NARX动态神经网络优越性验证

BP神经网络,也称为反向传播神经网络,是一种静态前馈神经网络,具有结构简单,应用广泛,非线性映射能力强与泛化能力强等优点[24]。在实际生产中,每台单晶炉因组装和生产工艺优化调整等原因存在差异,在生产前需对每台单晶炉参数进行调整,导致加热特性不同。因此,采用上述相同数据集,基于BP神经网络建立等径阶段晶体直径预测模型,并对No.1、No.2、No.3单晶炉分别进行训练。将NARX动态神经网络和BP神经网络预测结果进行对比分析,两种神经网络预测值与真实值对比图如图7所示,预测结果如表4所示。

图7 预测值与真实值对比图。(a)No.1单晶炉;(b)No.2单晶炉;(c)No.3单晶炉Fig.7 Comparison of predicted and real values. (a) No.1 single crystal furnace; (b) No.2 single crystal furnace; (c) No.3 single crystal furnace

表4 两种神经网络预测模型性能Table 4 Performance of two neural network prediction models

图7(a)所示的No.1单晶炉中NARX动态神经网络可以较精确地预测等径阶段晶体直径,其预测均方误差MSE 为0.000 797 72,相关系数R为96.744%。BP神经网络预测直径波动范围小,不能实时反映晶体直径的无规则变化,只能大致反映晶体直径变化趋势,其预测均方误差MSE为0.006 498,相关系数R为75.428%,可见在No.1单晶炉中,NARX动态神经网络的预测精度明显优于BP神经网络。图7(b)所示的No.2单晶炉中,NARX动态神经网络可以较精确地预测等径阶段晶体直径,其预测均方误差MSE为0.000 948 81,相关系数R为98.907%。BP神经网络预测直径波动范围小,同直径真实值差距较大,预测值变化趋势明显滞后于真实值,其预测均方误差MSE 为0.004 389,相关系数R为89.129%,可见在No.2单晶炉中,NARX动态神经网络的预测精度明显优于BP神经网络。图7(c)所示的No.3单晶炉中NARX动态神经网络可以精确地预测等径阶段晶体直径,其预测均方误差MSE 为0.000 575 47,相关系数R为99.594%。BP神经网络在前期直径波动较小时预测误差较小,当晶体直径波动较大时,预测值明显偏离于真实值,误差较大,其预测均方误差MSE 为0.006 487 9,相关系数R为96.254%,可见在No.3单晶炉中,NARX动态神经网络的预测精度明显优于BP神经网络。

在3台单晶炉中,BP神经网络的均方误差MSE平均值为0.005 792,相关系数R平均值为86.937%, NARX动态神经网络均方误差MSE平均值为0.000 774,相关系数R平均值为98.415%。以平均均方误差MSE作为评估标准,NARX动态神经网络较BP神经网络预测精度提高了86.64%。以平均相关系数R作为评估标准,NARX动态神经网络较BP神经网络预测精度提高了13.20%。

根据No.1、2、3三台单晶炉的拉晶车间生产数据,基于NARX动态神经网络建立等径阶段晶体直径预测模型,其预测晶体直径误差数值和误差分布均较为理想。当缩小训练数据的情况下,该模型仍获得较好的直径预测结果。将建立的NARX动态神经网络同BP神经网络进行对比,三台单晶炉的NARX动态神经网络预测精度均明显优于BP神经网络。上述结果表明, NARX动态神经网络为晶体直径的控制提供了一种更准确的辨识模型。

5 结 论

本文针对直拉法在制备硅单晶的过程中存在多种机理假设、多场耦合下边界条件不明确和化学变化交错且相互影响等问题,探究了与晶体直径的相关的特征参数,建立了一种多输入单输出的NARX动态神经网络等径阶段晶体直径预测模型,并分析验证了该模型预测效果,结论如下:

(1)通过MIC算法分析特征参数与晶体直径的相关性,得到加热功耗、球阀开度、主室炉压、副室炉压、主加热功率、整棒拉速以及炉壁测温7个与晶体直径的相关性最高的特征参数。

(2)所建立NARX 动态神经网络等径阶段晶体直径预测模型对晶体直径预测的均方误差MSE平均值为0. 000 774。

(3)通过NARX动态神经网络和BP神经网络进行对比分析,在以平均均方误差MSE作为评估标准下,所用神经网络较BP神经网络预测精度提高了86.64%,验证了NARX动态神经网络的优越性。

猜你喜欢
单晶特征参数晶体
“辐射探测晶体”专题
冕洞特征参数与地磁暴强度及发生时间统计
基于交通特征参数预测的高速公路新型车检器布设方案研究
基于PSO-VMD的齿轮特征参数提取方法研究
基于视频的车辆特征参数算法研究
大尺寸低阻ZnO单晶衬弟
大尺寸低阻ZnO单晶衬底
大尺寸低阻ZnO 单晶衬底
大尺寸低阻ZnO 单晶衬底