用于预测带电粒子非线性行为的新型神经网络层

2022-03-26 02:23边天剑张天爵安世忠关镭镭冀鲁豫周洪吉
原子能科学技术 2022年3期
关键词:带电粒子加速器高阶

边天剑,张天爵,安世忠,关镭镭,黄 鹏,王 哲,冀鲁豫,付 伟,周洪吉

(中国原子能科学研究院 回旋加速器研究设计中心,北京 102413)

在粒子加速器设计阶段,带电粒子的非线性行为是重要的研究内容之一[1-6]。由于粒子加速器中高阶电场、磁场分量的存在,带电粒子的运动轨迹将偏离理想的简谐运动,呈现复杂的非线性特征。如粒子加速器的非线性效应会引起相空间畸变、束流包络增长、束晕等现象[7-9]。目前,对带电粒子非线性行为的研究主要有束流数值跟踪模拟[10-11]与解析分析[12-13]两种方法。基于加速器高阶传输映射的非线性效应解析分析,具有物理图像清晰、守辛、准确的优点,其缺点是适用范围较窄,对加速器设计者的数学、物理基础要求较高。带电粒子数值跟踪模拟基于求解运动方程的方法,虽然不能清晰表达物理图像,但具有使用方便、适用范围广的优点,故被广泛采用[14-15]。

粒子加速器非线性效应解析分析适用范围窄主要体现在:很多加速器中粒子的高阶传输映射并不容易得到。在环形加速器中不同的磁铁之间是有明确边界的,可通过逐个迭代每个磁铁的高阶传输映射近似得到,如1个六极磁铁(二阶传输映射,Tijk)与1个八极磁铁(三阶传输映射,Umijk)组合形成的高阶传输映射由Vm=ΣijkUmijkTijk得到[16]。然而很多加速器的磁场并不是有明确边界的,如回旋加速器中磁场谷区到峰区其是随着角度缓慢变化的。第3代同步辐射光源中的扭摆磁铁、固定场交变梯度(FFAG)加速器也存在相同问题。目前基于高阶传输映射的非线性效应解析分析对此类加速器并不适用。Deprit分解是进行非线性效应解析分析的重要一步,得到Deprit分解后便可计算得到相空间固定点、相空间边界、共振宽度等重要信息[17]。

神经网络在加速器中有多种多样的应用,如故障预测、性能优化、控制等。在加速器束流动力学方面,文献[18]利用神经网络层来表达不同磁铁元件的传输映射,并按照环形加速器实际磁聚焦结构设计构建了一种具有明确物理含义的神经网络。文献[19]所提出的神经网络经过实验数据训练后可很好地对含有各种误差的真实加速器进行建模,并在轨道矫正、束流光学参数矫正等方面进行了应用。文献[19]的网络可看作一种对真实加速器进行拟合的正向传播网络,该网络不具备通过数据学习预测带电粒子非线性行为的能力。文献[20]提出了一种全连接神经网络,并实现了对二极磁铁、四极磁铁、漂移节等线性加速器元件分类,其中所提出的全连接神经网络还可对带电粒子的二阶非线性运动进行预测,预测偏差的方均根约为2×10-2[21]。该网络的局限性在于使用了Relu作为激活函数,不具备明确物理含义,故泛化能力较差。

为了解决非线性效应解析分析适用性窄的问题,本文提出一种新型的神经网络层,使用该神经网络层构建的误差反向传播神经网络经过训练后,不仅可用作带电粒子非线性行为的预测,还可通过神经网络的权重推测带电粒子高阶传输映射的各阶Deprit分解。本文提出的新型神经网络层具有明确的物理含义,可通过数据学习预测带电粒子的非线性行为,并得到高阶传输映射的各阶Deprit分解,从而扩展非线性效应解析分析适用范围,降低非线性效应解析分析难度。

1 误差反向传播神经网络基本原理[22-23]

图1 神经网络的基本结构Fig.1 Basic structure of neural network

误差反向传播神经网络一般由3部分组成:输入层、1个或多个中间层、输出层。图1为三层神经网络结构,输入向量x=(x1,x2)T经过线性映射到中间层。中间层含有两列,第1列的各值是输入向量x的加权和,第2列为非线性函数,通常称为激活函数。神经网络最终的输出y为中间层的加权和(也可有多个输出)。神经网络可看作复杂的复合函数,简记为y=f(x)。神经网络的训练需要大量的输入-输出数据做支撑。初始神经网络权重参数是随机的,通过分析神经网络的预测值f(x)与真实值y之间的差异(即损失函数),不断更新神经网络权重参数,最终达到良好的预测效果。

(1)

其中,η为学习率,代表了每次对神经网络权重参数更新的幅度。

激活函数是一种非线性函数,是神经网络中必不可少的一部分,没有激活函数的神经网络就退化成了一系列的线性代数运算。常用的激活函数有sigmoid函数,tanh函数,relu函数等。本文所提出的一种用于预测带电粒子非线性行为的新型神经网络层也可看作一种新型的激活函数层。

2 神经网络模型的建立

2.1 新型神经网络层的物理基础

本文构造一种不仅可用作带电粒子非线性行为的预测,还可通过神经网络的权重推测带电粒子高阶传输映射的各阶Deprit分解的神经网络层。Deprit分解是一种将带电粒子线性运动与非线性效应完全分离的分解方法,具有形式[13-14]为:

M=Re:g:

(2)

其中:M为守辛的高阶传输映射;R为带电粒子线性运动,即常用的传输矩阵;:g:为对g与粒子坐标进行泊松括号运算,所有的非线性效应均存在于指数g中,g由带电粒子坐标的各个高阶项之和构成。

计算得到g是进行非线性效应解析分析的重要一步,其后可计算得到相空间固定点、相空间边界、共振宽度等重要信息[17]。本文新型神经网络层的构造模拟了李指数运算,即:

(3)

式(3)为无限项之和,可根据计算精度的需求将其截断到所需要的阶数。将指数g中的各高阶项系数作为神经网络的可学习参数,通过大量束流跟踪数据的学习,使用误差反向传播算法逐步逼近真实的指数g。指数运算e:g:是一种非线性运算,故该神经网络层也可看作一种含有待学习参数的非线性激活函数。相比其他激活函数,由于本文所构造的新型神经网络层中的各待学习参数具有明确的物理含义,故对于带电粒子非线性行为的预测具有更好的泛化能力。

2.2 神经网络的搭建

使用2.1节中所描述的新型神经网络层搭建了一种预测带电粒子非线性行为的神经网络,如图2所示。输入层为带电粒子的相空间四维坐标(x,x′,y,y′),中间层1为全连接层。全连接层的权重即为束流传输矩阵中的各元素。中间层2为模拟李指数运算e:g:的新型神经网络层,它有3点特殊之处:1) 乘节点是做乘法运算,而不是普通节点的加权和运算;2) 和节点将乘节点的结果做加权和运算,即得到指数g,其权重W1,W2,W3,…,Wm为指数g中高阶项的系数;3) 虚连接线的含义是将和节点与中间层1的结果做泊松括号运算。

图2 神经网络模型的建立Fig.2 Establishment of neural network model

(4)

3 神经网络训练与结果

为了验证新型神经网络层对非线性粒子运动预测的能力,本文采用如下验证方案。设计了一个FODO结构,由两块聚焦四极磁铁、1块散焦四极磁铁、1块六极磁铁、2个漂移节组成。六极磁铁紧邻第1块聚焦四极磁铁,带电粒子的非线性运动均由六极磁铁引起。为了可精确计算该FODO结构的非线性效应,所有磁铁均采用薄透镜近似。该FODO结构长度为40 m,水平方向与垂直方向的相位移动均为60°,六极磁铁归一化强度为1.25。由于该磁聚焦结构只含有1块六极磁铁,故可将指数g中的阶数大于3的高阶项截断,即只保留三阶Deprit分解g3。

3.1 数据准备

误差反向传播神经网络的优势是可拟合几乎任何复杂函数,但作为一种数据驱动的算法,其缺点是训练过程需大量训练数据作为支撑。由于数值跟踪模拟可得到大量轨迹数据,可解决大量训练数据的需求。本文中的神经网络对训练数据有以下3方面要求。

1) 训练数据应含有振幅适中的粒子轨迹,主要体现束流的线性运动。由于从粒子大幅振荡的非线性轨迹中学习到线性运动规律是十分困难的,会导致收敛过慢或不收敛。故需要主要体现束流的线性运动的轨迹数据,帮助中间层1中的线性传输矩阵的收敛。

2) 训练数据应含有大幅振荡的粒子轨迹,体现高阶传输映射的非线性特征。训练数据中明显偏离线性运动的轨迹数据是更好的训练得到指数g的高阶项权重W1,W2,W3,…,Wm的基础。

3) 训练数据应含有磁聚焦结构动力学孔径之外的带电粒子轨迹。虽然振幅过大的粒子不可在磁聚焦结构中稳定存在,但由于此类粒子轨迹几乎由非线性效应支配,适量的此类数据可帮助神经网络达到更好的收敛效果。

图3为带电粒子相空间运动轨迹的部分数据示例。本文所作计算共使用了60万个粒子轨迹数据,其中10%作为测试数据集,90%作为训练数据集。适中振幅、大振幅、动力学孔径之外的带电粒子轨迹比例约为1∶4∶1。

图3 带电粒子相空间非线性运动轨迹数据(a)与近似线性运动轨迹数据(b)Fig.3 Nonlinear orbit (a) and approximate linear motion (b) data of charged particle in phase space

3.2 神经网络训练与结果分析

图4 损失函数收敛过程Fig.4 Convergence process of loss function

将128个轨迹数据作为一批次,计算该批次数据损失函数对权重参数的平均梯度,即批量梯度下降法。该方法可避免某些数据引起的错误梯度下降方向,从而加快收敛,提高精度。学习率的选取也会极大地影响收敛速度,过大的学习率会导致损失函数前期下降快而后期振荡。过小的学习率则会导致收敛速度过慢。综合考虑,本文选取学习率η=0.01。图4为随着迭代次数的增加,损失函数逐渐收敛的过程,最终损失函数收敛到10-6m量级。

图5 训练后的神经网络权重与解析计算得到的高阶项系数的对比Fig.5 Comparison between weight of trained neural network and analytically calculated coefficient

图5为训练后的神经网络权重与解析计算得到的高阶项系数的对比,纵坐标使用对数坐标。从图5可看出,神经网络得到的高阶项系数与解析计算吻合良好,差异小于千分之一。通过神经网络计算的三阶Deprit分解g3有足够高的精度,完全可使用神经网络计算的g3进行相空间固定点、相空间边界、共振宽度等方面的计算,文献[17]阐述了如何通过Deprit分解进行上述计算。图6为训练后神经网络对带电粒子相空间轨迹预测值与数值跟踪的对比。训练后神经网络对带电粒子相空间连续40圈的轨迹进行预测,并与数值跟踪结果对比。结果发现两者吻合程度良好,本文所提出的神经网络可很好地预测带电粒子非线性运动的趋势。

图6 训练后神经网络对带电粒子相空间轨迹预测值与数值跟踪对比Fig.6 Phase space comparison between trained neural network and numerical tracking

图7为训练后的神经网络在测试数据集中损失函数的概率分布。可看出,测试数据集中有接近60%的数据损失函数在10-5m量级,不足1%的数据损失函数大于5×10-4m,训练后的神经网络在测试数据集中整体表现良好。

图7 训练后的神经网络在测试数据集中损失函数的概率分布Fig.7 Probability distribution of loss function of test data set for trained neural network

4 14~70 MeV FFAG加速器带电粒子在相空间的运动

本文所述的神经网络方法可扩展加速器非线性效应解析分析手段的适用范围,即为回旋、FFAG等类型的加速器提供非线性效应解析分析的途径。本文将神经网络方法应用于14~70 MeV FFAG加速器。图8为14~70 MeV FFAG加速器磁场分布。由于该FFAG加速器的径向工作路径会穿越3vr=4共振,故四次谐波磁场会形成三阶共振,从而对相空间造成破坏,并形成3个固定点。文献[24]从理论上对该现象进行了阐述,并指出径向工作路径穿越三阶共振会导致固定点旋转180°。

图8 14~70 MeV FFAG加速器磁场分布Fig.8 Layout of 14-70 MeV FFAG magnetic field

应用本文的神经网络方法对图8中14~70 MeV FFAG加速器的Deprit分解g3进行计算,并使用计算所得g3进行粒子跟踪,如图9所示。可看出,粒子轨迹在相空间形成3个固定点,且在穿越3vr=4共振前后旋转180°。计算所得g可很好地复现文献[24]所述现象。

图9 vr=1.32粒子相空间轨迹(a)与vr=1.34粒子相空间轨迹(b)Fig.9 Phase space plots of vr=1.32 (a) and vr=1.34 (b)

5 结论

为了扩展加速器非线性效应解析分析手段的适用范围,降低非线性效应解析分析难度,本文构造了一种用于预测带电粒子非线性行为的新型神经网络层,并用其搭建了误差反向传播神经网络。使用一个带有六极磁铁的FODO磁聚焦结构的带电粒子轨道数据进行训练,验证结果表明了本文所提出的神经网络结构的有效性。由于本文所构造的新型神经网络层中的各个待学习参数是具有明确物理含义的,故对于带电粒子非线性行为的预测具有良好的泛化能力。通过该神经网络计算所得的三阶Deprit分解有足够高的精度,完全可用于相空间固定点、相空间边界、共振宽度等方面的计算。

本文所构建的神经网络层的缺点在于对训练数据的敏感性高,其对数据的筛选有如下两点经验:1) 需筛选出体现带电粒子各种非线性运动特征的数据;2) 不仅需带电粒子单次通过磁聚焦结构的轨迹数据,还需多次通过磁聚焦结构的轨迹数据。另外,由于中间层1的权重代表带电粒子的线性传输矩阵,且加速器的线性传输矩阵容易得到,故在训练过程中可将中间层1的权重固定,从而加快神经网络损失函数的收敛速度与精度,降低对训练数据集的敏感性。

基于本文的研究工作,可继续开展两方面的研究:1) 优化本文所提出的神经网络,提高神经网络对训练数据的敏感性;2) 本文工作还局限于对带电粒子横向非线性运动的预测,后续研究可开展含有纵向运动的三维非线性运动预测的研究。

猜你喜欢
带电粒子加速器高阶
莫比斯加速器众创办公空间
知识快餐店 科学加速器
国内外医用直线加速器可靠性对比研究
高阶时频变换理论与应用
高阶思维介入的高中英语阅读教学
三个高阶微分方程的解法研究
高阶非线性惯性波模型的精确孤立波和周期波解
带电粒子在磁场中的运动检测题
带电粒子的奇幻之旅
带电粒子的秘密花园(续)