基于深度学习方法预测IMRT计划射野的γ通过率

2021-07-06 06:13段欢欢李书舟曹瑛唐杜雷明军杨振邱小平
中国医学物理学杂志 2021年6期
关键词:集上预测值卷积

段欢欢,李书舟,曹瑛,唐杜,雷明军,杨振,邱小平

1.南华大学核科学技术学院,湖南衡阳421001;2.中南大学湘雅医院肿瘤科,湖南长沙410008

前言

相比于常规的适形放疗,调强放射治疗(Intensity-Modulated Radiation Therapy,IMRT)的最大优势是通过强度调制实现了靶区内高适形度的剂量分布,同时降低了周围正常组织的受照量[1]。但是,IMRT也增加了治疗过程中计划剂量传递的不确定性,因此,必须制定全面的质量保证(Quality Assurance,QA)和质量控制(Quality Control,QC)程序以评估治疗实施的可靠性和安全性[2-4]。目前,传统的计划QA 方法主要是在患者治疗实施前对计划进行二维或三维的剂量分布测量,并通过γ 分析方法将其与计划系统计算的剂量分布进行比较来判断计划是否可行[5]。然而,这些测量过程需要耗费大量的时间和人力成本,对于那些没能通过QA 测量的计划,也很难确定其失败的具体原因并加以纠正,这可能会延缓患者的放疗进程[6]。因此,临床上需要一种更精简、更智能、能预先识别那些不能通过QA 测量计划的方法。在本研究中,笔者基于深度学习方法建立卷积神经网络(Convolution Neural Network,CNN)模型来预测脑胶质瘤患者IMRT计划单个射野的γ 通过率(Gamma Passing Rates,GPR),以研究射野的剂量分布信息用于预测GPR 的可行性并探讨改善模型预测精度的方法。这种虚拟QA 的方法将有助于物理师及时优化QA 测量潜在失败的计划,有效减少特定患者QA 的工作量并节约临床资源[7]。

1 资料和方法

1.1 病例选取

选取2019年1月~2020年5月在本中心接受放疗的48例脑胶质瘤患者的IMRT计划,计划设计过程都在Eclipse version 13.7(Varian Medical Systems, Palo Alto,CA)治疗计划系统完成,计划分别采用了5野、6野、7野IMRT照射,共计260个射野,X射线束能量为6 MV,剂量计算采用AAA算法,计算网格为2.5 mm,患者治疗实施以及计划验证过程都在Varian 23EX直线加速器上进行。

1.2 电子射野影像系统剂量验证

研究中的剂量验证设备是电子射野影像系统(Electronic Portal Imaging Device,EPID)非晶硅平板探测器,其在40 cm×30 cm 的有效探测平面上分布了1 024×768个探测器,分辨率可达0.392 mm/pixel。在加速器上执行患者的IMRT QA 验证计划,并利用EPID 测得射野影像,其灰度值与接收到的剂量直接相关,因此经过校准和刻度后可用于患者治疗前的剂量验证。Eclipse 工作站中的portal dosimetry 剂量测定软件包会根据患者的计划及CT 信息推算出射野的剂量分布,并通过γ 分析方法将其与EPID 实测的射野影像进行比较,选取2%(global)/2 mm 标准和10%的最大剂量阈值进行γ 评估并得到每个射野的GPR。为了减小GPR 受加速器性能及其日常输出波动的影响,所有的计划验证工作都在一天之内完成。

1.3 模型的输入数据

每个射野基于portal dosimetry系统计算的剂量分布图、2%(global)/2 mm 标准以及10%阈值下的GPR将分别作为模型的输入和输出。为了减少CNN模型的计算量并提取到更有利的特征,将所有射野的剂量分布图都减少至227×227个像素,像素值都用对应射野的最大像素值进行标准化,并将小于最大值10%的像素点全部设置为0,像素分辨率为1 mm×1 mm。此外,为了减小EPID 射野影像灰度响应值受射野大小和入射角度的影响,剂量验证测量时需要保证每个射野的机器跳数(Monitor Unit, MU)都被投射在EPID 平面上,并且机架角度和准直器角度统一设置为0,这也是为了排除多叶准直器(Multileaf Collimators,MLC)重力因素对测量结果的影响。

1.4 CNN结构

AlexNet[8]是CNN 领域比较有标志性的一个网络模型,本文中的CNN 模型则是在AlexNet 的基础上进行了改动,其结构如图1所示,我们使用卷积核分别为7×7和5×5的两个卷积层替换了卷积核为11×11的第一个卷积层,并将步长由4改为2,以及使用两个卷积核为3×3 的卷积层替换了卷积核为5×5 的第二个卷积层,通过使用更小的滤波器可以实现更深的网络构造,并得到更好的非线性和降低网络的权值。此外,使用Relu 作为激活函数可以增加神经网络模型的非线性,L2 正则化用来防止模型过拟合并实现对模型空间的限制,3 个最大池化层不仅能够降低特征图的维度,还可以忽略剂量分布图倾斜、旋转等相对位置的变化,有助于提高模型的预测精度。此外,每一个卷积层和全连接层后面都引入了批量标准化(Batch Standardization, BN)以及在全连接层之间使用数据丢失(dropout)技术,可以保证模型有一个更稳定的输出并在一定程度上防止模型过拟合。最后的全连接层用来对前面所设计的特征做加权和并输出模型的预测值。

图1 CNN模型结构示意图Fig.1 Structure diagram of convolution neural network(CNN)model

1.5 模型的训练和评估

传统机器学习阶段(数据集在万这个数量级),数据集的划分比例一般为6:2:2,但由于本文的数据集只有260个样本,为了避免训练集过少导致模型欠拟合,具有较差的泛化能力,笔者将数据集按照8:1:1的比例进行训练集、验证集和测试集的划分,即208 个射野作为训练集供模型训练,26 个射野作为验证集用于模型测试和选择,另外26 个射野则作为测试集来评估模型的泛化性。数据集划分时采用均匀随机抽样的方式来保证它们都处于同一分布中,以减少数据特异性对模型预测效果的影响,此外,笔者还将训练集中每个射野的剂量分布图沿水平、竖直方向翻转,以及旋转10°来进行数据增强,达到提升模型训练效果的目的。

训练过程中,最大迭代次数epoch 设置为1 000,小批量训练样本量batch_size 设置为16,即每次学习迭代都从16个随机选定的样本数据开始训练。选用Adam 算法来优化代价函数均方根误差,是因为Adam 算法在基于梯度的优化问题中占用内存较少、计算效率高,适用于机器学习中的许多优化问题。每个卷积层和全连接层都使用Xavier 初始化器对权重进行赋值,并使用L2 正则化技术,正则化系数为0.05,全连接层之间的dropout参数为0.6,这些参数的合理设置有助于减少模型过拟合的风险。为了实现更稳定的训练,将初始学习率设置为0.003,并在每两个epoch 后将学习率按照指数衰减来动态调节学习率,衰减率decay_rate 为0.98。使用平均绝对误差(Mean Absolute Error,MAE)作为损失函数来评估模型的预测表现并进行参数微调和模型选择,训练过程中每次迭代都会改变CNN的参数、权重和偏差值,当验证集loss 值在50 个epoch 内不再下降达到收敛时,停止网络训练以防止模型过拟合情况的发生,最佳的参数设定在验证集上MAE最小时的epoch,训练和测试过程都在一台配置为NVIDIAGeForce GTX 860 Ti的GPU上进行。

2 结果

如图2所示,红色和蓝色的点分别表示验证集和测试集上模型预测值和实际测量值的分布情况,红线和蓝线分别表示测量值比预测值大3%以及小3%的情况,黄线则表示预测值等于测量值的情况。如果模型预测精度是完美的,那么这些点都会出现在黄色直线附近,但在实际应用中,模型的预测值和实际测量值总会存在一定的偏差。图3则将验证集和测试集上模型预测和实际测量的GPR 进行了线性拟合,其拟合直线的斜率分别为1.056 和0.867,决定系数R2分别为0.91和0.81,表明模型预测值和实际测量值之间具有较好的线性关系。

图2 GPR预测值和测量值散点图Fig.2 Scatter plot of predicted and measured gamma passing rates(GPR)

图3 GPR预测值和测量值拟合直线Fig.3 Linear fitting of predicted and measured GPR

图4显示了验证集和测试集上每个样本的GPR预测误差;图5则统计了GPR预测误差在每个区间的样本分布情况。可以看到,在验证集和测试集上,96%样本的GPR预测误差都在±3%以内,且最大预测误差分别为3.09%和3.54%,然而,大多数样本的GPR预测值都大于实际测量值,这在测试集上表现的更加明显,表明该模型可能具有高估射野GPR的倾向。

图4 每个射野的GPR预测误差Fig.4 GPR prediction error of each radiation field

图5 GPR预测误差的区间分布Fig.5 Interval distribution of GPR prediction errors

CNN 模型在验证集和测试集上的预测结果如表1所示,验证集和测试集上模型预测值和实际测量值的均方根误差(Root Mean Square Error,RMSE)分别为1.31%和1.44%,MAE分别为0.99%和1.17%,皮尔逊相关性系数r分别为0.96 和0.90,而且其平均值、标准偏差和中位值也都比较接近,表明该模型具有较小的预测误差和较好的泛化性能。

表1 验证集、测试集上GPR预测值和测量值比较Tab.1 Comparison of predicted and measured GPR in validation set and test set

3 讨论

目前,一些研究已经利用机器学习方法预测了IMRT计划的GPR。Valdes 等[9-10]基于既往498 例IMRT 计划,使用Poisson 回归和Lasso 正则算法预测了3%/3 mm标准下的γ通过率,并在之后的研究中通过多中心的验证来评估模型的泛化性能。但在他们研究中,模型输入的是一种低密度的二维二极管阵列探测器矩阵验证结果,γ 分析标准为3%/3 mm,而该标准通常被认为对临床相关误差不敏感[11-13]。Lam 等[14]选取了182 例IMRT 计划,采用3 种基于树的机器学习算法(AdaBoost、Random Forest 和XGBoost)预测了EPID 验证测量的GPR,他们的模型可以准确地预测2%/2 mm 标准下GPR,并且最大误差小于4%,MAE 小于1%。然而,这种传统的机器学习算法在数据分析整理阶段,需要尽量选择与预测指标相关性较高的特征参数并排除无关特征参数的干扰,这不仅增加了特征值选择、提取和计算的难度,而且还可能遗漏掉一些重要的特征。

近年来,深度学习方法预测IMRT计划的GPR也逐渐受到 人 们的关注。Interian 等[15]利用CNN 对IMRT 计划的通量图进行学习并预测了3%/3 mm 标准下的GPR,他们发现深度学习CNN 不需要使用专家设计的特征就可以达到与之前传统机器学习算法相媲美的预测精度。Tomori等[16]选取了60例前列腺癌IMRT 计划,并建立了一个结构相对简单的CNN模型去预测4 种标准下的GPR,结果发现QA 模体上的剂量分布信息是预测GPR 的一种有用数据,而且2%/2 mm 标准下模型预测值与测量值之间具有更好的相关性。但相比其它γ分析标准,2%/2 mm 标准下的GPR 预测效果却最差,其原因可能是他们预测了整个计划的GPR,从而削弱了小野以及不规则野对GPR的影响[17-18]。

在本研究中,笔者使用IMRT 计划每个射野的剂量分布图作为输入数据,并建立了一个新的CNN 模型去预测单个射野的GPR。结果表明该CNN模型成功地学习了射野剂量分布图的特征并取得了较小的预测误差。然而,模型的预测值和测量值之间的匹配并不是完美的,大部分样本的GPR 预测值都大于实际测量值,且在测试集上表现的更加明显,这很可能与数据集较小且样本的均匀性较差有关,数据集中GPR 小于90%的样本数量相对较少,导致较低GPR 的样本获得了一个较高的预测值。因此,想要进一步提高模型的预测精度,还需要获取更多的样本数量并保证样本数据的均匀性。目前,仅从一家放疗机构获取大量的较低GPR 的计划用于模型训练十分困难,这可能需要多机构的协作才能实现[19]。

对于深度学习方法来说,数据集太小很容易造成模型过拟合,从而导致模型具有较差的泛化性能。笔者选择预测单个射野的γ 通过率而不是整个计划,这不仅可以扩大训练样本的数量,而且单个射野的剂量分布信息也可能含有更多影响剂量传递准确性的间接因素[20-21]。通过数据增广来扩展训练集,并使用数据丢失、批量标准化、L2正则化等技术来防止模型过拟合,这对实际的临床工作也十分有利,因为积累大量的临床数据是非常耗时的,获取成百上千的计划来供模型训练不太切合实际。然而,深度学习CNN 相比传统的机器学习方法却更为复杂,并且具有较差的可解释性[22]。因此,对训练好的CNN 模型进行数据测试和仔细验证,并通过各种分析方法来评估模型预测的准确性是至关重要的[23]。此外,这项工作也具有一定的局限性,由于本文的数据都来自于同一机构的同一种病例,并且都在同一台机器上完成治疗和QA 测量,所以研究中所建立的CNN模型可能不适用于其它放疗机构。在未来的研究中,可以选取基于不同直线加速器和QA 测量设备进行验证的计划来重新建模,进一步提高模型的预测精度和泛化性能[24]。

目前,通过这种虚拟QA 的方法来预测IMRT 计划的GPR 可能还不足以代替传统基于测量的QA 方法,但物理师们可以根据虚拟QA 的结果提前识别那些不能通过QA 测量的计划,以便采取更积极主动的方法来优化计划[25-26]。而且,在对特定患者的IMRT计划进行剂量验证时,可以更专注于那些GPR 预测值较低的计划,从而减轻物理师的工作负担。此外,对于那些硬件设施还不是很完善的放疗机构来说,虚拟QA 的结果结合简单的剂量验证方法也可能成为一种简便的QA 手段,能进一步节约临床资源并提高治疗计划实施的质量和效率。

猜你喜欢
集上预测值卷积
关于短文本匹配的泛化性和迁移性的研究分析
加拿大农业部下调2021/22年度油菜籽和小麦产量预测值
基于3D-Winograd的快速卷积算法设计及FPGA实现
AI讲座:ML的分类方法
基于互信息的多级特征选择算法
自体荧光内镜对消化道肿瘤诊断临床应用分析
卷积神经网络的分析与设计
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
师如明灯,清凉温润