常规QA设备对脊柱转移瘤SRS/SBRT计划的验证及存在问题探讨

2022-01-07 13:08郭逸潇刘志强李鸿岩冯维贵张致远李淑萍

中国医学物理学杂志 2021年12期

郭逸潇，刘志强，李鸿岩，冯维贵，张致远，李淑萍

1.甘肃省人民医院放疗科，甘肃兰州730000；2.中国科学院兰州近代物理研究所辐射医学室，甘肃兰州730000；3.中国科学院重离子束辐射生物医学重点实验室，甘肃兰州730000

前言

根据美国Anderson 癌症中心和Imaging and Radiation Oncology Core（IROC）QA中心2020年一项针对治疗计划质量保证（Qulity Assurance, QA）的调查报道（共1 455份调查，其中91.9%来自美国和加拿大）：剂量验证最常用的工具是2D 二极管阵列（52.8%）、点电离室（39.0%）、电子射野影像装置(Electronic Portal Imaging Device, EPID, 27.4%）及电离室矩阵（23.9%），许多机构使用多种测量工具，对于二极管和电离室探测器测量，绝大多数在模体中评估结果［1］。此外，相关研究指出剂量验证结果可能因多种不同商用硬件和软件系统而有较大差异，不同采样和插值方法的使用导致差异较大的γ 通过率［2-4］。

脊柱转移瘤是恶性肿瘤的破坏性并发症，患者由于疼痛、活动或神经功能障碍而降低了生活质量。放疗目前广泛用于脊柱转移瘤的治疗，可作为外科手术的辅助治疗或根治方案以改善症状，延长生存期［5-6］。 Radiation Therapy Oncology Group（RTOG）0631 II 期研究得出结论：脊柱立体定向放射外科治疗（Stereotactic Radiosurgery, SRS）和立体定向体部放射治疗（Stereotactic Body Radiotherapy, SBRT）是安全可行的，与传统三维适形和调强放疗相比，SRS/SBRT在增加局控率和完全缓解方面具有优势［7-9］。

Varian aSi-500和aSi-1000 EPID由于剂量饱和效应而不适用于高剂量率的非均整（Flattening Filter Free, FFF）计划验证，其新型aSi-1200 EPID 配备Digital Magavolt Imager（DMI）可支持FFF 计划剂量验证［10-11］，而目前应用aSi-1200 EPID 进行高剂量率和单次大剂量放射治疗剂量测量的报道很少。本研究采用aSi-1200 EPID 对23 例6 MV FFF 脊柱转移瘤SRS/SBRT 计划进行验证，并与PTW Octavius 1500电离室结果对比，探究两者在FFF剂量验证中的不同表现及可能存在的问题。

1 材料与方法

1.1 研究对象和设备

回顾性选取甘肃省人民医院放疗患者数据库中2019年2月～2020年9月期间的23例胸椎和腰椎脊柱转移瘤SRS/SBRT治疗计划。计划纳入标准：（1）靶区范围≤5个受累椎体，剂量分割方案为30 Gy/5 次；（2）瓦里安EDGE加速器，6 MV FFF射线，剂量率1 200 MU/min；（3）Eclipse 13.6 治疗计划系统（Treatment Planning System,TPS）设计多段部分弧RapidArc治疗计划，射束参数优化使用光子优化法（Photon Optimizer,PO-13.6.23），剂量计算使用各向异性解析算法（Anisotropic Analytic Algorithm,AAA-13.6.23），计算网格1.0 mm。

1.2 aSi-1200 EPID Portal Dosimetry（PD）验证

aSi-1200 EPID有效测量面积43 cm×43 cm，探测器个数1 280×1 280，分辨率0.336 mm［10］，在任何源到影像探测板距离（SID）不会出现饱和效应［10-11］。本研究设定SID=100 cm，使用连续图像采集模式（在Plan Scheduling 中每个辐射野加入积分成像）。理论上EDGE 加速器PD 加入了二维射野剂量修正的应用，能有效地校正探测板支撑臂的背向散射与探测器的离轴响应，使得PD 测量结果更为准确，其射束直接作用于Portal imager，获取时间积分成像数据，此方法的局限性是无法提供绝对剂量信息，只是间接地比较了通量。

1.3 Octavius 1500电离室矩阵

Octavius 1500 矩阵由1 405 个空气电离室组成，单个电离室几何尺寸0.44 cm×0.44 cm×0.30 cm，电离室中心间距0.707 cm，可测量剂量率高达48 Gy/min，有效测量范围27 cm×27 cm，基于不同机架角度的测量剂量和源皮距（Source-to-Surface Distance, SSD）85 cm 处不同射野大小的百分深度剂量（Percentage Depth Dose, PDD），Verisoft7.1 剂量分析软件通过对平面测量剂量插值重建得到模体和患者解剖结构的三维剂量。

1.4 验证与评估方法

将23 个计划分别验证，利用VeriSoft 软件对TPS和Octavius 1500 测量的剂量分布在全局归一方式下以3%/2 mm、2%/3 mm、2%/2 mm 和2%/1 mm 的标准进行横断面2D γ 通过率（Gamma Passing Rate,GPR）评估，EPID 测量数据使用PD 系统中Improved Gamma 方法（相当于全局归一）在相同的标准下评估。设定阈值分别为TH5、TH10 和TH20，表示对超过最大剂量5%、10%和20%的点剂量予以γ 分析，探讨不同阈值对通过率的影响。将患者DICOM RT plan、RT structures、RT dose 和CT 数据集导入Verisoft软件重建剂量，对比基于电离室矩阵测量重建和TPS计算的剂量体积直方图（Dose Volume Histogram,DVH）差异。

1.5 创建引入误差的计划

任选5 个计划，对原计划进行修改得到以下引入误差计划：（1）透射率（TF）由TPS 预设值0.0118%变为0.035 4%（+0.023 6%），剂量叶片间隙（DLG）由TPS 预设值0.91 mm 变为1.21 mm（+0.30 mm）、1.41 mm（+0.50 mm）、1.91 mm（+1.00 mm），引入系统性的MLC模型误差。（2）在x、y和z 3个方向同时引入治疗计划的等中心位置误差（+1 mm、+2 mm、+3 mm和+7 mm）。（3）每一条射束弧引入+1%、+3%和+5%的治疗跳数（Monitor Unitm,MU）误差，改变了原始计划每条弧的相对剂量权重，引入的剂量误差导致Octavius模体内产生不同量级的计算剂量系统性偏移。

共创建55 个误差计划，重新计算剂量后与无误差计划的测量剂量行模体内GPR 评估，与无误差GPR 比较以考察Octavius 1500使用GPR 方法检出误差计划的能力。

1.6 最小误差检测标准

对于无误差计算和不同的误差计算，GPR 预计将表现出较大的差异。本研究纳入无误差和误差计算GPR 的标准偏差，认为满足以下情况则检测到误差计划中的错误:

其中，代表γ 通过率的平均值，s 为标准偏差。方程左边和右边的量值分别表示引入误差和无误差计算的最小通过率（下限），计划之间必然存在复杂度的差异，故从平均通过率减去其标准误。这两个量之间的界限越清晰，则分离出误差的置信度越高。

1.7 统计学方法

采用Origin 9.1 绘制图表，SPSS 19.5 软件对数据进行分析，对两种探测器的GPR 结果行Shapiro-Wilk显著性假设检验（W检验），在α=0.05 的检验水准下若样本数据服从正态分布，采用t检验推断不同通过率标准下两种验证方式的均值是否有显著性差异；若样本数据呈现明显的偏态分布则采用非参数检验（曼-惠特尼U检验），因样本量大于20，渐进显著性的P值接近真实P值，故以真实P值为准。P<0.05 为差异有统计学意义。

2 结果

2.1 23例FFF计划验证通过率

因样本量小，不同标准和阈值的GPR 经检验均不符合正态分布（显著性P<0.05），因此采用非参数检验。由图1 可看出两种方式得到的GPR 均值和离散度在不同标准和阈值下迥然不同，与Octavius 1500相比EPID 通过率均值更高，对比同一标准不同阈值GPR 发现EPID 结果均匀性更好，且两种方式在相同通过率标准下都随阈值的增加均值减小而标准差变大。对3%/2 mm 和2%/3 mm 的标准，两种方式的均值皆>96%且各组数据离散度较小（≤3.23%），而对2%/2 mm 和2%/1 mm 的标准，两种方式相同标准和阈值下均值差异（≤9.48%）和数据离散度均增大。对所有通过率标准，当低剂量阈值从5%增加到20%时，EPID 的平均GPR 变化<1.83%，而Octavius 1500的平均GPR 变化<9.83%，似乎Octavius 1500 GPR 更依赖于低剂量阈值。

图1 23个计划在不同标准和阈值的γ 通过率（箱型图及正态分布的点和线）Fig.1 Gamma passing rates at different criteria with different thresholds for 23 plans(box charts and the points and lines of normal distribution)

2.2 Octavius 1500 测量重建与TPS 的百分剂量偏差（DD%）

8 个计划重建时出现错误，只有15 例重建成功，靶区和危及器官（OARs）的剂量偏差见图2，定义±5%的剂量偏差具有临床意义。可见CTV 和PTV 的Dmin、Dmax和Dmean偏差整体较大，其中CTV 最大DD%值分别为50%、11.31%和-8.71%，PTV 最大DD%值为-25.86%、9.31% 和-8.22%。CTV 的Dmin、Dmax和Dmean偏差超过±5%的计划数分别为10（66.67%）、2（13.3%）和2（13.3%），PTV 为9（60.0%）、2（13.3%）和5（33.3%），心脏为5（55.6%）、2（22.2%）和1（11.1%），健侧肺为1（14.3%）、2（28.6%）和1（14.3%）。Verisoft软件只能重建出电离室有效测量范围内（27 cm×27 cm）靶区和OARs 的剂量，因而心脏和健侧肺分别有6 例和8 例超出测量范围而未重建到剂量；重建到2 个计划的食管剂量，其Dmin、Dmax和Dmean的DD%均小于±5%；重建到2 个计划的脊髓剂量，其Dmin、Dmax和Dmean的DD%值分别为100%、0%、3.57%和0%、-5.62%、0%。大部分靶区和OARs 的DD%在±5%以内，巨大的偏差主要存在于Dmin。

图2 靶区和危及器官Dmin、Dmax和Dmean的DD%Fig.2 DD%of the Dmin,Dmax and Dmean to target areas and organs-at-risk

2.3 误差计划与无误差计划的GPR比较

TH10 情况下，误差计划与无误差计划的GPR 见表1。表1 显示，对每种类型的偏差，大部分GPR 随偏差幅度的增加而下降，少部分值显示稍微有所提升。根据式（1）的误差检测标准，治疗等中心误差几乎都被检测到，+3%和+5%的MU 误差都被检测到，所有标准均未检测到TF 误差，只有2%/3 mm 的标准检测到+0.3 mm 的DLG 误差，+0.5 mm 和+1 mm 的DLG误差都被检测到。

表1 误差计划与无误差计划的γ通过率（xˉ± s,%）Tab.1 Gamma passing rates for plans with and without errors(Mean±SD,%)

2.4 TF和DLG误差的临床意义

TF 增大0.023 6%和DLG 增加0.3 mm 的误差计划分别与无误差计划对比，通过对靶区和OARs DD%的评价探究这两个误差对6 MV FFF 能量剂量计算的影响，如图3 所示，评价指标包括：靶区Dmean、Dmax、V95%、V100%；脊髓Dmean、D0.1cc；健侧肺Dmean、V5、V20和心脏Dmean，可看出这两个误差均导致了靶区和OARs的剂量增加，其中OARs剂量增加更明显，尤其健侧肺的V20分别增加了9.80%和8.85%，脊髓D0.1cc均增加5.35%。

图3 MLC透射率和剂量叶片间隙误差对靶区和危及器官剂量的影响Fig.3 Effects of errors from MLC transmission factor and dosimetric leaf gap on doses to target areas and organs-at-risk

2.5 重建和计算DVH对比示例

1 例测量重建和计划系统计算DVH 对比图，可看出靶区和危及器官重建剂量整体偏低（图4）。

图4 TPS计算和Verisoft重建的DVH对比Fig.4 DVH comparison between TPS calculation and Verisoft reconstruction

3 讨论

IROC 模体对许多放疗机构的测试揭示出实施剂量与计划剂量之间存在较大偏差［12-13］：2001年至2011年间头颈部计划的通过率仅为81.6%（7%/4 mm标准），若使用5%/4 mm 标准失败率将进一步增加，其错误最常表现为系统剂量偏差（>58%），其中由于剂量不足导致的失败率最高，即剂量分布具有正确的形状和位置，但存在系统性的量级错误。射束建模缺陷是导致GPR 低的另一个普遍原因，68%的失败模体验证受到TPS 计算误差的影响［14］，模体是按照患者流程执行照射的，这些有问题的射束模型在患者计划中剂量计算的错误远超过模体中错误计算的程度。影响剂量计算准确性的因素主要来源于3个方面：（1）基本剂量学参数建模中的错误如PDD、离轴因子和散射因子等［15］，以及非剂量学参数的变化如DLG［16］；（2）测量CT 值及相对电子密度关系数据转换出现误差，降低了校正非均匀组织照射剂量的准确性；（3）剂量计算算法的局限性，射线与人体各组织相互作用过程非常复杂，在处理计算模型的过程中往往需要做某些假设。IROC 另有研究表明大多数临床QA 设备在检测不可接受的计划时灵敏度较差，表明常规QA 只是简单地通过了所有计划，而不管质量如何［17］。近些年通过深度学习来改善和预测QA 的新方法正在测试中，但基于常规测量的方法仍然是普遍方法［18-19］。本研究使用EPID 探测板和PTW 电离室矩阵对椎体转移瘤SRS/SBRT 计划进行验证的评估，发现3%/2 mm 和2%/3 mm 标准下EPID GPR 均值在99%以上，而Octavius 1500 矩阵的GPR整体偏低，1 个计划Octavius 1500 通过率分别为88.7%、86.6% 和79.2%，而EPID通过率分别为99.5%、99.5%和99.4%，推断Octavius 1500 检测不可接受的计划时灵敏度应该更好，为此任选5 个计划，使用GPR 方法识别引入不同类型和量值的误差计划。结果表明对每种类型的误差，大部分GPR 随误差幅度的增加而下降，少部分值出现误差量级增加但GPR 反而稍微有所提升的现象，分析原因：（1）复杂治疗技术中射束建模和剂量计算方法的局限性会引入误差。（2）Verisoft软件使用插值算法重建模体内剂量（估计没有探测器的区域剂量），重建过程会引入不同程度的误差。TF 是射线穿透MLC 的能力，由射线质决定，其值域区间为0～1。剂量叶片间隙用来补偿叶片的弧形端面对剂量的影响，一般使用电离室测量多个不同MLC间隙的射野得到一组间隙和剂量的对应数据进而拟合得到，其值依赖于电离室测量结果的准确性。实验结果可见所有标准均未检测到TF 误差，+0.3 mm 的DLG 误差只有一个标准检测到，将这两个误差计划重新计算剂量后与无误差计划对比，发现靶区和OARs的剂量均存在不同程度的增加，其中OARs剂量增加更明显。表明仅通过GPR无法可靠地识别引入误差的MLC 模型，需要更有效的质量保证方法来提高检测TPS剂量误差的灵敏度。

一些基本的特征常常隐藏在商用γ 指数计算软件中，导致相同的输入和评估标准却产生不同的结果［2-4］。物理师很难确切地知道γ 指数值是如何在这些软件中计算出来的，确定这些差异的原因需要制造商披露软件实施细节，例如描述测量值和TPS剂量是只对其中一个还是两个都进行了插值及插值到什么水平，使用了什么类型的插值算法。GPR 的一个缺点是不能提供不通过点的细节，另一个缺点是γ 本身是一个绝对度量，不能提供失败点是由于正（负）剂量波动或距离波动引起的，如在OARs 中，测量值低于计算剂量的点可能大于剂量差标准，在这种情况下，失败点在临床上是可以接受的，因为OARs 接受的剂量低于预期剂量，放射治疗的目的是保持OARs的剂量尽可能低。相反，在PTV 区域也可能有一个失败点，在那里测量的剂量较高，这也是可以接受的。此外，同一软件的不同版本之间，γ 指数计算的细微变化可能会导致结果的差异，当任何新的软件升级发布时，理论上用户应该执行γ 指数的基准测试。

物理师们常用的2D 探测器如MapCHECK、EPID、MatriXX 和Octavius 729/1500, 3D 模体如Octavius 4D、ArcCHECK 和Delta4，这些剂量测量系统都不能实现高分辨率的3D 剂量测量，而是借助于一种算法将测量到的平面剂量重建到3D模体和患者解剖结构上，因此可被称为准3D 剂量验证系统［20］。为了能够在三维空间估计传输剂量，使用者既依赖于测量不确定度，又依赖于剂量分析软件重建算法的准确性。测量和重建受测量点的限制，其剂量分布的比较直接取决于探测器的间距，例如，OARs 可能超出探测器区域，测量与计算剂量之间的差异将导致OARs 内未被发现的过剂量（超出耐受量）。本研究使用Octavius 验证系统重建的三维剂量表明部分Dmin存在巨大的剂量偏差，部分Dmax和Dmean剂量偏差超过±10%，据报道COMPASS 系统在TPS 和重建剂量某些DVH 指标上也存在-67.88%～15.26% 的DD%差异［21］，只有2 个计划Dmin、Dmean和Dmax的DD%在±5%的范围内。Octavius 系统基于解剖结构重建剂量只取决于电离室矩阵的测量剂量，独立于TPS计算剂量和γ通过率，因此临床关心的基于解剖结构计算和测量剂量的差异很大程度上取决于测量的平面剂量和软件所使用重建算法的精度，8 个计划重建DVH 出现错误：Marching Way索引超出了数组界限，“System Out of Memory Exception”的异常导致重建失败，可能系软件Bug所致。此软件在三维剂量重建中需要对二维阵列和三维模体的数据点进行线性插值以增加数据量，DVH 重建基于一种更复杂的插值，这些算法在临床使用过程中需要仔细测试验证，以评估算法的不确定度受治疗部位和计划复杂程度的影响。

近几年国内使用EPID 进行剂量验证研究的文献，大都是基于Varian 公司所配备的EPID 及其开发的Portal Dosimetry 软件进行的，但PD 算法未使用模体计算剂量，不能验证传递到患者体内的剂量。相关研究表明治疗前的EPID剂量测量方法仅能检测到所有放射治疗临床报告6%的差错，Varian EPID 和MatriXX 设备都错误地表明：不可接受的计划与可接受的计划一样好甚至更好，相反，在体EPID剂量测定技术能够检测到大多数（74%）与放射治疗有关的差错事件［22］，通过重建患者解剖影像与所受剂量的融合数据，能够在整体上评估患者受照部位各个器官剂量与所受剂量的体积，作为在线或者离线的剂量评估以指导后续的治疗，有望提高肿瘤控制率降低由剂量误差导致的并发症概率［23-25］。值得注意的是EPID 响应是加速器特定的，取决于许多射束参数如能量、散射贡献、射野大小、响应线性和剂量率等。因此，物理师们在临床使用前应测试他们自己加速器不同能量的EPID响应。

本工作的局限性之一是仅使用一种TPS，另一种TPS 可能根据加速器模型的不同而计算出不同的剂量分布，例如，不同的低剂量模型，不同的TF 和DLG。局限性之二是只在一个加速器上进行测量，未对MLC叶片宽度如何影响引入的误差和结果进行研究，应该对比在不同的TPS 和MLC 尺寸下这些结果是否存在差异。

综上所述，仅通过γ 分析方法无法可靠地识别引入MLC 模型误差的计划，应将其与误差引起的临床剂量学指标变化相结合，也提示鉴别TPS问题的根源需要更有效和精准的质量保证方法；TPS投入临床使用前应进行相应测试来确定最佳TF 和DLG 值从而确保患者计划剂量的准确计算；进行剂量验证系统软件算法的独立验证研究以确定算法的误差范围。

致谢：感谢中山大学肿瘤防治中心邓小武教授对本研究所提供的思路支持。