放射治疗的重要目标是提高肿瘤控制率,同时降低正常组织的不良反应发生率。要达到这一目标,靶区和正常器官的准确勾画是整个治疗过程的关键一环。但是,由于个人的主观辨识能力不同和软件勾画精度不同,靶区与正常器官的勾画结果往往差异较大[1-2]。为了保证勾画结果的一致性,目前临床上主要使用基于图谱库(Atlas)[3-4]和基于深度学习的自动勾画方法。基于图谱库(Atlas)的自动勾画方法在临床上使用已有一段时间,该方法的精度受到建模数据和配准方式的影响,普适性较差。基于深度学习的自动勾画方法使自动勾画精度到达了一个新的水平,已有部分产品逐步投入临床,如AccuContour[5]、DeepViewer[5]、AI Contour[6]等。在相关的产品和文献中,一般采用自动与人工勾画的几何差异,如戴斯相似系数(Dice similarity coefficient,DSC)、豪斯多夫距离(Hausdorff distance,HD)等,来评估自动勾画结果。例如,据Sahiner等[7]统计显示,在部分研究中,肺、肝、脾、肾的DSC可以达到0.94~0.97,胰腺、膀胱、前列腺的DSC为0.71~0.87,部分靶区的DSC在0.6~0.9,不同器官和靶区的自动勾画准确性差异较大。
仅带有几何评估参数的自动勾画技术是否可以直接用于临床,临床关注的问题是自动与人工勾画导致的剂量差异有多大,是否会对治疗及预后产生影响。Zhu等[8]研究了自动与人工勾画在食管癌中的剂量差异,两种勾画方式导致的危及器官的剂量差异 < 1 Gy或1%,在临床上可以接受;该研究中,肺、心脏、脊髓以及脊髓PRV的DSC分别为0.97、0.93、0.84和0.92,但是二者之间的关系作者并未进一步分析。那么,一个好的几何参数是否意味着剂量差异很小?这是决定该自动勾画技术能否用于临床的关键。本研究采用自动及人工两种方式勾画同一器官,研究这两种勾画方式的DSC与对应的剂量参数差异之间的关系,分析基于深度学习的自动勾画技术应用于临床的可靠性。
资料和方法数据收集 本研究已通过复旦大学附属中山医院医学伦理委员会审核(批件号:B2021-546),所有患者均已签署知情同意书。研究中使用的数据来自2019年3月至2021年3月在复旦大学附属中山医院放疗科进行过上腹部调强放疗的43例患者。患者年龄37~87岁,其中男性32人,女性11人;肝癌13例,胆囊癌2例,胃癌4例,胰腺癌18例,后腹膜6例;放射治疗计划单次剂量在175~200 cGy,次数25~28次。所有患者的CT图像均采用仰卧位-头先进(head first supine,HFS)的方式,由西门子模拟定位设备(CT Siemens Somato,德国Siemens Healthcare公司)进行采集。每层图像重建分辨率为512×512,层厚为3 mm。将这些患者的CT图像和治疗计划文件以DICOM格式从原始治疗计划系统(Monaco,瑞典Elekta AB公司)中导出,并利用开源软件dicompyler[9]对这些文件进行姓名和治疗号匿名化处理。
器官的人工和自动勾画 参考文献用DSC评估自动勾画的结果[7],本研究也采用该评价参数。DSC介于0到1,数值越大代表自动勾画的效果越好。本研究选择胃和十二指肠两个器官进行分析研究。胃和十二指肠的人工勾画由经验丰富的剂量师参照RTOG指南[10]重新勾画,并由主管医师审核确认。胃的勾画范围:贲门(靠近心脏)、胃底、胃体、胃窦和幽门;十二指肠的勾画范围:上部、降部、水平部和升部。AccuContour系统[5]是由厦门Manteia公司开发的一种基于深度学习的自动勾画软件。该系统可对患者CT图像中头颈部、胸部、上腹部和下腹部的多种器官和靶区(鼻咽癌、食管癌、直肠癌等)进行自动勾画。本研究基于AccuContour系统对43例患者进行胃和十二指肠进行自动勾画,排除胃或十二指肠切除者,共得到40例胃部和38例十二指肠的勾画结果,通过DSC进行体积间的相关性分析。
剂量参数处理 分析文献发现,胃和十二指肠相关不良反应的评价参数较多,常见的有V25、V35、最大剂量等[11-13]。其中V25、V35分别是指剂量体积直方图曲线(dose volume histogram,DVH)上25 Gy及以上剂量和35 Gy及以上剂量对应的百分体积。因此,本研究设定的剂量参数包括DVH参数、最大剂量和平均剂量,其中DVH参数是指从DVH曲线上得到的参数,包括V5到V50,以5Gy递增。这些参数反映了临床常用的剂量限值类型,可以代表串行和并行两类器官。其中ΔVx(x代表不同的剂量),ΔDmax以及ΔDmean的计算公式如下:
$ \mathrm{\Delta }{V}_{x}={V}_{x, \mathrm{a}\mathrm{u}\mathrm{t}\mathrm{o}}-{V}_{x, \mathrm{m}\mathrm{a}\mathrm{n}\mathrm{u}\mathrm{a}\mathrm{l}} $ | (1) |
$ \mathrm{\Delta }{D}_{\mathrm{m}\mathrm{e}\mathrm{a}\mathrm{n}}={D}_{\mathrm{m}\mathrm{e}\mathrm{a}\mathrm{n}, \mathrm{a}\mathrm{u}\mathrm{t}\mathrm{o}}-{D}_{\mathrm{m}\mathrm{e}\mathrm{a}\mathrm{n}, \mathrm{m}\mathrm{a}\mathrm{n}\mathrm{u}\mathrm{a}\mathrm{l}} $ | (2) |
$ \mathrm{\Delta }{D}_{\mathrm{m}\mathrm{a}\mathrm{x}}={D}_{\mathrm{m}\mathrm{a}\mathrm{x}, \mathrm{a}\mathrm{u}\mathrm{t}\mathrm{o}}-{D}_{\mathrm{m}\mathrm{a}\mathrm{x}, \mathrm{m}\mathrm{a}\mathrm{n}\mathrm{u}\mathrm{a}\mathrm{l}} $ | (3) |
如公式(1)到(3)所示,auto和manual分别表示自动及人工勾画。本研究认为同一个患者的胃和十二指肠勾画结果是两个独立样本,因为器官的自动勾画由对应的模型来完成,一个器官的勾画结果并不会影响另外一个器官。对差异为0的结果,人工检查自动和人工勾画的结果,若二者都为0,则删除该数据。为了减少数据量对统计结果的影响,本研究对数据进行了分组。分组原则是以DSC的0.01为递进步长,如果该区间内的数据量≥10个,则以该区间为一组,不做进一步处理,否则按照临近原则,将该组数据与下一组数据进行合并,直至组内样本量≥10个,不同数据对应DSC的加权平均值为这一组数据的DSC。
统计学处理 采用SPSS 21.0软件对体积与DSC间的关系进行Spearman相关分析。因为每组DSC对应的剂量学数据为偏态分布,所以在分析时采用中位数及四分位距表示每组数据的分布。
结果自动与人工勾画结果比较 同一个患者部分层面胃和十二指肠的勾画差异如图 1所示。其中1A、1B、1C分别代表胃和十二指肠在横断面、矢状面和冠状面的勾画结果。深蓝色和红色代表胃的人工和自动勾画结果,天蓝色和洋红色代表十二指肠的人工和自动勾画结果。胃的自动勾画结果要优于十二指肠的自动勾画结果。在很多地方,即使有明显的灰度差异,十二指肠的自动勾画模型仍然不能完美地勾画出所有的体积。本研究进一步分析了自动与人工勾画结果体积之间的关系,图 2A和2B分别代表胃和十二指肠的结果。就体积而言,胃的自动与人工勾画结果相关性较高,而十二指肠的体积相关性较差。对数据进行线性拟合,胃的R2达到0.9491,斜率为1.0812,接近1,说明二者勾画结果一致性较高。十二指肠体积的R2为0.452,斜率为0.7476,二者的一致性较差。
DSC与不同类型剂量限值的关系分析 ΔVx、ΔDmean以及ΔDmax与DSC之间的关系如图 3~5所示。针对胃和十二指肠两种器官,ΔVx和DSC之间呈现出类似的规律(图 3A、3B)。将两个器官的数据融合在一起,并进行分组,统计每组数据的中位数及四分位距(图 3D)。随着DSC增大,ΔVx的四分位距缩小明显,而且中位数越来越趋近于0。以散点图的方式将DSC > 0.85的部分放大显示(图 3C),当DSC > 0.95以后,ΔVx都能到达5%以下,且大部分低于3%。
针对胃和十二指肠两种器官,ΔDmean和DSC之间呈现出类似的规律(图 4A、4B)。利用与图 3D一样的方法处理两个器官的数据,ΔDmean的四分位距随着DSC增大而明显缩小,中位数也同样越来越趋近于0(图 4D)。以散点图的方式将DSC > 0.85的部分放大显示(图 4C),当DSC > 0.95以后,ΔDmean降到2 Gy以下,且大部分低于1 Gy。
ΔDmax与DSC之间的关系如图 5所示。对于ΔDmax,并未发现如上两种剂量限值类似的规律,即人工与自动勾画结果的剂量差异会随着DSC的增大而减小。在胃的某个勾画结果中,在DSC高达0.975时,最大剂量的差异仍然达到-20.93 Gy。
讨论在基于深度学习的自动勾画研究中,用DSC来评估两个轮廓之间相似程度是被普遍采用的方法。一般认为DSC > 0.7表示自动和人工勾画效果好,是可以接受的结果[14],符合临床使用的要求。在分析几何评估参数与剂量差异关系的文献[15]中,二者的相关性往往较差,即较高的DSC与较低的剂量差异不相关。与以往研究不同的是,在本研究中,对于平均剂量以及DVH参数,剂量差异将会随着DSC的增加而减小。但是DSC > 0.7并不能达到临床接受的标准,在本研究中DSC应该高于0.95。如果某个器官为并行器官,即以平均剂量以及DVH参数作为剂量评估参数,而且该器官的自动勾画结果DSC大于0.95,那么将该器官的自动勾画结果用于临床将较为安全。Kaderka等[16]研究发现,即使DSC很小,有时候其剂量学参数也符合临床要求。本研究也发现了类似现象,即使DSC很低,仍有很多剂量参数差异集中在0附近。
另外,在本次研究中最大剂量差异并不会随着DSC增大而减小,这表明DSC并不是适合预测最大剂量的几何参数。但是,无论是哪种几何评估参数,器官所有位置的勾画误差都会同等地影响最后的几何评估参数,而放疗中的剂量分布是有方向的,越接近靶区剂量越大,因此不同剂量场处,相同的几何误差也会导致不同的剂量差异。所以,即使是同一个危及器官,针对不同病种训练不同的勾画模型,并在临床使用前评估该模型的几何评估参数以及对应的剂量差异,将有更为重要的临床意义,也是我们下一步工作的重点。
目前,针对一些小体积器官,如小肠、胰腺、血管等,因为图像占比小、形状变化大等原因,其勾画精度仍难以令人满意[7]。本研究的结果也体现了这一点,比较胃和十二指肠的自动勾画结果,以DSC来衡量,十二指肠要低于胃。由于通用的神经网络架构[17]在描述小体积目标时不够精确,因此研究性能更优的、针对小体积器官的自动勾画网络对临床实践有着重要意义。
病例的增多会增加结论的可靠性,但是在我们科的临床实践中上腹部的病例并非主流,我们搜索了相关的病例,符合伦理标准的如本文中所示。为此,本研究特意选择胃和十二指肠两个形态上差异极大的器官进行分析,我们认为在两类器官上都体现出来的结论具有一定的普遍性。本研究的另一个局限性是所有数据均来自单一中心,在人工勾画时可能存在一定主观偏差,因此也期待其他中心进行类似研究,以得到更加普遍的结论。
综上所述,本研究比较了胃和十二指肠自动勾画的DSC与各类型剂量差异的关系,发现DVH参数和平均剂量差异随着DSC增加而减小,最大剂量差异与DSC无关。从安全性考虑,即使较好的DSC也不能保证所有类型的剂量差异都符合临床要求。因此,将基于深度学习的自动勾画技术安全地用于放疗,除了需要DSC以外,对应器官勾画模型导致的剂量参数差异也是必须考虑的参数。
作者贡献声明 马秀瑞 资料收集,数据处理,统计分析,论文撰写。张建英 研究设计,资料收集,论文修改。李婷婷,张玉洁,肖寒,孙菁,吴泇俣 资料收集,论文修改。嵇卫星 研究设计,数据处理,统计分析,论文修改。
利益冲突声明 所有作者均声明不存在利益冲突。
[1] |
LI X A, TAI A, ARTHUR DW, et al. Variability of target and normal structure delineation for breast cancer radiotherapy: an RTOG multiinstitutional and multiobserver study[J]. Int J Radiat Oncol Biol Phys, 2009, 73(3): 944-951.
[DOI]
|
[2] |
NELMS BE, TOMÉ WA, ROBINSON G, et al. Variations in the contouring of organs at risk: test case from a patient with oropharyngeal cancer[J]. Int J Radiat Oncol Biol Phys, 2012, 82(1): 368-378.
[DOI]
|
[3] |
ELDESOKY AR, YATES ES, NYENG TB, et al. Internal and external validation of an ESTRO delineation guideline dependent automated segmentation tool for loco-regional radiation therapy of early breast cancer[J]. Radiother Oncol, 2016, 121(3): 424-430.
[DOI]
|
[4] |
WALKER GV, AWAN M, TAO R, et al. Prospective randomized double-blind study of atlas-based organ-at-risk autosegmentation assisted radiation planning in head and neck cancer[J]. Radiother Oncol, 2014, 112(3): 321-325.
[DOI]
|
[5] |
霍新颖, 王敏, 时飞跃, 等. AccuContour和DeepViewer两款软件自动勾画胰腺癌患者肾脏结构的比较[J]. 中国医疗设备, 2021, 36(7): 52-54. [DOI]
|
[6] |
陈子印, 白艳春, 徐巍, 等. 人工智能云技术在乳腺癌患者心脏亚结构自动勾画中的应用[J]. 中国医学物理学杂志, 2020, 37(12): 1599-1603. [DOI]
|
[7] |
SAHINER B, PEZESHK A, HADJIISKI LM, et al. Deep learning in medical imaging and radiation therapy[J]. Med Phys, 2019, 46(1): e1-e36.
[DOI]
|
[8] |
ZHU J, CHEN X, YANG B, et al. Evaluation of automatic segmentation model with dosimetric metrics for radiotherapy of esophageal cancer[J]. Front Oncol, 2020, 10: 564737.
[DOI]
|
[9] |
PANCHAL A, KEYES R. SU-GG-T-260: Dicompyler: an open source radiation therapy research platform with a plugin architecture[J]. Med Phys, 2010, 37(6Part19): 3245-3245.
|
[10] |
JABBOUR SK, HASHEM SA, BOSCH W, et al. Upper abdominal normal organ contouring guidelines and atlas: a Radiation Therapy Oncology Group consensus[J]. Pract Radiat Oncol, 2014, 4(2): 82-89.
[DOI]
|
[11] |
HUANG J, ROBERTSON JM, YE H, et al. Dose-volume analysis of predictors for gastrointestinal toxicity after concurrent full-dose gemcitabine and radiotherapy for locally advanced pancreatic adenocarcinoma[J]. Int J Radiat Oncol Biol Phys, 2011, 83(4): 1120-1125.
|
[12] |
KIM H, LIM DH, PAIK SW, et al. Predictive factors of gastroduodenal toxicity in cirrhotic patients after three-dimensional conformal radiotherapy for hepatocellular carcinoma[J]. Radiother Oncol, 2009, 93(2): 302-306.
[DOI]
|
[13] |
BAE SH, KIM M, CHO CK, et al. Predictor of severe gastroduodenal toxicity after stereotactic body radiotherapy for abdominopelvic malignancies[J]. Int J Radiat Oncol Biol Phys, 2012, 84(4): e469-e474.
[DOI]
|
[14] |
何奕松, 蒋家良, 余行, 等. 影像分割中Dice系数和Hausdorff距离的比较[J]. 中国医学物理学杂志, 2019, 36(11): 1307-1311. [DOI]
|
[15] |
余行, 刘欢, 傅玉川. 放疗影像自动分割效果评估中几何参数与剂量学参数之间的关联性[J]. 中国医学物理学杂志, 2021, 38(5): 540-544. [DOI]
|
[16] |
KADERKA R, GILLESPIE EF, MUNDT RC, et al. Geometric and dosimetric evaluation of atlas-based auto-segmentation of cardiac structures in breast cancer patients[J]. Radiother Oncol, 2019, 131: 215-220.
[DOI]
|
[17] |
SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Trans Pattern Anal Mach Intell, 2017, 39(4): 640-651.
[DOI]
|