放射治疗的重要目标是提高肿瘤控制率,同时降低正常组织的不良反应发生率。要达到这一目标,靶区和正常器官的准确勾画是整个治疗过程的关键一环。但是,由于个人的主观辨识能力不同和软件勾画精度不同,靶区与正常器官的勾画结果往往差异较大[1-2]。为了保证勾画结果的一致性,目前临床上主要使用基于图谱库(Atlas)[3-4]和基于深度学习的自动勾画方法。基于图谱库(Atlas)的自动勾画方法在临床上使用已有一段时间,该方法的精度受到建模数据和配准方式的影响,普适性较差。基于深度学习的自动勾画方法使自动勾画精度到达了一个新的水平,已有部分产品逐步投入临床,如AccuContour[5]、DeepViewer[5]、AI Contour[6]等。在相关的产品和文献中,一般采用自动与人工勾画的几何差异,如戴斯相似系数(Dice similarity coefficient,DSC)、豪斯多夫距离(Hausdorff distance,HD)等,来评估自动勾画结果。例如,据Sahiner等[7]统计显示,在部分研究中,肺、肝、脾、肾的DSC可以达到0.94~0.97,胰腺、膀胱、前列腺的DSC为0.71~0.87,部分靶区的DSC在0.6~0.9,不同器官和靶区的自动勾画准确性差异较大。
仅带有几何评估参数的自动勾画技术是否可以直接用于临床,临床关注的问题是自动与人工勾画导致的剂量差异有多大,是否会对治疗及预后产生影响。Zhu等[8]研究了自动与人工勾画在食管癌中的剂量差异,两种勾画方式导致的危及器官的剂量差异 < 1 Gy或1%,在临床上可以接受;该研究中,肺、心脏、脊髓以及脊髓PRV的DSC分别为0.97、0.93、0.84和0.92,但是二者之间的关系作者并未进一步分析。那么,一个好的几何参数是否意味着剂量差异很小?这是决定该自动勾画技术能否用于临床的关键。本研究采用自动及人工两种方式勾画同一器官,研究这两种勾画方式的DSC与对应的剂量参数差异之间的关系,分析基于深度学习的自动勾画技术应用于临床的可靠性。
资料和方法数据收集 本研究已通过复旦大学附属中山医院医学伦理委员会审核(批件号:B2021-546),所有患者均已签署知情同意书。研究中使用的数据来自2019年3月至2021年3月在复旦大学附属中山医院放疗科进行过上腹部调强放疗的43例患者。患者年龄37~87岁,其中男性32人,女性11人;肝癌13例,胆囊癌2例,胃癌4例,胰腺癌18例,后腹膜6例;放射治疗计划单次剂量在175~200 cGy,次数25~28次。所有患者的CT图像均采用仰卧位-头先进(head first supine,HFS)的方式,由西门子模拟定位设备(CT Siemens Somato,德国Siemens Healthcare公司)进行采集。每层图像重建分辨率为512×512,层厚为3 mm。将这些患者的CT图像和治疗计划文件以DICOM格式从原始治疗计划系统(Monaco,瑞典Elekta AB公司)中导出,并利用开源软件dicompyler[9]对这些文件进行姓名和治疗号匿名化处理。
器官的人工和自动勾画 参考文献用DSC评估自动勾画的结果[7],本研究也采用该评价参数。DSC介于0到1,数值越大代表自动勾画的效果越好。本研究选择胃和十二指肠两个器官进行分析研究。胃和十二指肠的人工勾画由经验丰富的剂量师参照RTOG指南[10]重新勾画,并由主管医师审核确认。胃的勾画范围:贲门(靠近心脏)、胃底、胃体、胃窦和幽门;十二指肠的勾画范围:上部、降部、水平部和升部。AccuContour系统[5]是由厦门Manteia公司开发的一种基于深度学习的自动勾画软件。该系统可对患者CT图像中头颈部、胸部、上腹部和下腹部的多种器官和靶区(鼻咽癌、食管癌、直肠癌等)进行自动勾画。本研究基于AccuContour系统对43例患者进行胃和十二指肠进行自动勾画,排除胃或十二指肠切除者,共得到40例胃部和38例十二指肠的勾画结果,通过DSC进行体积间的相关性分析。
剂量参数处理 分析文献发现,胃和十二指肠相关不良反应的评价参数较多,常见的有V25、V35、最大剂量等[11-13]。其中V25、V35分别是指剂量体积直方图曲线(dose volume histogram,DVH)上25 Gy及以上剂量和35 Gy及以上剂量对应的百分体积。因此,本研究设定的剂量参数包括DVH参数、最大剂量和平均剂量,其中DVH参数是指从DVH曲线上得到的参数,包括V5到V50,以5Gy递增。这些参数反映了临床常用的剂量限值类型,可以代表串行和并行两类器官。其中ΔVx(x代表不同的剂量),ΔDmax以及ΔDmean的计算公式如下:
$ \mathrm{\Delta }{V}_{x}={V}_{x, \mathrm{a}\mathrm{u}\mathrm{t}\mathrm{o}}-{V}_{x, \mathrm{m}\mathrm{a}\mathrm{n}\mathrm{u}\mathrm{a}\mathrm{l}} $ | (1) |
$ \mathrm{\Delta }{D}_{\mathrm{m}\mathrm{e}\mathrm{a}\mathrm{n}}={D}_{\mathrm{m}\mathrm{e}\mathrm{a}\mathrm{n}, \mathrm{a}\mathrm{u}\mathrm{t}\mathrm{o}}-{D}_{\mathrm{m}\mathrm{e}\mathrm{a}\mathrm{n}, \mathrm{m}\mathrm{a}\mathrm{n}\mathrm{u}\mathrm{a}\mathrm{l}} $ | (2) |
$ \mathrm{\Delta }{D}_{\mathrm{m}\mathrm{a}\mathrm{x}}={D}_{\mathrm{m}\mathrm{a}\mathrm{x}, \mathrm{a}\mathrm{u}\mathrm{t}\mathrm{o}}-{D}_{\mathrm{m}\mathrm{a}\mathrm{x}, \mathrm{m}\mathrm{a}\mathrm{n}\mathrm{u}\mathrm{a}\mathrm{l}} $ | (3) |
如公式(1)到(3)所示,auto和manual分别表示自动及人工勾画。本研究认为同一个患者的胃和十二指肠勾画结果是两个独立样本,因为器官的自动勾画由对应的模型来完成,一个器官的勾画结果并不会影响另外一个器官。对差异为0的结果,人工检查自动和人工勾画的结果,若二者都为0,则删除该数据。为了减少数据量对统计结果的影响,本研究对数据进行了分组。分组原则是以DSC的0.01为递进步长,如果该区间内的数据量≥10个,则以该区间为一组,不做进一步处理,否则按照临近原则,将该组数据与下一组数据进行合并,直至组内样本量≥10个,不同数据对应DSC的加权平均值为这一组数据的DSC。
统计学处理 采用SPSS 21.0软件对体积与DSC间的关系进行Spearman相关分析。因为每组DSC对应的剂量学数据为偏态分布,所以在分析时采用中位数及四分位距表示每组数据的分布。
结果自动与人工勾画结果比较 同一个患者部分层面胃和十二指肠的勾画差异如图 1所示。其中1A、1B、1C分别代表胃和十二指肠在横断面、矢状面和冠状面的勾画结果。深蓝色和红色代表胃的人工和自动勾画结果,天蓝色和洋红色代表十二指肠的人工和自动勾画结果。胃的自动勾画结果要优于十二指肠的自动勾画结果。在很多地方,即使有明显的灰度差异,十二指肠的自动勾画模型仍然不能完美地勾画出所有的体积。本研究进一步分析了自动与人工勾画结果体积之间的关系,图 2A和2B分别代表胃和十二指肠的结果。就体积而言,胃的自动与人工勾画结果相关性较高,而十二指肠的体积相关性较差。对数据进行线性拟合,胃的R2达到0.9491,斜率为1.0812,接近1,说明二者勾画结果一致性较高。十二指肠体积的R2为0.452,斜率为0.7476,二者的一致性较差。
![]() |
The delineation results of stomach and duodenum in cross-section (A), sagittal plane (B) and coronal plane (C). Dark blue and red represent the artificial and automatic results of stomach, and sky blue and magenta represent the artificial and automatic results of duodenum. 图 1 胃与十二指肠自动勾画的结果 Fig 1 Results of automatic delineation for stomach and duodenum |
![]() |
A: Volume relationship for stomach; B: Volume relationship for duodenum. 图 2 自动勾画与人工勾画体积之间的关系 Fig 2 Volume relationship between auto and manual contoured structures |
DSC与不同类型剂量限值的关系分析 ΔVx、ΔDmean以及ΔDmax与DSC之间的关系如图 3~5所示。针对胃和十二指肠两种器官,ΔVx和DSC之间呈现出类似的规律(图 3A、3B)。将两个器官的数据融合在一起,并进行分组,统计每组数据的中位数及四分位距(图 3D)。随着DSC增大,ΔVx的四分位距缩小明显,而且中位数越来越趋近于0。以散点图的方式将DSC > 0.85的部分放大显示(图 3C),当DSC > 0.95以后,ΔVx都能到达5%以下,且大部分低于3%。
![]() |
A: Scatter plot of the relationship between ΔVx and DSC for stomach; B: Scatter plot of the relationship between ΔVx and DSC for duodenum; C: Enlarge and display all data with DSC > 0.85 in the form of scatter plot; D: All data in the form of interquartile range and median value. 图 3 胃和十二指肠ΔVx与DSC间的关系 Fig 3 Relationship between ΔVx and DSC in stomach and duodenum |
![]() |
A: Scatter plot of the relationship between ΔDmean and DSC for stomach; B: Scatter plot of the relationship between ΔDmean and DSC for duodenum; C: Enlarge and display all data with DSC > 0.85 in the form of scatter plot; D: All data in the form of interquartile range and median value. 图 4 胃和十二指肠ΔDmean与DSC的关系 Fig 4 Relationship between ΔDmean and DSC in stomach and duodenum |
![]() |
A: Scatter plot of the relationship between ΔDmax and DSC for stomach; B: Scatter plot of the relationship between ΔDmax and DSC for duodenum; C: All data in the form of scatter plot; D: All data in the form of interquartile range and median value. 图 5 胃和十二指肠ΔDmax与DSC的关系 Fig 5 Relationship between ΔDmax and DSC in stomach and duodenum |
针对胃和十二指肠两种器官,ΔDmean和DSC之间呈现出类似的规律(图 4A、4B)。利用与图 3D一样的方法处理两个器官的数据,ΔDmean的四分位距随着DSC增大而明显缩小,中位数也同样越来越趋近于0(图 4D)。以散点图的方式将DSC > 0.85的部分放大显示(图 4C),当DSC > 0.95以后,ΔDmean降到2 Gy以下,且大部分低于1 Gy。
ΔDmax与DSC之间的关系如图 5所示。对于ΔDmax,并未发现如上两种剂量限值类似的规律,即人工与自动勾画结果的剂量差异会随着DSC的增大而减小。在胃的某个勾画结果中,在DSC高达0.975时,最大剂量的差异仍然达到-20.93 Gy。
讨论在基于深度学习的自动勾画研究中,用DSC来评估两个轮廓之间相似程度是被普遍采用的方法。一般认为DSC > 0.7表示自动和人工勾画效果好,是可以接受的结果[14],符合临床使用的要求。在分析几何评估参数与剂量差异关系的文献[15]中,二者的相关性往往较差,即较高的DSC与较低的剂量差异不相关。与以往研究不同的是,在本研究中,对于平均剂量以及DVH参数,剂量差异将会随着DSC的增加而减小。但是DSC > 0.7并不能达到临床接受的标准,在本研究中DSC应该高于0.95。如果某个器官为并行器官,即以平均剂量以及DVH参数作为剂量评估参数,而且该器官的自动勾画结果DSC大于0.95,那么将该器官的自动勾画结果用于临床将较为安全。Kaderka等[16]研究发现,即使DSC很小,有时候其剂量学参数也符合临床要求。本研究也发现了类似现象,即使DSC很低,仍有很多剂量参数差异集中在0附近。
另外,在本次研究中最大剂量差异并不会随着DSC增大而减小,这表明DSC并不是适合预测最大剂量的几何参数。但是,无论是哪种几何评估参数,器官所有位置的勾画误差都会同等地影响最后的几何评估参数,而放疗中的剂量分布是有方向的,越接近靶区剂量越大,因此不同剂量场处,相同的几何误差也会导致不同的剂量差异。所以,即使是同一个危及器官,针对不同病种训练不同的勾画模型,并在临床使用前评估该模型的几何评估参数以及对应的剂量差异,将有更为重要的临床意义,也是我们下一步工作的重点。
目前,针对一些小体积器官,如小肠、胰腺、血管等,因为图像占比小、形状变化大等原因,其勾画精度仍难以令人满意[7]。本研究的结果也体现了这一点,比较胃和十二指肠的自动勾画结果,以DSC来衡量,十二指肠要低于胃。由于通用的神经网络架构[17]在描述小体积目标时不够精确,因此研究性能更优的、针对小体积器官的自动勾画网络对临床实践有着重要意义。
病例的增多会增加结论的可靠性,但是在我们科的临床实践中上腹部的病例并非主流,我们搜索了相关的病例,符合伦理标准的如本文中所示。为此,本研究特意选择胃和十二指肠两个形态上差异极大的器官进行分析,我们认为在两类器官上都体现出来的结论具有一定的普遍性。本研究的另一个局限性是所有数据均来自单一中心,在人工勾画时可能存在一定主观偏差,因此也期待其他中心进行类似研究,以得到更加普遍的结论。
综上所述,本研究比较了胃和十二指肠自动勾画的DSC与各类型剂量差异的关系,发现DVH参数和平均剂量差异随着DSC增加而减小,最大剂量差异与DSC无关。从安全性考虑,即使较好的DSC也不能保证所有类型的剂量差异都符合临床要求。因此,将基于深度学习的自动勾画技术安全地用于放疗,除了需要DSC以外,对应器官勾画模型导致的剂量参数差异也是必须考虑的参数。
作者贡献声明 马秀瑞 资料收集,数据处理,统计分析,论文撰写。张建英 研究设计,资料收集,论文修改。李婷婷,张玉洁,肖寒,孙菁,吴泇俣 资料收集,论文修改。嵇卫星 研究设计,数据处理,统计分析,论文修改。
利益冲突声明 所有作者均声明不存在利益冲突。
[1] |
LI X A, TAI A, ARTHUR DW, et al. Variability of target and normal structure delineation for breast cancer radiotherapy: an RTOG multiinstitutional and multiobserver study[J]. Int J Radiat Oncol Biol Phys, 2009, 73(3): 944-951.
[DOI]
|
[2] |
NELMS BE, TOMÉ WA, ROBINSON G, et al. Variations in the contouring of organs at risk: test case from a patient with oropharyngeal cancer[J]. Int J Radiat Oncol Biol Phys, 2012, 82(1): 368-378.
[DOI]
|
[3] |
ELDESOKY AR, YATES ES, NYENG TB, et al. Internal and external validation of an ESTRO delineation guideline dependent automated segmentation tool for loco-regional radiation therapy of early breast cancer[J]. Radiother Oncol, 2016, 121(3): 424-430.
[DOI]
|
[4] |
WALKER GV, AWAN M, TAO R, et al. Prospective randomized double-blind study of atlas-based organ-at-risk autosegmentation assisted radiation planning in head and neck cancer[J]. Radiother Oncol, 2014, 112(3): 321-325.
[DOI]
|
[5] |
霍新颖, 王敏, 时飞跃, 等. AccuContour和DeepViewer两款软件自动勾画胰腺癌患者肾脏结构的比较[J]. 中国医疗设备, 2021, 36(7): 52-54. [DOI]
|
[6] |
陈子印, 白艳春, 徐巍, 等. 人工智能云技术在乳腺癌患者心脏亚结构自动勾画中的应用[J]. 中国医学物理学杂志, 2020, 37(12): 1599-1603. [DOI]
|
[7] |
SAHINER B, PEZESHK A, HADJIISKI LM, et al. Deep learning in medical imaging and radiation therapy[J]. Med Phys, 2019, 46(1): e1-e36.
[DOI]
|
[8] |
ZHU J, CHEN X, YANG B, et al. Evaluation of automatic segmentation model with dosimetric metrics for radiotherapy of esophageal cancer[J]. Front Oncol, 2020, 10: 564737.
[DOI]
|
[9] |
PANCHAL A, KEYES R. SU-GG-T-260: Dicompyler: an open source radiation therapy research platform with a plugin architecture[J]. Med Phys, 2010, 37(6Part19): 3245-3245.
|
[10] |
JABBOUR SK, HASHEM SA, BOSCH W, et al. Upper abdominal normal organ contouring guidelines and atlas: a Radiation Therapy Oncology Group consensus[J]. Pract Radiat Oncol, 2014, 4(2): 82-89.
[DOI]
|
[11] |
HUANG J, ROBERTSON JM, YE H, et al. Dose-volume analysis of predictors for gastrointestinal toxicity after concurrent full-dose gemcitabine and radiotherapy for locally advanced pancreatic adenocarcinoma[J]. Int J Radiat Oncol Biol Phys, 2011, 83(4): 1120-1125.
|
[12] |
KIM H, LIM DH, PAIK SW, et al. Predictive factors of gastroduodenal toxicity in cirrhotic patients after three-dimensional conformal radiotherapy for hepatocellular carcinoma[J]. Radiother Oncol, 2009, 93(2): 302-306.
[DOI]
|
[13] |
BAE SH, KIM M, CHO CK, et al. Predictor of severe gastroduodenal toxicity after stereotactic body radiotherapy for abdominopelvic malignancies[J]. Int J Radiat Oncol Biol Phys, 2012, 84(4): e469-e474.
[DOI]
|
[14] |
何奕松, 蒋家良, 余行, 等. 影像分割中Dice系数和Hausdorff距离的比较[J]. 中国医学物理学杂志, 2019, 36(11): 1307-1311. [DOI]
|
[15] |
余行, 刘欢, 傅玉川. 放疗影像自动分割效果评估中几何参数与剂量学参数之间的关联性[J]. 中国医学物理学杂志, 2021, 38(5): 540-544. [DOI]
|
[16] |
KADERKA R, GILLESPIE EF, MUNDT RC, et al. Geometric and dosimetric evaluation of atlas-based auto-segmentation of cardiac structures in breast cancer patients[J]. Radiother Oncol, 2019, 131: 215-220.
[DOI]
|
[17] |
SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Trans Pattern Anal Mach Intell, 2017, 39(4): 640-651.
[DOI]
|