以戴斯相似系数作为评估参数的自动勾画技术用于胃和十二指肠的可靠性

复旦学报(医学版)

2022, Vol. 49

Issue (6): 948-954 DOI: 10.3969/j.issn.1672-8467.2022.06.015

Contents PDF Abstract Full text Fig/Tab

引用本文

马秀瑞, 张建英, 李婷婷, 张玉洁, 肖寒, 孙菁, 吴泇俣, 嵇卫星. 以戴斯相似系数作为评估参数的自动勾画技术用于胃和十二指肠的可靠性[J]. 复旦学报医学版, 2022, 49(6): 948-954.

MA Xiu-rui, ZHANG Jian-ying, LI Ting-ting, ZHANG Yu-jie, XIAO Han, SUN Jing, WU Jia-yu, JI Wei-xing. Reliability of automatic contouring with Dice similarity coefficient as an evaluation parameter for stomach and duodenum[J]. Fudan University Journal of Medical Sciences, 2022, 49(6): 948-954.

以戴斯相似系数作为评估参数的自动勾画技术用于胃和十二指肠的可靠性

马秀瑞 ^▲, 张建英 ^▲, 李婷婷 , 张玉洁 , 肖寒 , 孙菁 , 吴泇俣 , 嵇卫星

复旦大学附属中山医院放疗科上海 200032

收稿日期：2021-10-14；网络首发时间: 2022-07-11 09:52:35

基金项目：复旦大学附属中山医院青年科学基金（2021ZSQN26）

摘要：目的研究不同类型的剂量限值与评估自动勾画结果的戴斯相似系数（Dice similarity coefficient，DSC）的关系，分析将自动勾画技术用于放疗的可靠性。方法收集2019年3月至2021年3月内43例接受过上腹部放疗的患者图像，基于RTOG指南以及AccuContour系统，分别对胃和十二指肠进行人工和自动勾画，共得到40例胃部和38例十二指肠的勾画结果。统计各样本的DSC，分析其与剂量体积直方图曲线（dose volume histogram，DVH）参数的差异及平均剂量差异及最大剂量差异的关系。结果 DVH参数差异和平均剂量差异随着DSC的增加而减小。DSC > 0.95以后，DVH参数和平均剂量的差异将分别缩小至5%和2 Gy。DSC对最大剂量差异大小的预测结果较差。结论 DSC本身不足以保证自动勾画技术用于放疗的可靠性，需要进一步评估该技术导致的各类型剂量参数差异。

关键词：深度学习放射治疗自动勾画戴斯相似系数(DSC) 剂量限值

Reliability of automatic contouring with Dice similarity coefficient as an evaluation parameter for stomach and duodenum

MA Xiu-rui ^▲, ZHANG Jian-ying ^▲, LI Ting-ting , ZHANG Yu-jie , XIAO Han , SUN Jing , WU Jia-yu , JI Wei-xing

Department of Radiation Oncology, Zhongshan Hospital, Fudan University, Shanghai 200032, China

Foundation item: This work was supported by the Youth Science Foundation of Zhongshan Hospital, Fudan University (2021ZSQN26)

Corresponding author: JI Wei-xing, E-mail: ji.weixing@zs-hospital.sh.cn.

^▲MA Xiu-rui and ZHANG Jian-ying contributed equally to this work

Abstract: Objective To study the relationship between different types of dose constraints and Dice similarity coefficient(DSC) for evaluating automatic contouring results, and to analyze the reliability of automatic contouring with DSC as evaluation parameter in radiotherapy. Methods A total of 43 patients who had received upper abdominal radiotherapy from Mar 2019 to Mar 2021 were collected. Based on the RTOG guidelines and AccuContour system, the stomach and duodenum were manually and automatically contoured, and the contouring results of 40 cases of stomach and 38 cases of duodenum were obtained. The relationship between DSC and the differences of dose volume histogram (DVH) parameter difference, average dose difference and maximum dose were analyzed. Results The differences of DVH parameter and average dose decreased with the increase of DSC. When DSC was greater than 0.95, the difference of DVH parameter and average dose reduced to 5% and 2 Gy, respectively. DSC had a poor effect on the prediction for the difference of maximum dose. Conclusion It was found that DSC itself was not enough to ensure the reliability of automatic contouring technology in radiotherapy.Therefore, we need to further evaluate the differences of various types of dose parameters caused by this technology.

Key words: deep learning radiotherapy automatic contouring Dice similarity coefficient (DSC) dose constraint

放射治疗的重要目标是提高肿瘤控制率，同时降低正常组织的不良反应发生率。要达到这一目标，靶区和正常器官的准确勾画是整个治疗过程的关键一环。但是，由于个人的主观辨识能力不同和软件勾画精度不同，靶区与正常器官的勾画结果往往差异较大^[1-2]。为了保证勾画结果的一致性，目前临床上主要使用基于图谱库（Atlas）^[3-4]和基于深度学习的自动勾画方法。基于图谱库（Atlas）的自动勾画方法在临床上使用已有一段时间，该方法的精度受到建模数据和配准方式的影响，普适性较差。基于深度学习的自动勾画方法使自动勾画精度到达了一个新的水平，已有部分产品逐步投入临床，如AccuContour^[5]、DeepViewer^[5]、AI Contour^[6]等。在相关的产品和文献中，一般采用自动与人工勾画的几何差异，如戴斯相似系数（Dice similarity coefficient，DSC）、豪斯多夫距离（Hausdorff distance，HD）等，来评估自动勾画结果。例如，据Sahiner等^[7]统计显示，在部分研究中，肺、肝、脾、肾的DSC可以达到0.94~0.97，胰腺、膀胱、前列腺的DSC为0.71~0.87，部分靶区的DSC在0.6~0.9，不同器官和靶区的自动勾画准确性差异较大。

仅带有几何评估参数的自动勾画技术是否可以直接用于临床，临床关注的问题是自动与人工勾画导致的剂量差异有多大，是否会对治疗及预后产生影响。Zhu等^[8]研究了自动与人工勾画在食管癌中的剂量差异，两种勾画方式导致的危及器官的剂量差异 < 1 Gy或1%，在临床上可以接受；该研究中，肺、心脏、脊髓以及脊髓PRV的DSC分别为0.97、0.93、0.84和0.92，但是二者之间的关系作者并未进一步分析。那么，一个好的几何参数是否意味着剂量差异很小？这是决定该自动勾画技术能否用于临床的关键。本研究采用自动及人工两种方式勾画同一器官，研究这两种勾画方式的DSC与对应的剂量参数差异之间的关系，分析基于深度学习的自动勾画技术应用于临床的可靠性。

资料和方法

数据收集 本研究已通过复旦大学附属中山医院医学伦理委员会审核（批件号：B2021-546），所有患者均已签署知情同意书。研究中使用的数据来自2019年3月至2021年3月在复旦大学附属中山医院放疗科进行过上腹部调强放疗的43例患者。患者年龄37~87岁，其中男性32人，女性11人；肝癌13例，胆囊癌2例，胃癌4例，胰腺癌18例，后腹膜6例；放射治疗计划单次剂量在175~200 cGy，次数25~28次。所有患者的CT图像均采用仰卧位-头先进（head first supine，HFS）的方式，由西门子模拟定位设备（CT Siemens Somato，德国Siemens Healthcare公司）进行采集。每层图像重建分辨率为512×512，层厚为3 mm。将这些患者的CT图像和治疗计划文件以DICOM格式从原始治疗计划系统（Monaco，瑞典Elekta AB公司）中导出，并利用开源软件dicompyler^[9]对这些文件进行姓名和治疗号匿名化处理。

器官的人工和自动勾画 参考文献用DSC评估自动勾画的结果^[7]，本研究也采用该评价参数。DSC介于0到1，数值越大代表自动勾画的效果越好。本研究选择胃和十二指肠两个器官进行分析研究。胃和十二指肠的人工勾画由经验丰富的剂量师参照RTOG指南^[10]重新勾画，并由主管医师审核确认。胃的勾画范围：贲门（靠近心脏）、胃底、胃体、胃窦和幽门；十二指肠的勾画范围：上部、降部、水平部和升部。AccuContour系统^[5]是由厦门Manteia公司开发的一种基于深度学习的自动勾画软件。该系统可对患者CT图像中头颈部、胸部、上腹部和下腹部的多种器官和靶区（鼻咽癌、食管癌、直肠癌等）进行自动勾画。本研究基于AccuContour系统对43例患者进行胃和十二指肠进行自动勾画，排除胃或十二指肠切除者，共得到40例胃部和38例十二指肠的勾画结果，通过DSC进行体积间的相关性分析。

剂量参数处理 分析文献发现，胃和十二指肠相关不良反应的评价参数较多，常见的有V₂₅、V₃₅、最大剂量等^[11-13]。其中V₂₅、V₃₅分别是指剂量体积直方图曲线（dose volume histogram，DVH）上25 Gy及以上剂量和35 Gy及以上剂量对应的百分体积。因此，本研究设定的剂量参数包括DVH参数、最大剂量和平均剂量，其中DVH参数是指从DVH曲线上得到的参数，包括V₅到V₅₀，以5Gy递增。这些参数反映了临床常用的剂量限值类型，可以代表串行和并行两类器官。其中ΔV_x（x代表不同的剂量），ΔD_max以及ΔD_mean的计算公式如下：

$ \mathrm{\Delta }{V}_{x}={V}_{x, \mathrm{a}\mathrm{u}\mathrm{t}\mathrm{o}}-{V}_{x, \mathrm{m}\mathrm{a}\mathrm{n}\mathrm{u}\mathrm{a}\mathrm{l}} $

(1)

$ \mathrm{\Delta }{D}_{\mathrm{m}\mathrm{e}\mathrm{a}\mathrm{n}}={D}_{\mathrm{m}\mathrm{e}\mathrm{a}\mathrm{n}, \mathrm{a}\mathrm{u}\mathrm{t}\mathrm{o}}-{D}_{\mathrm{m}\mathrm{e}\mathrm{a}\mathrm{n}, \mathrm{m}\mathrm{a}\mathrm{n}\mathrm{u}\mathrm{a}\mathrm{l}} $

(2)

$ \mathrm{\Delta }{D}_{\mathrm{m}\mathrm{a}\mathrm{x}}={D}_{\mathrm{m}\mathrm{a}\mathrm{x}, \mathrm{a}\mathrm{u}\mathrm{t}\mathrm{o}}-{D}_{\mathrm{m}\mathrm{a}\mathrm{x}, \mathrm{m}\mathrm{a}\mathrm{n}\mathrm{u}\mathrm{a}\mathrm{l}} $

(3)

如公式（1）到（3）所示，auto和manual分别表示自动及人工勾画。本研究认为同一个患者的胃和十二指肠勾画结果是两个独立样本，因为器官的自动勾画由对应的模型来完成，一个器官的勾画结果并不会影响另外一个器官。对差异为0的结果，人工检查自动和人工勾画的结果，若二者都为0，则删除该数据。为了减少数据量对统计结果的影响，本研究对数据进行了分组。分组原则是以DSC的0.01为递进步长，如果该区间内的数据量≥10个，则以该区间为一组，不做进一步处理，否则按照临近原则，将该组数据与下一组数据进行合并，直至组内样本量≥10个，不同数据对应DSC的加权平均值为这一组数据的DSC。

统计学处理 采用SPSS 21.0软件对体积与DSC间的关系进行Spearman相关分析。因为每组DSC对应的剂量学数据为偏态分布，所以在分析时采用中位数及四分位距表示每组数据的分布。

结果

自动与人工勾画结果比较 同一个患者部分层面胃和十二指肠的勾画差异如图 1所示。其中1A、1B、1C分别代表胃和十二指肠在横断面、矢状面和冠状面的勾画结果。深蓝色和红色代表胃的人工和自动勾画结果，天蓝色和洋红色代表十二指肠的人工和自动勾画结果。胃的自动勾画结果要优于十二指肠的自动勾画结果。在很多地方，即使有明显的灰度差异，十二指肠的自动勾画模型仍然不能完美地勾画出所有的体积。本研究进一步分析了自动与人工勾画结果体积之间的关系，图 2A和2B分别代表胃和十二指肠的结果。就体积而言，胃的自动与人工勾画结果相关性较高，而十二指肠的体积相关性较差。对数据进行线性拟合，胃的R²达到0.9491，斜率为1.0812，接近1，说明二者勾画结果一致性较高。十二指肠体积的R²为0.452，斜率为0.7476，二者的一致性较差。

The delineation results of stomach and duodenum in cross-section (A), sagittal plane (B) and coronal plane (C). Dark blue and red represent the artificial and automatic results of stomach, and sky blue and magenta represent the artificial and automatic results of duodenum. 图 1 胃与十二指肠自动勾画的结果 Fig 1 Results of automatic delineation for stomach and duodenum

图选项

A: Volume relationship for stomach; B: Volume relationship for duodenum. 图 2 自动勾画与人工勾画体积之间的关系 Fig 2 Volume relationship between auto and manual contoured structures

图选项

DSC与不同类型剂量限值的关系分析 ΔV_x、ΔD_mean以及ΔD_max与DSC之间的关系如图 3~5所示。针对胃和十二指肠两种器官，ΔV_x和DSC之间呈现出类似的规律（图 3A、3B）。将两个器官的数据融合在一起，并进行分组，统计每组数据的中位数及四分位距（图 3D）。随着DSC增大，ΔV_x的四分位距缩小明显，而且中位数越来越趋近于0。以散点图的方式将DSC > 0.85的部分放大显示（图 3C），当DSC > 0.95以后，ΔV_x都能到达5%以下，且大部分低于3%。

A: Scatter plot of the relationship between ΔV_x and DSC for stomach; B: Scatter plot of the relationship between ΔV_x and DSC for duodenum; C: Enlarge and display all data with DSC > 0.85 in the form of scatter plot; D: All data in the form of interquartile range and median value. 图 3 胃和十二指肠ΔV_x与DSC间的关系 Fig 3 Relationship between ΔV_x and DSC in stomach and duodenum

图选项

A: Scatter plot of the relationship between ΔD_mean and DSC for stomach; B: Scatter plot of the relationship between ΔD_mean and DSC for duodenum; C: Enlarge and display all data with DSC > 0.85 in the form of scatter plot; D: All data in the form of interquartile range and median value. 图 4 胃和十二指肠ΔD_mean与DSC的关系 Fig 4 Relationship between ΔD_mean and DSC in stomach and duodenum

图选项

A: Scatter plot of the relationship between ΔD_max and DSC for stomach; B: Scatter plot of the relationship between ΔD_max and DSC for duodenum; C: All data in the form of scatter plot; D: All data in the form of interquartile range and median value. 图 5 胃和十二指肠ΔD_max与DSC的关系 Fig 5 Relationship between ΔD_max and DSC in stomach and duodenum

图选项

针对胃和十二指肠两种器官，ΔD_mean和DSC之间呈现出类似的规律（图 4A、4B）。利用与图 3D一样的方法处理两个器官的数据，ΔD_mean的四分位距随着DSC增大而明显缩小，中位数也同样越来越趋近于0（图 4D）。以散点图的方式将DSC > 0.85的部分放大显示（图 4C），当DSC > 0.95以后，ΔD_mean降到2 Gy以下，且大部分低于1 Gy。

ΔD_max与DSC之间的关系如图 5所示。对于ΔD_max，并未发现如上两种剂量限值类似的规律，即人工与自动勾画结果的剂量差异会随着DSC的增大而减小。在胃的某个勾画结果中，在DSC高达0.975时，最大剂量的差异仍然达到-20.93 Gy。

讨论

在基于深度学习的自动勾画研究中，用DSC来评估两个轮廓之间相似程度是被普遍采用的方法。一般认为DSC > 0.7表示自动和人工勾画效果好，是可以接受的结果^[14]，符合临床使用的要求。在分析几何评估参数与剂量差异关系的文献^[15]中，二者的相关性往往较差，即较高的DSC与较低的剂量差异不相关。与以往研究不同的是，在本研究中，对于平均剂量以及DVH参数，剂量差异将会随着DSC的增加而减小。但是DSC > 0.7并不能达到临床接受的标准，在本研究中DSC应该高于0.95。如果某个器官为并行器官，即以平均剂量以及DVH参数作为剂量评估参数，而且该器官的自动勾画结果DSC大于0.95，那么将该器官的自动勾画结果用于临床将较为安全。Kaderka等^[16]研究发现，即使DSC很小，有时候其剂量学参数也符合临床要求。本研究也发现了类似现象，即使DSC很低，仍有很多剂量参数差异集中在0附近。

另外，在本次研究中最大剂量差异并不会随着DSC增大而减小，这表明DSC并不是适合预测最大剂量的几何参数。但是，无论是哪种几何评估参数，器官所有位置的勾画误差都会同等地影响最后的几何评估参数，而放疗中的剂量分布是有方向的，越接近靶区剂量越大，因此不同剂量场处，相同的几何误差也会导致不同的剂量差异。所以，即使是同一个危及器官，针对不同病种训练不同的勾画模型，并在临床使用前评估该模型的几何评估参数以及对应的剂量差异，将有更为重要的临床意义，也是我们下一步工作的重点。

目前，针对一些小体积器官，如小肠、胰腺、血管等，因为图像占比小、形状变化大等原因，其勾画精度仍难以令人满意^[7]。本研究的结果也体现了这一点，比较胃和十二指肠的自动勾画结果，以DSC来衡量，十二指肠要低于胃。由于通用的神经网络架构^[17]在描述小体积目标时不够精确，因此研究性能更优的、针对小体积器官的自动勾画网络对临床实践有着重要意义。

病例的增多会增加结论的可靠性，但是在我们科的临床实践中上腹部的病例并非主流，我们搜索了相关的病例，符合伦理标准的如本文中所示。为此，本研究特意选择胃和十二指肠两个形态上差异极大的器官进行分析，我们认为在两类器官上都体现出来的结论具有一定的普遍性。本研究的另一个局限性是所有数据均来自单一中心，在人工勾画时可能存在一定主观偏差，因此也期待其他中心进行类似研究，以得到更加普遍的结论。

综上所述，本研究比较了胃和十二指肠自动勾画的DSC与各类型剂量差异的关系，发现DVH参数和平均剂量差异随着DSC增加而减小，最大剂量差异与DSC无关。从安全性考虑，即使较好的DSC也不能保证所有类型的剂量差异都符合临床要求。因此，将基于深度学习的自动勾画技术安全地用于放疗，除了需要DSC以外，对应器官勾画模型导致的剂量参数差异也是必须考虑的参数。

作者贡献声明 马秀瑞资料收集，数据处理，统计分析，论文撰写。张建英研究设计，资料收集，论文修改。李婷婷，张玉洁，肖寒，孙菁，吴泇俣资料收集，论文修改。嵇卫星研究设计，数据处理，统计分析，论文修改。

利益冲突声明 所有作者均声明不存在利益冲突。

参考文献

[1]	LI X A, TAI A, ARTHUR DW, et al. Variability of target and normal structure delineation for breast cancer radiotherapy: an RTOG multiinstitutional and multiobserver study[J]. Int J Radiat Oncol Biol Phys, 2009, 73(3): 944-951. [DOI]
[2]	NELMS BE, TOMÉ WA, ROBINSON G, et al. Variations in the contouring of organs at risk: test case from a patient with oropharyngeal cancer[J]. Int J Radiat Oncol Biol Phys, 2012, 82(1): 368-378. [DOI]
[3]	ELDESOKY AR, YATES ES, NYENG TB, et al. Internal and external validation of an ESTRO delineation guideline dependent automated segmentation tool for loco-regional radiation therapy of early breast cancer[J]. Radiother Oncol, 2016, 121(3): 424-430. [DOI]
[4]	WALKER GV, AWAN M, TAO R, et al. Prospective randomized double-blind study of atlas-based organ-at-risk autosegmentation assisted radiation planning in head and neck cancer[J]. Radiother Oncol, 2014, 112(3): 321-325. [DOI]
[5]	霍新颖, 王敏, 时飞跃, 等. AccuContour和DeepViewer两款软件自动勾画胰腺癌患者肾脏结构的比较[J]. 中国医疗设备, 2021, 36(7): 52-54. [DOI]
[6]	陈子印, 白艳春, 徐巍, 等. 人工智能云技术在乳腺癌患者心脏亚结构自动勾画中的应用[J]. 中国医学物理学杂志, 2020, 37(12): 1599-1603. [DOI]
[7]	SAHINER B, PEZESHK A, HADJIISKI LM, et al. Deep learning in medical imaging and radiation therapy[J]. Med Phys, 2019, 46(1): e1-e36. [DOI]
[8]	ZHU J, CHEN X, YANG B, et al. Evaluation of automatic segmentation model with dosimetric metrics for radiotherapy of esophageal cancer[J]. Front Oncol, 2020, 10: 564737. [DOI]
[9]	PANCHAL A, KEYES R. SU-GG-T-260: Dicompyler: an open source radiation therapy research platform with a plugin architecture[J]. Med Phys, 2010, 37(6Part19): 3245-3245.
[10]	JABBOUR SK, HASHEM SA, BOSCH W, et al. Upper abdominal normal organ contouring guidelines and atlas: a Radiation Therapy Oncology Group consensus[J]. Pract Radiat Oncol, 2014, 4(2): 82-89. [DOI]
[11]	HUANG J, ROBERTSON JM, YE H, et al. Dose-volume analysis of predictors for gastrointestinal toxicity after concurrent full-dose gemcitabine and radiotherapy for locally advanced pancreatic adenocarcinoma[J]. Int J Radiat Oncol Biol Phys, 2011, 83(4): 1120-1125.
[12]	KIM H, LIM DH, PAIK SW, et al. Predictive factors of gastroduodenal toxicity in cirrhotic patients after three-dimensional conformal radiotherapy for hepatocellular carcinoma[J]. Radiother Oncol, 2009, 93(2): 302-306. [DOI]
[13]	BAE SH, KIM M, CHO CK, et al. Predictor of severe gastroduodenal toxicity after stereotactic body radiotherapy for abdominopelvic malignancies[J]. Int J Radiat Oncol Biol Phys, 2012, 84(4): e469-e474. [DOI]
[14]	何奕松, 蒋家良, 余行, 等. 影像分割中Dice系数和Hausdorff距离的比较[J]. 中国医学物理学杂志, 2019, 36(11): 1307-1311. [DOI]
[15]	余行, 刘欢, 傅玉川. 放疗影像自动分割效果评估中几何参数与剂量学参数之间的关联性[J]. 中国医学物理学杂志, 2021, 38(5): 540-544. [DOI]
[16]	KADERKA R, GILLESPIE EF, MUNDT RC, et al. Geometric and dosimetric evaluation of atlas-based auto-segmentation of cardiac structures in breast cancer patients[J]. Radiother Oncol, 2019, 131: 215-220. [DOI]
[17]	SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Trans Pattern Anal Mach Intell, 2017, 39(4): 640-651. [DOI]

文章信息

马秀瑞, 张建英, 李婷婷, 张玉洁, 肖寒, 孙菁, 吴泇俣, 嵇卫星

MA Xiu-rui, ZHANG Jian-ying, LI Ting-ting, ZHANG Yu-jie, XIAO Han, SUN Jing, WU Jia-yu, JI Wei-xing

以戴斯相似系数作为评估参数的自动勾画技术用于胃和十二指肠的可靠性

Reliability of automatic contouring with Dice similarity coefficient as an evaluation parameter for stomach and duodenum

复旦学报医学版, 2022, 49(6): 948-954.

Fudan University Journal of Medical Sciences, 2022, 49(6): 948-954.

Corresponding author
JI Wei-xing, E-mail: ji.weixing@zs-hospital.sh.cn.

基金项目
复旦大学附属中山医院青年科学基金（2021ZSQN26）

Foundation item
This work was supported by the Youth Science Foundation of Zhongshan Hospital, Fudan University (2021ZSQN26)

文章信息

工作空间