基于Transformer和扩散模型的头颅侧位片颈椎分割方法在正畸临床中的初步应用
1.
2.
3.
Preliminary application of a cervical vertebra segmentation method based on Transformer and diffusion model for lateral cephalometric radiographs in orthodontic clinical practice
1.
2.
3.
通讯作者: 赵 悦,电子信箱:zhaoyue@cqupt.edu.cn宋锦璘,电子信箱:songjinlin@hospital.cqmu.edu.cn。
第一联系人:
编委: 崔黎明
收稿日期: 2024-03-05 接受日期: 2024-08-21 网络出版日期: 2024-12-28
基金资助: |
|
Corresponding authors: ZHAO Yue, E-mail:zhaoyue@cqupt.edu.cnSONG Jinlin, E-mail:songjinlin@hospital.cqmu.edu.cn.
Received: 2024-03-05 Accepted: 2024-08-21 Online: 2024-12-28
作者简介 About authors
刘洋(1987—),男,副研究员,博士;电子信箱:
刘洋(1987—),男,副研究员,博士;电子信箱:
目的·针对错
关键词:
Objective ·To construct a cervical vertebra image segmentation model by using a diffusion model with the Transformer deep learning algorithm, and evaluate its segmentation performance, to address the clinical challenge of accurately assessing complex changes in skeletal morphology during the growth and developmental peaks of malocclusion. Methods ·Accurate cervical vertebra segmentation was performed on cephalometric radiographs from 185 orthodontic patients (44 cases from the Stomatological Hospital of Chongqing Medical University and 141 cases from the Stomatological Hospital of Xi'an Jiaotong University) by using a method combining Transformer and diffusion models. First, the images were preprocessed to crop out the cervical vertebra region of interest, and all data were randomly divided into a training set (79.6%) and a test set (20.4%). The diffusion model and a conditional model based on U-Net were utilized for feature extraction, with a Transformer module introduced to learn the interaction between noise and semantic features. Multi-scale images were fused to enhance fine structure and boundary texture features in low-contrast images. The proposed method was compared with U-Net and SOLOv2 methods. The segmentation performance was quantitatively evaluated by two metrics, Dice Similarity Coefficient (DSC) and Intersection over Union (IoU), and also qualitatively assessed through physicians' manual annotations and model visualization results. Results ·The cervical vertebra segmentation method based on Transformer and diffusion models achieved DSC and IoU scores of 93.3% and 87.5%, respectively, significantly outperforming the U-Net and SOLOv2 methods (with improvements of 3.0% and 4.1% in DSC, and 5.2% and 7.1% in loU, respectively). Despite the longer processing time for a single image, segmentation accuracy was significantly improved. Compared with U-Net and SOLOv2, the proposed method also showed higher stability and robustness in processing complex, low-contrast and blurred-boundary images, and was able to accurately segment the cervical vertebrae with clear boundaries and complete structures. Conclusion ·The Transformer-based diffusion model for cervical vertebra segmentation can enhance the edge and texture features in cervical vertebra images and recognize the boundaries of different vertebrae more easily. Thus, automatic, accurate, and robust cervical vertebra segmentation results are achieved, which can assist in cervical vertebral maturation analysis.
Keywords:
本文引用格式
刘洋, 吴梦怡, 胡尧, 亓坤, 王渝彬, 赵悦, 宋锦璘.
LIU Yang, WU Mengyi, HU Yao, QI Kun, WANG Yubin, ZHAO Yue, SONG Jinlin.
准确评估儿童和青少年的生长发育情况对于口腔正畸的诊断和治疗至关重要[1]。临床实践发现,与实际年龄相比,骨骼成熟度能更准确、可靠地反映个体的生长发育情况[2-3]。尽管手腕X光片比头颅侧位片能更精准地判断骨骼成熟度,但后者还能完成正畸医师所需的颅面部形态分析,具有更高的实用性。为了减少患者经济负担以及辐射暴露,头颅侧位片中的颈椎成熟度是正畸临床中最常用的生长发育评估指标。有大量学者[4-5]针对如何提高颈椎骨成熟度的正确识别率进行了研究,以辅助医师准确预测面部的生长发育情况,从而确定正畸治疗的最佳时机,改善诊疗的效果及效率。其中,椎体的精准分割是颈椎骨成熟度精准评估的基础。精准的分割结果有助于临床医师更好地评估椎骨形态,对颈椎骨龄的判断具有重要价值。
由于头颅侧位片成像易受多种因素影响,图像存在对比度低、边界模糊、伪影等问题。此外,由于颈椎区域解剖结构复杂,椎骨之间存在重叠和接触,精准地分割出图像中的细微结构和模糊边界是一个非常具有挑战性的任务。为了克服以上挑战,现有颈椎分割方法主要采用依赖于先验知识、灰度信息的传统方法[6-8]和基于深度学习的半自动方法[9-13]。这些方法在准确性和效率上取得了一定的改进,推动了颈椎图像分割相关研究和应用的发展,为医学诊断和治疗带来更多的机遇和可能性[14-16]。然而这些方法在处理具有较强噪声、低对比度且结构复杂、形态多变的颈椎骨图像时,网络仍然难以准确捕捉到图像中的细微结构和边缘纹理特征,而这些特征对于具有重叠边界的颈椎分割至关重要。
受到基于扩散模型的医学图像分割MedSegDiff-V2[21]网络启发,本文提出了一种基于Transformer与扩散模型相结合的颈椎分割方法,旨在提高低质量图像颈椎分割的准确性,辅助临床医师预测青少年生长发育情况以确定最佳正畸治疗时机。本研究利用扩散模型与Transformer深度学习算法,针对错
1 材料与方法
1.1 数据收集
本研究收集185例常规牙齿矫正患者的头颅侧位片数据,其中重庆医科大学附属口腔医院44例,西安交通大学口腔医院141例。男性84例(43.8%),女性101例(56.2%)。拍摄头颅侧位片时患者的年龄5~37岁,其中<10岁的7例(3.8%),10~13岁的112例(60.5%),>13岁的66例(35.7%)。纳入标准:①年龄≥5岁,有真实可靠的病历资料。②头颅侧位影像中没有严重伪影和失真。③头颅侧位影像中包含完整清晰的第二、三、四节(C2、C3、C4)椎体。排除标准:①先天性或后天性颈椎畸形患者。②头颈部外伤和/或手术患者。③任何全身性疾病和/或生长发育迟缓类型患者。有6例患者纳入2个侧位片数据,总计纳入191个侧位片数据。
1.2 网络训练
通过Promax数字曲面全景机(Planmeca,芬兰)扫描仪获取头颅侧位片数据图像。数据集均按照医学数字成像和通信(digital imaging and communications in medicine,DICOM)标准格式化并经过匿名处理,图像分辨率为2 232像素×2 688像素,以PNG文件格式保存。根据2002年BACCETTI等[5]提出的颈椎骨龄分期法(cervical vertebrae maturation system,CVMS),考虑分析C2、C3、C4椎体。图像中的每个椎体均由2名放射科专家(拥有10年及以上经验的主任医师)共同讨论达成共识后再进行勾画。在未达成共识的情况下,与第3位放射科专家讨论,直到达成3人共识。
将放射科专家人工标注的191个头颅侧位片数据作为颈椎分割金标准(ground truth),并进行可视化展示(图1)。从原始数据集中随机抽取152个(79.6%)头颅侧位片数据用于模型训练和验证,剩余39个(20.4%)数据用于测试。所有网络都在PyTorch神经网络框架中实现,并在服务器上使用Nvidia GeForce 3090Ti GPU进行训练。总训练时间为8 h。
图1
图1
头颅侧位片图像和手动注释
Note: Three samples, designated from A to C, were randomly selected from 191 cases of manually annotated lateral cephalometric radiographs by radiologists. In these samples, C2, C3, and C4 corresponded to the second, third, and fourth vertebrae of the cervical spines, respectively.
Fig 1
Lateral cephalometric radiographs and manual annotations
1.3 基于扩散模型与Transformer相结合的MedSegDiff-V2网络的构建
1.3.1 扩散模型
扩散模型的构建包括前向扩散过程和反向扩散过程。前向扩散过程的核心是通过逐步添加噪声,将数据从原始分布转变为完全随机的噪声。具体而言,在每一个时间步骤中,前向扩散过程通过向数据中加入高斯噪声,使数据逐渐变得更加无序和模糊。随着扩散过程的进行,数据的结构信息不断丧失,直到在最后的步骤中数据变得几乎无法识别为原始数据。反向扩散过程的目标是从完全无序的噪声中恢复出原始数据的结构。这个过程则依赖于训练一个神经网络,该网络学习如何在每个去噪步骤中准确地还原数据[20]。通过在训练集上大量地训练数据和迭代优化,模型不断改进其参数,使其具备从完全无序的噪声中逐步恢复原始数据结构的能力。
1.3.2 MedSegDiff-V2网络
在上述扩散模型基础上引入Transformer和锚定条件而获得MedSegDiff-V2网络模型。其能够学习低对比度图像中的细微结构和边缘纹理特征,提高重叠椎骨区域边界分割的准确性。为了实现精准分割,将阶跃估计函数ϵ条件优化为原始图像的先验信息[24]。
MedSegDiff-V2的总体结构如图2所示。在扩散过程中,先将噪声掩膜输入扩散模型U-Net,再通过另一个标准U-Net(称之为条件模型)从原始图像中提取分割特征对扩散模型进行调节。首先使用锚定条件和语义条件2种不同的调节方式在扩散模型的编码器上设置锚定条件,将锚定分割特征整合到扩散模型的编码特征中。然后将语义条件强加到扩散模型的嵌入向量中。最后将条件模型的语义分割嵌入向量集成到扩散模型的嵌入向量中。
图2
图2
基于Transformer的扩散模型颈椎分割网络
Note: A. Overall architecture of the MedSegDiff-V2 network. The network took raw cranial lateral slice data as input, and proceeded to obtain results pertaining to the segmentation of the cervical vertebrae. It was achieved through a five-step process. ①Image preprocessing. The region of interest (ROI) was cropped and resized to 256×256 pixels. ②Dataset splitting. The 191 images were divided into two sets: 152 for training and 39 for testing. ③Model training. The MedSegDiff-V2 model was trained using the training dataset. ④Image sampling. Images from the test dataset were sampled using the trained diffusion. ⑤Performance evaluation. The DSC and IoU formulas were used to calculate the corresponding metrics from the ground truth masks and model predictions of the test dataset. B. MedSegDiff-V2 architecture. A Transformer-based diffusion network for image segmentation. FFT—Fast Fourier Transform; IFFT—reverse operation of the FFT; MLP—multi-layer perceptron; U-SA—uncertain spatial attention; NBP-Filter—neural band-pass filter. C. Neural band-pass filter.
Fig 2
A Transformer-based cervical vertebra segmentation network for diffusion model
MedSegDiff-V2采用标准的噪声预测损失
为了解决在扩散模型中直接添加Transformer模块可能会导致方差过大的问题,将锚定条件引入扩散模型中。锚定条件提供了条件模型中的粗略锚定特征,并将条件模型的解码分割特征集成到扩散模型的编码器特征中,从而为扩散模型提供了一个正确的预测范围,并允许其进一步细化结果。该方法提出不确定空间注意力(uncertain spatial attention,U-SA)机制,实现特征融合,以表示给定条件特征的不确定性。
为了解决语义条件和噪声之间的域差异问题,将SS-Former模块引入模型。SS-Former模块由多个共享相同架构的区块组成,每个区块由2个类似交叉注意力的模块组成。这样模型就能学习噪声和语义特征之间的相互作用,从而获得更强的表示能力。SS-Former模块使用神经带通滤波器(Neural Band-pass Filter,NBP-Filter)来调整频率范围,并根据扩散时间步长自适应地学习频谱。最后,NBP滤波器与整个流水线以端到端的方式进行训练,进一步完善注意力机制的应用结果。
1.4 颈椎分割结果的定量评估
为了定量评估基于Transformer的扩散模型颈椎分割方法的准确性,选择2个广泛使用的误差度量指标DSC和IoU,分别用于衡量分割结果与真实标签之间的相似程度和重叠程度,计算公式如下。
其中
将基于Transformer的扩散模型颈椎分割法与目前应用广泛的图像分割方法(U-Net、SOLOv2)于39个测试集数据中进行颈椎图像分割性能验证。U-Net网络是一种广泛应用于医学图像分割领域的深度学习架构。网络结构由1组对称的编码器和解码器组成,通过跳跃连接将编码器中的低级特征和解码器中的高级语义特征相互进行跳跃连接以实现多尺度特征融合,并利用不同层级的特征信息提高分割的准确性和鲁棒性。SOLOv2网络是一种单阶段的目标检测和实例分割框架,通过2个分支分别进行卷积核和特征表达的学习,在医学图像分割领域展示出优越的分割效果。
2 结果
2.1 基于Transformer的扩散模型颈椎分割法与其他分割方法的定量比较
表1 不同颈椎分割方法的DSC、IoU评分和处理时间
Tab 1
Method | DSC/% | IoU/% | Processing time/s |
---|---|---|---|
U-Net | 90.3 | 82.3 | 2.5 |
SOLOv2 | 89.2 | 80.4 | 1.7 |
Transformer-based diffusion model | 93.3 | 87.5 | 32.1 |
2.2 基于Transformer的扩散模型颈椎分割法与其他分割方法的定性比较
对基于Transformer的扩散模型颈椎分割法与U-Net、SOLOv2模型的可视化结果进行分析,结果见图3。在椎骨重叠且边界模糊的情况下,SOLOv2会导致严重的分割过度(图3A、B)、类别错误(图3C、D)、边界粘连(图3C、E)等问题,无法分割出颈椎骨的完整结构。尽管U-Net相比于SOLOv2表现更好,但由于其分割性能依赖于形状先验知识与灰度信息,在对比度低且存在伪影的颈椎骨图像上,仍然无法准确分割出颈椎骨的细微结构和边缘纹理(图3A、E)。相比之下,基于Transformer的扩散模型颈椎分割法不受图像噪声和伪影的影响,在低对比度、边界模糊,且存在伪影的复杂图像上仍然能够保持较高的稳定性和鲁棒性,能够精准分割出颈椎骨清晰的边界和完整结构。
图3
图3
不同方法在5个示例上的分割结果和相应的人工标注
Note: Five samples, designated from A to E, were randomly selected from the test set data of cervical vertebra segmentation images. The cervical vertebra segmentation method based on the Transformer and diffusion model was compared with the original input image, two additional methods (U-Net and SOLOv2), and the ground truth. The regions delineated by the dashed circles represent the areas where the segmentation results of the various methods differ from the ground truth.
Fig 3
Visualization of segmentation results obtained by different methods and the respective manual ground-truth annotations for five examples
3 讨论
颈椎骨龄成熟度评估的关键在于精准掌握椎体形态与骨龄成熟度之间的对应关系。尽管骨龄成熟度被人为划分为6个等级,但其实质上属于连续变量,因此颈椎骨龄成熟度评估本质上是一个回归问题。为了能够准确评估椎骨形态,为颈椎骨龄成熟度的回归分析提供可靠数据,从而辅助医师提出合适的诊疗方案,精准的颈椎图像分割至关重要。现有的颈椎图像分割方法主要依赖于形状先验知识与灰度信息。传统的颈椎图像分割方法包括基于图割方法[6]、水平集方法[7]和基于统计模型的方法[8],均具有较好的效果,但通常需要依靠手工设计的特征提取目标边界。因为图像本身灰度信息缺乏鲁棒性,无法自动地进行图像分割。此外,由于颈椎区域的解剖结构较为复杂且存在具有大量细节的重叠区域,尤其是在图像对比度较低或存在噪声的情况下,使得依赖于先验知识与灰度信息的传统方法难以准确区分和分割具有模糊边界的椎骨。
深度学习方法由于其自动提取特征的能力在颈椎分割任务上应用广泛。SHIM等[9]通过训练和比较4种不同的U-Net模型实现对X射线图像中颈椎和颅骨关键结构的自动分割。ZHANG等[10]开发了增强型U2-Net架构,通过可分离残差U形模块(deepwise separable residual U-shape module,DUM)和嵌入式U形结构的卷积注意力模块进行编解码,对获得的粗分割结果重新使用DUM以进行细化。ZHANG等[11]提出了三步分割法,通过PointNet++网络提高单个椎骨分割结果的准确性。以上基于深度学习的方法通过端到端的学习框架,直接从原始图像数据学习复杂的特征信息,提高了颈椎分割的效率和准确性,减轻了医护人员的负担。然而这些方法在处理低对比度图像上的复杂结构时,难以准确捕捉细微差别和纹理特征,无法分割出颈椎骨的完整结构。
本研究将基于扩散模型的深度学习分割方法应用到头颅侧位片中的全自动颈椎骨分割过程,模型训练完成后无任何手工干预。颈椎C2节段的上部分椎骨重叠,背景复杂,即使依靠肉眼也难以准确判断其完整的椎骨结构(图3A)。在这种结构复杂图像上,U-Net和SOLOv2均存在过度分割的问题;相比之下,扩散模型可通过锚定条件和语义条件捕获到更深层的语义特征信息,能够有效地从复杂的图像数据中学习到更好的形状和结构特征,从而更加精准地分割出颈椎骨的完整结构。在低对比度图像上,SOLOv2在C3节段上边界存在粘连和分类不清的问题(图3E)。引入Transformer的扩散模型通过合理分配注意力,使得本方法的分割结果更接近人工标注的实际情况,能够捕捉到更精确的细微结构和边缘纹理特征,提高椎骨与正常组织之间分界的精确性。在存在噪声和伪影的图像上(图3B、C),U-Net分割的椎骨边界存在较多毛刺。本方法预测的颈椎骨边界更加平滑和清晰,这主要由于扩散模型迭代去噪的基本原理,能够更好地应对噪声和伪影等问题,最终显示出优越的颈椎图像分割性能。通过引入Transformer和带有锚定条件的扩散模型(图2C),本方法可以学习噪声和语义特征之间的相互作用,从而显著提高鲁棒性和泛化能力。
尽管基于Transformer的扩散模型在单张图像上的处理时间慢于U-Net和SOLOv2,但其分割精度提升显著,更适用于对精度要求较高的临床应用。为了克服扩散模型训练所需的计算量较大和推理速度较慢的缺点,现有的一些工作也在尝试从多种角度出发降低扩散模型的复杂度以提高扩散模型的效率。例如,SONG等[25]将扩散模型中马尔可夫过程替换为更高效的非马尔可夫过程,能够在显著减少采样步骤的情况下,保证生成高质量的样本,将采样速度提升10~50倍;但其性能仍然依赖于硬件条件,对于大规模高分辨率图像生成,计算成本仍然不容忽视。DUAN等[26]设计了一个更优质的最优线性子空间搜索算法(optimal linear subspace search,OLSS)以加速扩散进程,其能够在很少的步骤内生成高质量图像,通过使用潜在扩散模型并应用OLSS,只需数秒钟就能生成1张高质量的图像。尽管OLSS在推理阶段表现优越,但其实现需要复杂的训练过程,包括线性子空间扩展和路径优化算法,使得模型的开发和维护成本增加。未来,仍需研究更高效的扩散模型用于医学图像分割,以辅助医师进行临床诊断、治疗方案确定和手术规划。
综上,基于扩散模型的深度学习分割网络能够在正畸诊断和治疗中,从复杂背景、有伪影、低质量的医学图像中自动、精准地分割颈椎骨的相关解剖结构,在抗噪声能力、准确的类别识别、清晰的边界和完整的结构分割等方面表现出良好的鲁棒性能,为处理复杂医学图像提供了新的解决方案。此外,基于Transformer的扩散模型不仅适用于头颅侧位片的颈椎分割,还可以推广到其他医学图像的分割任务中,特别是那些具有低对比度和复杂背景的图像,尤其适用于经验不足的临床医师。该模型在临床实践和医学研究中具有重要的应用前景。
作者贡献声明
刘洋、吴梦怡、胡尧负责论文撰写与修改。刘洋、亓坤、宋锦璘负责数据收集和分析,并提供口腔正畸与颈椎骨龄分期评估相关指导。胡尧、王渝彬负责实验设计与颈椎分割模型的运行。赵悦负责论文修改和模型架构设计指导。所有作者均阅读并同意了最终稿件的提交。
AUTHOR's CONTRIBUTIONS
LIU Yang, WU Mengyi, and HU Yao were responsible for writing and revising the paper. LIU Yang, QI Kun and SONG Jinlin were responsible for data collection and analysis, and provided guidance related to orthodontic and cervical bone age staging assessment. HU Yao and WANG Yubin were responsible for the experimental design and running of the cervical spine segmentation model. ZHAO Yue was responsible for the paper revision and model architecture design guidance. All the authors have read the last version of paper and consented for submission.
利益冲突声明
所有作者声明不存在利益冲突。
COMPETING INTERESTS
All authors disclose no relevant conflict of interests.
参考文献
/
〈 |
|
〉 |
