多模态肺结节诊断模型的临床验证及应用价值探索
1.
2.
3.
Clinical validation and application value exploration of multi-modal pulmonary nodule diagnosis model
1.
2.
3.
通讯作者: 娄加陶,电子信箱:loujiatao@126.com。
编委: 邢宇洋
收稿日期: 2024-01-10 接受日期: 2024-04-30
| 基金资助: |
|
Corresponding authors: LOU Jiatao, E-mail:loujiatao@126.com.
Received: 2024-01-10 Accepted: 2024-04-30
目的·验证采用随机森林算法并基于血清代谢指纹数据、蛋白标志物癌胚抗原(carcinoembryonic antigen,CEA)和Image-AI的多模态肺结节诊断模型(a multi-modal pulmonary nodule diagnosis model combined metabolic fingerprints,protein biomarker CEA and Image-AI via random forest,MPI-RF)的性能,探索其临床应用价值。方法·入组就诊于上海交通大学医学院附属胸科医院且低剂量螺旋CT表现为肺结节的患者289例,根据术后病理结果将其分为恶性结节组( n=197)和良性结节组( n=92),收集并比较2组患者的基本信息。使用电化学发光法检测2组患者术前血清CEA水平,使用基质辅助激光解吸电离质谱(matrix-assisted laser desorption/ionization mass spectrometry,MALDI-MS)检测血清代谢指纹图谱,使用CT影像人工智能模型Image-AI计算影像得分。将CEA数据、血清代谢指纹数据和影像得分整合后输入至MPI-RF中,计算每位患者的恶性概率得分。采用受试者操作特征曲线(receiver operator characteristic curve,ROC曲线)、曲线下面积(area under the curve,AUC)评估不同模型的性能并采用DeLong检验进行比较分析,包括MPI-RF在不同类型(实性、纯磨玻璃、混合磨玻璃)和大小(直径<8 mm、直径≥8 mm)的肺结节中的诊断性能,MPI-RF与Mayo Clinic 模型、美国退伍军人管理局(veterans administration,VA)模型、Brock模型的诊断性能比较,以及MPI-RF与肺部影像报告和数据系统(lung imaging reporting and data system,Lung-RADS)在良恶性结节中的诊断性能比较。结果·MPI-RF在肺结节良恶性鉴别中具有良好的诊断性能(AUC=0.887,95% CI 0.848~0.925,灵敏度为81.22%,特异度为83.70%);其中,MPI-RF对实性结节的AUC为0.877(95% CI 0.820~0.934),混合磨玻璃结节的AUC为0.858(95% CI 0.771~0.946),纯磨玻璃结节的AUC为0.978(95% CI 0.923~1.000)。对于直径<8 mm的结节,MPI-RF的AUC为0.840(95% CI 0.716~0.963);直径≥8 mm的结节,其AUC为0.891(95% CI 0.849~0.933)。与现有模型对比的结果显示,MPI-RF的诊断性能优于Mayo Clinic模型、VA模型、Brock模型(均 P=0.000);与Lung-RADS比较,MPI-RF在总样本、不同类型结节中的诊断性能均较优(均 P=0.000)。结论·MPI-RF是性能优良的良恶性肺结节鉴别诊断模型,具有潜在的临床应用价值。
关键词:
Objective ·To verify the performance and explore the clinical application value of a multi-modal pulmonary nodule diagnosis model combined with metabolic fingerprints, protein biomarker CEA and Image-AI via random forest (MPI-RF). Methods ·This study enrolled 289 patients with pulmonary nodules who were admitted to the Shanghai Chest Hospital, Shanghai Jiao Tong University School of Medicine and were detected by low-dose helical computed tomography (LDCT). The patients were divided into malignant nodule group ( n=197) and benign nodule group ( n=92) based on postoperative pathological results, and the basic information of the two groups was collected and compared. Electrochemiluminescence was used to detect the preoperative serum CEA levels of the patients in the two groups, matrix-assisted laser desorption/ionization mass spectrometry (MALDI-MS) was used to detect the serum metabolic fingerprints, and the CT image artificial intelligence model Image-AI was used to calculate the image scores. CEA data, serum metabolic fingerprints data and image scores were integrated and input into MPI-RF to calculate the malignant probability score of each patient. The receiver operator characteristic curve (ROC curve) and area under the curve (AUC) were used to evaluate the performance of different models, and the DeLong test was used for comparative analysis, including the diagnostic performance of MPI-RF in different types (solid nodule, pure ground-glass nodule and part-solid nodule) and sizes (diameter<8 mm and diameter≥8 mm) of pulmonary nodules, the diagnostic performance comparison of MPI-RF with Mayo Clinic model, veterans administration (VA) model and Brock model, and the diagnostic performance comparison of MPI-RF with lung imaging reporting and data system (Lung-RADS) in benign and malignant nodules. Results ·MPI-RF had good diagnostic performance in the differentiation of benign and malignant pulmonary nodules (AUC=0.887, 95% CI 0.848‒0.925, sensitivity 81.22%, specificity 83.70%). Among them, the AUC of MPI-RF for solid nodules was 0.877 (95% CI 0.820‒0.934), for part-solid nodules was 0.858 (95% CI 0.771‒0.946), and for pure ground-glass nodules was 0.978 (95% CI 0.923‒1.000). The AUC of MPI-RF was 0.840 (95% CI 0.716‒0.963) for nodules within 8 mm diameter and 0.891 (95% CI 0.849‒0.933) for nodules larger than 8 mm diameter. Compared with the existing models, the diagnostic performance of MPI-RF was better than that of Mayo Clinic model, VA model and Brock model (all P=0.000). Compared with Lung-RADS, MPI-RF had better diagnostic performance in the total samples and different types of nodules (all P=0.000). Conclusion ·MPI-RF is a model for the differential diagnosis of benign and malignant pulmonary nodules with excellent performance, and has potential clinical application value.
Keywords:
本文引用格式
许万星, 王琳, 郭巧梅, 王薛庆, 娄加陶.
XU Wanxing, WANG Lin, GUO Qiaomei, WANG Xueqing, LOU Jiatao.
肺癌是我国发病率和死亡率最高的恶性肿瘤之一,也是国际上癌症相关死亡的首要原因 [ 1- 2]。临床上,低剂量螺旋CT(low-dose helical computed tomography,LDCT)是肺癌早筛、早诊及肺结节良恶性鉴别诊断的主要手段和依据;在接受LDCT筛查的人群中,有50%被检出肺部结节 [ 3],并进行了侵入性检查甚至外科手术干预。研究 [ 4- 5]表明由LDCT造成的过度诊断率高达18.5%,而这些患者的肺结节术后病理诊断为良性。为帮助临床实现准确决策,肺结节恶性概率预测模型已成为辅助临床诊断的重要工具。目前较为认可的临床预测模型包括Mayo Clinic模型、Brock模型、美国退伍军人管理局(veterans administration,VA)模型、肺部影像报告和数据系统(lung imaging reporting and data system,Lung-RADS)等,但上述模型也因准确度等问题需要更多的外部验证,且相关研究结论尚存在一定争议 [ 6- 7]。因此,解决肺结节患者的过度诊疗问题、开发新的肺结节良恶性鉴别诊断模型仍是当下的研究热点。
本课题组在前期工作中开发了一项快速、高通量的血清代谢分子检测技术 [ 8],初步构建了采用随机森林算法并基于血清代谢指纹数据、蛋白标志物癌胚抗原(carcinoembryonic antigen,CEA)和Image-AI的多模态肺结节诊断模型(a multi-modal pulmonary nodule diagnosis model combined metabolic fingerprints,protein biomarker CEA and Image-AI via random forest,MPI-RF) [ 9]。在本研究中,我们将进一步对该模型在良恶性肺结节鉴别诊断中的性能和临床价值进行验证,同时与现有的临床预测模型进行性能比对,以期为该模型的临床应用提供数据支撑。
1 对象与方法
1.1 研究对象、分组及其基本信息的收集
入组2016年11月—2018年5月就诊于上海交通大学医学院附属胸科医院的患者289例。纳入标准:①年龄18~80岁。②经LDCT筛查有肺部实性结节(6 mm≤直径≤30 mm)。③计划接受肺结节切除手术的初诊患者,且近3年无肿瘤相关手术或抗肿瘤药物治疗史。④术后组织病理报告完整。排除标准:①处于孕期或哺乳期。②有人类免疫缺陷病毒感染史。③近1个月内有输血史。④合并有其他肿瘤史。
根据术后病理结果,将入组患者分为恶性结节组( n=197)和良性结节组( n=92)。收集并比较2组患者的基本信息,包括年龄、性别、CEA水平。
1.2 血清样本采集
于空腹状态下收集2组患者的全血样本,行血清分离后,将血清样本冻存于-80 ℃,用于后续CEA、代谢指纹数据检测。
1.3 CEA检测
采用癌胚抗原定量测定试剂盒(Roche,美国)对患者血清CEA进行检测,检测仪器为电化学发光免疫分析仪(Roche,美国),具体操作参照说明书进行。
1.4 代谢指纹图谱检测
采用基质辅助激光解吸电离质谱仪(Bruker,德国)对患者的血清进行代谢指纹图谱检测。该质谱仪以铁纳米颗粒作为基质,参数设置为Nd:YAG激光器、355 nm波长、最大频率2 000 Hz,以正离子反射模式进行质谱数据采集,所检测的相对分子质量范围设定为100~1 000,具体实验步骤参照说明书进行。
1.5 LDCT检测及临床特征分析、分级评估和影像得分
1.6 模型得分计算
将本研究入组患者的血清代谢指纹数据、CEA数据和CT特征数据输入到MPI-RF中,对其恶性概率得分进行计算,用于后续绘制受试者操作特征曲线(receiver operator characteristic curve,ROC曲线)及模型诊断能力的评估。同时,根据患者基本信息和影像数据,计算每位患者的Mayo Clinic模型、Brock模型和VA模型得分,以用于模型性能评估。
1.7 统计学方法
采用Python软件3.7.0版本、Pytorch软件1.6.0版本、Scipy软件1.5.2版本、Sklearn软件1.0.2版本对质谱数据进行预处理混合分析。采用SPSS软件20.0版本对相关数据进行统计学分析。符合正态分布的定量资料用 x± s表示,采用独立样本 t检验进行分析;不符合正态分布的定量资料用 M( Q1, Q3)表示,采用Mann-Whitney U检验进行分析。定性资料以频数表示,采用 χ2检验进行分析。采用ROC曲线评估模型的预测效能并计算曲线下面积(area under the curve,AUC),包括MPI-RF在不同类型和大小的肺结节中的诊断性能;采用MedCalc软件19.0.4版本对AUC进行DeLong检验,比较MPI-RF与Mayo Clinic模型、VA模型、Brock模型的诊断性能,并进一步比较MPI-RF与Lung-RADS在良恶性结节中的诊断性能。 P<0.05表示差异具有统计学意义。
2 结果
2.1 患者基本信息、临床特征及 Lung-RADS分级比较
对2组患者的基本信息、临床特征及Lung-RADS分级进行比较,结果( 表1)显示患者的性别、结节大小、结节类型、有无毛刺、Lung-RADS分级的组间差异具有统计学意义(均 P<0.05)。
表1 2组患者的基本信息、临床特征及 Lung-RADS分级比较
Tab 1
| Characteristic | Malignant nodule group ( n=197) | Benign nodule group ( n=92) | χ2/ U/ t value | P value |
|---|---|---|---|---|
| Age/year | 53.92±10.95 | 51.92±10.70 | 1.457 | 0.815 |
| Gender/ n | 10.213 | 0.000 | ||
| Male | 72 | 52 | ||
| Female | 125 | 40 | ||
| CEA level/(ng·mL -1) | 1.99 (1.21, 2.83) | 2.00 (1.28, 2.94) | 8 791 | 0.682 |
| Nodule size/ n | 15.300 | 0.000 | ||
| <8 mm | 16 | 23 | ||
| ≥8 mm | 181 | 69 | ||
| Nodule location/ n | 4.512 | 0.341 | ||
| LUL | 48 | 18 | ||
| LLL | 34 | 17 | ||
| RUL | 59 | 25 | ||
| RML | 15 | 14 | ||
| RLL | 41 | 18 | ||
| Nodule type/ n | 27.954 | 0.000 | ||
| Pure GGN | 13 | 7 | ||
| Part-solid nodule | 107 | 20 | ||
| Solid nodule | 77 | 65 | ||
| Spiculation/ n | 13.665 | 0.000 | ||
| Yes | 61 | 10 | ||
| No | 136 | 82 | ||
| Lung-RADS grading/ n | 4.615 | 0.000 | ||
| 2 | 14 | 16 | ||
| 3 | 35 | 24 | ||
| 4A | 32 | 21 | ||
| 4B | 55 | 24 | ||
| 4X | 61 | 7 |
2.2 患者血清代谢指纹图谱检测
本研究通过基质辅助激光解吸电离质谱(matrix-assisted laser desorption/ionization mass spectrometry,MALDI-MS)技术对2组患者(良恶性肺结节)的血清行代谢指纹图谱检测,具体如 图1所示。
图1
图1
典型的良恶性肺结节患者血清代谢指纹图谱
Fig 1
Serum metabolic fingerprints of typical patients with benign and malignant pulmonary nodules
2.3 MPI-RF在良恶性肺结节鉴别诊断中的性能评估
图2
图2
MPI-RF在良恶性肺结节鉴别诊断中的性能分析
Note: A. MPI-RF scores of the patients in malignant nodule group and benign nodule group. B. Relationship between MPI-RF score and imaging results of benign and malignant pulmonary nodules. C. ROC curve of MPI-RF in benign and malignant pulmonary nodules. D. ROC curve of MPI-RF in different nodule types. E. ROC curves of MPI-RF in different nodule sizes. GGN—ground-glass nodule.
Fig 2
Performance analysis of MPI-RF in the differential diagnosis of benign and malignant pulmonary nodules
2.4 MPI-RF与现有的临床预测模型的诊断性能比较
本研究将MPI-RF与目前结合了基本信息和影像数据建立的Mayo Clinic模型、Brock模型和VA模型的诊断性能进行比较,结果( 表2)显示MPI-RF的性能优于现有的3种临床预测模型(均 P=0.000),具有更高的临床价值。
表 2 不同临床预测模型在肺结节良恶性鉴别诊断中的性能分析
Tab 2
| Model | Cut-off | AUC (95% CI) | Sensitivity/% | Specificity/% | PPV/% | NPV/% | Accuracy/% | P value ① |
|---|---|---|---|---|---|---|---|---|
| MPI-RF | 0.697 | 0.887 (0.848‒0.925) | 81.22 | 83.70 | 91.43 | 67.52 | 82.01 | ‒ |
| Mayo Clinic | 0.319 | 0.682 (0.619‒0.745) | 64.47 | 67.39 | 80.89 | 46.97 | 65.40 | 0.000 |
| Brock | 0.387 | 0.723 (0.664‒0.783) | 51.78 | 86.96 | 89.47 | 45.71 | 62.98 | 0.000 |
| VA | 0.294 | 0.626 (0.561‒0.693) | 45.69 | 83.70 | 85.71 | 41.85 | 57.79 | 0.000 |
2.5 MPI-RF与 Lung-RADS诊断性能的比较
采用ROC曲线对MPI-RF和Lung-RADS在良恶性肺结节中的诊断性能进行比较,结果( 表3)显示,在总样本中MPI-RF的诊断性能优于Lung-RADS( P=0.000),且在不同类型结节中其诊断性能亦优于Lung-RADS(均 P=0.000),尤其是在纯磨玻璃结节中(其AUC为0.978、灵敏度为92.31%、特异度为100.00%)。
表3 MPI-RF和 Lung-RADS在良恶性肺结节中的诊断性能比较
Tab 3
| Item | AUC (95% CI) | Sensitivity/% | Specificity/% | PPV/% | NPV/% | Accuracy/% | P value |
|---|---|---|---|---|---|---|---|
| All nodules | 0.000 | ||||||
| MPI-RF | 0.887 (0.848‒0.925) | 81.22 | 83.70 | 91.43 | 67.52 | 82.01 | |
| Lung-RADS | 0.593 (0.521‒0.665) | 75.13 | 43.48 | 74.00 | 74.94 | 65.05 | |
| Solid nodule | 0.000 | ||||||
| MPI-RF | 0.877 (0.820‒0.934) | 80.52 | 84.62 | 86.11 | 78.57 | 82.39 | |
| Lung-RADS | 0.636 (0.542‒0.729) | 94.81 | 32.31 | 62.39 | 84.00 | 66.20 | |
| Part-solid nodule | 0.000 | ||||||
| MPI-RF | 0.858 (0.771‒0.946) | 88.79 | 80.00 | 95.96 | 57.14 | 87.40 | |
| Lung-RADS | 0.641 (0.506‒0.776) | 68.22 | 60.00 | 90.12 | 26.09 | 66.93 | |
| Pure GGN | 0.000 | ||||||
| MPI-RF | 0.978 (0.923‒1.000) | 92.31 | 100.00 | 100.00 | 87.50 | 95.00 | |
| Lung-RADS | 0.577 (0.319‒0.835) | 15.38 | 100.00 | 100.00 | 38.89 | 45.00 |
3 讨论
目前,采用LDCT对早期肺癌进行筛查已达成共识。世界两大肺癌筛查的随机对照研究(即美国国家肺癌筛查试验、荷兰-比利时肺癌筛查试验)的数据表明,采用LDCT对肺癌高危人群进行筛查可降低20%~30%的肺癌相关死亡率 [ 6, 13]。但该方法存在较高的假阳性率,且过多的患者被进行了过度诊疗 [ 14- 15],这在一定程度上造成了患者的恐慌和医疗资源的浪费 [ 16]。目前,临床上现有的肺结节恶性概率预测模型虽可以辅助诊断,但其诊断的灵敏度、特异度等均无法很好地满足临床肺结节鉴别诊断的需求。然而,2022年SAMMUT等 [ 17]融合了临床信息、分子及数字病理数据等构建的分类模型可有效预测乳腺癌的治疗反应,AUC达到0.87;COHEN等 [ 18]开发了结合循环肿瘤DNA点突变和传统蛋白标志物的泛癌血液检测模型,可同时预测8种常见肿瘤。从而提示,多模态数据融合分析或具有辅助疾病诊断的优越性。
前期工作中我们已构建了基于血清代谢指纹数据、CEA数据和Image-AI数据的多模态良恶性肺结节鉴别诊断模型(MPI-RF) [ 9],本研究在此基础上对该模型展开验证。通过289例患者的相关数据我们发现,MPI-RF在不同结节的类型、大小中均表现出较好的诊断性能;随后,对MPI-RF、Mayo Clinic模型、Brock模型和VA模型进行比较,结果显示MPI-RF的诊断性能较其他3种模型更优。进一步,我们对MPI-RF与Lung-RADS进行比较,结果显示无论是在总样本,还是在不同类型结节中,MPI-RF的诊断性能均优于Lung-RADS。因此,相比于单纯的影像学分级模型,基于多模态的鉴别诊断模型可以提供更为全面的信息,具备更稳健和更高的诊断性能。
此外,本研究尚存在一定的局限性:一方面,MPI-RF仍需更多数量、多中心的样本进一步验证;另一方面,MPI-RF在临床环境中的应用还存在很多不确定因素,尚需长期随访数据进行验证。综上所述,本研究发现MPI-RF在不同类型、大小的肺结节中均具有良好的诊断性能,且其诊断性能明显优于现有临床模型(Mayo Clinic模型、Brock模型、VA模型和Lung-RADS)。因此,该模型可以认为是一种性能优良的良恶性肺结节鉴别诊断模型,具有一定的临床应用价值,但在后续的模型临床转化工作中还需综合考虑实际操作和随访数据验证等问题。
作者贡献声明
娄加陶、许万星负责研究设计,许万星、王琳负责论文的写作和修改,许万星、王琳、郭巧梅、王薛庆参与了患者入组和数据收集工作。所有作者均阅读并同意了最终稿件的提交。
AUTHOR's CONTRIBUTIONS
The study was designed by LOU Jiatao and XU Wanxing. The manuscript was drafted and revised by XU Wanxing and WANG Lin. XU Wanxing, WANG Lin, GUO Qiaomei and WANG Xueqing participated in the patient enrollment and the data collection. All the authors have read the last version of paper and consented for submission.
利益冲突声明
所有作者声明不存在利益冲突。
COMPETING INTERESTS
All authors disclose no relevant conflict of interests.
参考文献
/
| 〈 |
|
〉 |

