上海交通大学学报(医学版) ›› 2018, Vol. 38 ›› Issue (9): 1019-.doi: 10.3969/j.issn.1674-8115.2018.09.004
张昕雨 1*,张璟2*,朱小强 1,曹颖颖 1,陈豪燕 1
ZHANG Xin-yu1*, ZHANG Jing2*, ZHU Xiao-qiang1, CAO Ying-ying1, CHEN Hao-yan1
摘要: 目的 ·根据粪便样本宏基因组学数据建立肠道菌群标签,探索用于筛查与诊断大肠癌的非侵入性方法。方法 ·共纳入 285例样本,根据随机森林分类算法筛选出与大肠癌发生密切相关的特征细菌;利用 6种机器学习分类模型建立大肠癌的诊断模型,并进行内部和外部验证。结果 ·首先筛选出了 9种与大肠癌发生密切相关的特征细菌,利用这 9种细菌建立了 6种诊断模型。其中随机森林模型准确率最高(达 0.847 7),其在内部验证集和外部验证集中的准确率分别为 0.815 8和 0.734 4,在全集中受试者工作特征(receiver operating characteristic,ROC)曲线下面积( area under curve,AUC)为 0.894。结论 ·根据粪便样本的宏基因组学数据,利用随机森林算法建立了由 9种细菌组成的诊断大肠癌的菌群标签,能够有效对健康者与大肠癌患者进行区分。
中图分类号: