打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
临床预测模型文章解读第十期:人工智能结合大数据预测前列腺癌淋巴结转移

小编今天解读的是Frontiers in Oncology(IF=6.244)上发表的一篇文章《Artificial Intelligence Combined With Big Data to Predict Lymph Node Involvement in Prostate Cancer: A Population-Based Study》,本研究旨建立更准确的术前预测前列腺癌(PCa)的淋巴结转移(LNI)模型,改善这种疾病的临床治疗和随访策略。下面就来看看作者是分析思路。

01 背景介绍

    前列腺切除术(RP)是根治性前列腺癌症的金标准治疗方法。由于这种疾病的生物学特性及其对有效治疗的反应,前列腺癌患者通常有很好的长期预后,绝大多数患者存活超过5年。

    由于LNI是患者预后的重要组成部分,它可以影响外科医生做出的任何临床决定。在手术前,有必要了解前列腺癌患者LNI的确切临床状态。为此,开发一种新的基于大数据的支持机器学习(ML)决策模型,用于预测PCa患者发生LNI的风险。

02 机器学习模型

1.数据来源

数据来自SEER数据库中1975年到2016年诊断为组织学上确诊的前列腺癌的病人数据。这些病人在2010年到2015年间被诊断出来,而 PCa是第一个被发现的恶性肿瘤。所有患者均行根治性前列腺切除术(RP) ,且无新辅助系统治疗。

2.数据筛选

按照下图所选标准最终筛选出2884名患者用于模型建立,验证集来自病例在2016年的SEER 数据库,除了下图筛选标准外,还从 Briganti nomogram中选择了一个额外的标准:PSA >50 ng/ml ,最终筛选出535名患者作为验证集。

3. 变量筛选

由于SEER数据库不包括基于术前影像的肿瘤大小,而大多数患者术后标本的肿瘤大小与影像学评估的肿瘤大小没有显著差异,因此,我们认为这个误差在可接受的范围内。最后,选择8个人口学和临床病理特征,作为独立变量进行分析。

4.模型的建立与发展

1)相关性分析

对所有特征进行相关性分析如下图所示。

2)训练集和测试集划分

    所有被研究的患者2884例按照7:3随机分为训练组和测试组,患者的人口统计学和病理变量数据如图所示。

3)模型改进

    为确保模型稳定,我们采用了10倍的交叉验证来评估模型的预测能力。训练组被随机分成10组。在每次10倍交叉验证的迭代中,随机选择9组进行训练,剩下的组作为测试集。这意味着每个小组依次被选作测试集,以确保评估结果不是偶然的。然后对10个评估结果进行平均,以减少由于测试集中不合理的选择所造成的误差。

为了获得 XGB模型中的总体最优值,我们采用学习曲线法来寻找最优参数。学习曲线如图3所示,其中横坐标轴代表树木数量和不同的学习率,纵坐标轴代表10倍交叉验证的平均AUC。

最优参数组合为: 树的数量(“ n tree”) = 851(图3A) ,学习率(“ eta”) = 0.16(图3B) ,从根节点到叶节点的最大长度(“max depth”) = 6,最小叶节点样本权重之和(“min child weight”) = 1,L2正则化参数(“ reg lambda”) = 120。所有其他参数都被选为默认值进行计算。

4)模型性能评价

1.用受试者工作特征(ROC)曲线分析对模型判别进行量化,并用得到的AUC对其预测精度进行评估。

2.我们使用校准曲线图对模型的性能进行了评估,这表明了模型的校准情况以及模型的预测与实际事件的偏差程度。

3.使用DCA评估临床有效性和净收益,DCA可以通过计算真阳性率和假阳性率之间的差异来估计净收益,并用所选风险阈值概率的赔率对其进行加权。

4.引入了决策树(DT)和支持向量机(SVM)等其他最大似然算法进行比较。利用ROC曲线和校准图进一步评价了模型的适用性和泛化能力。

03 结果

1.模型分析和变特征重要性的预测

    对于多元logistic 回归模型中,T stage (p< 0.001), tumor size (p< 0.001), PSA before biopsy (p< 0.001), GS (p< 0.001), and PPC (p= 0.006)为独立危险因素(表2)。

对于XGB模型,我们通过每个变量的增益值的大小来确定重要性的特征,较高的增益值表明预测目标的重要性: GS (158 points), T stage (137 points), PPC (128 points),tumor size (113 points), PSA (88 points), race (64 points), age at diagnosis (51 points), and marital status (36 points)(图4)。

2.模型性能

为了确定模型的准确性,我们构建了训练集(n=2,018)和测试集(n=866)的ROC曲线、校准曲线和DCA。可以看出XGB和LR性能最好(详见图5中A和B)

表3结果表明,无论选择5%、10%、15%或20%作为临界值(cutoff),XGB模型在减少遗漏和避免过度治疗方面优于MLR模型,假阴性率较低,避免了较高的ePLND百分比。当临界值为5%-20% 时,XGB模型可以将失踪病人的风险保持在3% 以下(1.2%-2.9%)。

训练集和测试集的校准曲线(图6)表明,XGB模型中观测LNI率的预测概率具有很好的一致性,其次是SVM模型和DT 模型。与其他两个模型相比,MLR模型的校准倾向于低估整个预测概率范围内的LNI风险。

随后构建了四个模型的 DCA如图7所示。决策曲线的y轴代表净收益,是判断某一特定临床决策是否带来更多效益的一种决策分析方法。x轴上的每个点代表一个阈值概率,该阈值概率区分有无LNI的患者(LNI Vs nLNI)。

这表明所有的模型相对于要么全有要么不治疗的计划获得了净临床收益。在风险阈值小于80%的情况下,ML模型在测试集中的患者干预中显示出比MLR模型更大的净收益,并且XGB模型在整个阈值概率范围内具有最高的净收益。

3.模型验证

验证集的临床和病理特征详见表4。XGB模型和Briganti nomogram的ROC曲线和校准曲线如图8所示。

04 结论

我们建立了一个基于大数据的最大似然模型来预测PCa患者的LNI。该模型具有良好的预测精度和临床实用价值,有助于指导泌尿外科医生的决策,帮助患者改善远期预后。这项研究遵循了为所有未来患者提供精确医学的趋势。

局限性:

1.该模型基于SEER数据库,该数据库从北美人口中收集数据,因此在人口适用性方面可能存在差距,因此有必要在未来的研究中使用更广泛的人口。

2.其次,术前影像所确定的肿瘤大小不适用于我们的数据,这可能会导致一些误差。在未来的研究中,我们将用更完整的外部验证数据进一步完善我们的模型。

3.我们排除了检查LNS<10的患者,以避免接受PLND治疗。这不是ePLND的理想定义。

参考文献:

Wei, Liwei, et al. 'Artificial Intelligence Combined With Big Data to Predict Lymph Node Involvement in Prostate Cancer: A Population-Based Study.' Frontiers in Oncology (2021): 4148.

原文链接:

https://doi.org/10.3389/fonc.2021.763381

结语

临床研究的根本使命是发现并解决生命科学领域亟待解决的临床问题,同时,为即将发生的临床难题提供备选解决方案。

打开极智分析—智能医学统计分析平台 https://www.xsmartanalysis.com/ 进行实操吧!

点击“阅读全文”参加有奖活动,内含超大福利,不要错过哦!

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
刘承教授:预测人工智能推动根治性前列腺切除术“旧貌换新颜”
Nature | 预测引擎全面升级!NYUTron让医生无后顾之忧
低内源性睾酮水平与根治性前列腺切除术和盆腔淋巴结清扫术中淋巴结浸润的延长有关
​Frontiersin Oncology:基于尿液EpCAM-CD9 阳性细胞外囊泡的多因素诊断模型用于前列腺癌诊断
前列腺癌有哪些表现及如何诊断?
【2019 CSCO】泌尿领域“有面”“有领”的大癌种——中国人群前列腺癌流行病学数据
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服