原发性不明癌是一种难以确定原发性肿瘤解剖部位的疾病。现代疗法主要针对原发性肿瘤,因此确定其起源是一个非常大的挑战。最近的研究主要集中在利用基因组学和转录组学来确定肿瘤的起源。然而,基因组学并不总能奏效。针对此问题,来自哈佛医学院的Mahmood课题组近日在Nature上发表“AI-based pathology predicts origins for cancers of unknown primary”,通过深度学习的方法实现有效预测原发癌的起源。
——方法——
作者在这里提出“Tumour Origin Assessment via Deep Learning” (TOAD)的框架,可以实现高通量、具有可解释性的原发癌部位确认。为了训练其模型,作者从公共数据库和医院等地收集了高分辨率、已知原发癌起源的病人组织切片图,一共32537张十亿像素级(gigapixel)全染色切片(whole slide images,WSIs),涵盖了18种常见起源的原发癌,划分为训练集70%,验证集10%,测试集20%。作者利用近年兴起的弱监督学习策略中的多示例学习,将每一张切片图像自动分割成几万到几百万个小块,彼此共享标签。网络首先通过固定的、预先训练好的基于ResNet50 的CNN网络权重,来从每个小块中提取关键的描述性特征向量,进而压缩维度,之后通过两个全连接层传入到引入注意力机制的多任务模块中,从而根据每个区域在特征向量中的相对重要性,对每个区域赋予不同的权重。因此对于高诊断相关性的区域,其重要性更大,机器越容易学到原发癌起源的关键特征,越具有可解释性,同时也可以将权重对应到照片位置,捕捉这些地方的特征,研究其与原发癌的关系。而引入的多分支网络模块以及多任务目标,可以实现同时区分原发癌和转移癌,以及原发癌起源的功能。此模块中,Attn-Fc1和Attn-Fc2共享参数,而Attn-Task分别赋予参数。为了更好的泛化性能,作者在最终输出层前将性别特征合并在其中。
——效果和泛化性能——
作者对此模型做了一系列测试,对于已知起源原发癌,其准确率为83.4%,而对诊断处于预测结果前三名的准确率为95.5%,前五名为98.1%(图2e)。而预测原发癌和转移癌的准确率为85.0%(图2f),AUC为0.942(图2d)。图2a中清楚列出了每一种原发癌的起源预测准确率,可以看到这个模型的效果很好。
对于外部数据集(包含682个外部病人样本),其准确率为80%,top-3为93.4%(图2e)。预测原发和转移的准确率为78%左右,AUC为0.919(图2d)。随后对于317例原发不明癌病例,TOAD的预测结果与病理学家一致的比例为61%,而病理学家的报告处于TOAD预测结果前三名的比例为82%。
图2. 模型评估结果
——小结——
这项工作利用深度学习,一方面实现了原发性不明癌的来源鉴别诊断,另一方面实现了原发癌与转移癌的分类,这两方面均具有十分广阔的临床应用,从中也可以看到AI对传统生物医学行业带来的巨大革新力。
参考文献:
联系客服