原发性不明癌是一种难以确定原发性肿瘤解剖部位的疾病。现代疗法主要针对原发性肿瘤，因此确定其起源是一个非常大的挑战。最近的研究主要集中在利用基因组学和转录组学来确定肿瘤的起源。然而，基因组学并不总能奏效。针对此问题，来自哈佛医学院的Mahmood课题组近日在Nature上发表“AI-based pathology predicts origins for cancers of unknown primary”，通过深度学习的方法实现有效预测原发癌的起源。

——方法——

作者在这里提出“Tumour Origin Assessment via Deep Learning” (TOAD)的框架，可以实现高通量、具有可解释性的原发癌部位确认。为了训练其模型，作者从公共数据库和医院等地收集了高分辨率、已知原发癌起源的病人组织切片图，一共32537张十亿像素级(gigapixel)全染色切片（whole slide images，WSIs)，涵盖了18种常见起源的原发癌，划分为训练集70%，验证集10%，测试集20%。作者利用近年兴起的弱监督学习策略中的多示例学习，将每一张切片图像自动分割成几万到几百万个小块，彼此共享标签。网络首先通过固定的、预先训练好的基于ResNet50 的CNN网络权重，来从每个小块中提取关键的描述性特征向量，进而压缩维度，之后通过两个全连接层传入到引入注意力机制的多任务模块中，从而根据每个区域在特征向量中的相对重要性，对每个区域赋予不同的权重。因此对于高诊断相关性的区域，其重要性更大，机器越容易学到原发癌起源的关键特征，越具有可解释性，同时也可以将权重对应到照片位置，捕捉这些地方的特征，研究其与原发癌的关系。而引入的多分支网络模块以及多任务目标，可以实现同时区分原发癌和转移癌，以及原发癌起源的功能。此模块中，Attn-Fc1和Attn-Fc2共享参数，而Attn-Task分别赋予参数。为了更好的泛化性能，作者在最终输出层前将性别特征合并在其中。

图1. TOAD模型框架

——效果和泛化性能——

作者对此模型做了一系列测试，对于已知起源原发癌，其准确率为83.4%，而对诊断处于预测结果前三名的准确率为95.5%，前五名为98.1%（图2e）。而预测原发癌和转移癌的准确率为85.0%(图2f),AUC为0.942(图2d)。图2a中清楚列出了每一种原发癌的起源预测准确率，可以看到这个模型的效果很好。

对于外部数据集（包含682个外部病人样本），其准确率为80%，top-3为93.4%(图2e)。预测原发和转移的准确率为78%左右,AUC为0.919(图2d)。随后对于317例原发不明癌病例，TOAD的预测结果与病理学家一致的比例为61%，而病理学家的报告处于TOAD预测结果前三名的比例为82%。

图2. 模型评估结果

——小结——

这项工作利用深度学习，一方面实现了原发性不明癌的来源鉴别诊断，另一方面实现了原发癌与转移癌的分类，这两方面均具有十分广阔的临床应用，从中也可以看到AI对传统生物医学行业带来的巨大革新力。

参考文献：

Lu, Ming, et al. “AI-based pathology predicts origins for cancers of unknown primary.” Nature 2021, 594: 106.

DOI: 10.1038/s41586-021-03512-4.

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。