使用深度学习进行多模态数据融合以发现癌症生物标志物

技术进步使得可以从多个角度研究患者的高维度、高通量多尺度生物医学数据。在肿瘤学领域，正在产生大量的数据，包括分子、组织病理学、放射学和临床记录等。深度学习的引入极大地推动了生物医学数据的分析。然而，大多数方法集中在单一数据模态上，这导致整合互补数据类型的方法进展缓慢。随着单一模态可能无法保持一致性并足以捕捉复杂疾病的异质性以定制医疗护理和改善个性化医疗，开发有效的多模态融合方法变得越来越重要。许多倡议现在关注整合这些不同的模态，以揭示诸如癌症之类的多因素疾病中涉及的生物过程。然而，仍然存在许多障碍，包括缺乏可用数据以及临床验证和解释的方法。在这里，本文讨论了这些当前的挑战，并通过深度学习思考应对数据稀疏性和稀缺性、多模态可解释性和数据集标准化的机会。本文发表在Nature machine intelligence杂志。

介绍：

近几十年来，技术创新已经改变了医疗保健领域，越来越多的临床数据支持诊断和护理。尤其在与年龄相关的慢性疾病（如癌症）背景下，医学正朝着收集多模态患者数据的方向发展。整合不同的数据模态可以增强我们对癌症的理解，并为精确医疗铺平道路，精确医疗承诺个性化诊断、预后、治疗和护理。

我们越来越多地从传统的一刀切方法转向更有针对性的检测和治疗。尽管分子病理学彻底改变了精准肿瘤学，但第一个获得美国食品药品监督管理局（FDA）批准的伴随诊断试剂主要依赖于更简单的分子方法，大多数试剂关注一个感兴趣的基因。然而，下一代测序（NGS）的进步现在允许进行多靶标伴随诊断试剂，这些试剂正变得越来越普遍。持续降低的成本使得可以同时分析数千个基因区域，这暗示着多靶标面板可能很快就能以与单独测试五到十个靶标相似的价格运行。多靶标检测不仅节省时间和组织，还有可能识别复杂的基因相互作用，从而加深我们对肿瘤生物学的理解。虽然NGS仍在如火如荼地进行，但以单分子、长读取和实时测序为特征的第三波技术已经崛起。太平洋生物科学公司和牛津纳米孔技术使得以前所未有的分辨率和速度组装和探索基因组成为可能。最近在临床环境中应用这项技术诊断罕见遗传病，仅需8小时即可得出结果。由于癌症通常是多因素引起的，精准肿瘤学领域极大地受益于这些发展。

与此同时，组织病理学和放射学在癌症管理过程中的临床决策中一直发挥着关键作用。组织病理学评估使得能够研究组织结构，并仍然是癌症诊断的金标准。更近期，全切片成像（WSI）方面的显著进展导致了从传统组织病理学方法向数字病理学的转变。数字病理学是将传统的玻璃载玻片“数字化”为虚拟图像的过程，与传统方法相比，具有许多实际优势，包括速度更快、数据存储和管理更简单、远程访问和共享性以及高度精确、客观和一致的读数。另一端是放射成像，一种用于检测和分类癌症病变的非侵入性方法。特别是，计算机断层扫描和磁共振成像（MRI）扫描对于生成（癌前）恶性病变的三维图像非常有用。

人工智能（AI）和先进的机器学习（ML）技术的持续改进对这些癌症成像生态系统产生了重大影响，尤其是在诊断和预后领域。目前的组织病理学载玻片注释依赖于专业病理学家。利用基于图像的AI应用程序不仅可以减轻病理学家的工作负担，而且具有提高效率、可重复性和准确性的空间分析潜力，捕捉超越视觉感知的信息。放射组学和病理组学分别是关注放射学或组织病理学数字图像的定量分析领域，旨在提取可用于临床决策的定量特征。这种提取过去是通过标准统计方法完成的，但现在可以使用更先进的深度学习（DL）框架，如卷积神经网络、深度自编码器和视觉变换器，进行自动化、高通量特征提取。自动评估确定性目标特征使得能够以前所未有的速度和规模对肿瘤微环境（TME）进行量化。除了在无观察者间变异的情况下量化已知的手工制作的显著特征外，DL还具有发现未知特征和关系的能力，这些特征和关系可以提供生物学洞察力并改善疾病特征描述。一项在肺癌中的显著放射组学研究发现，DL特征捕获了与细胞周期和转录过程相关的预后特征，这些特征既存在于肿瘤区域内，也存在于肿瘤区域之外。尽管DL具有多样化的能力，但其主要挑战之一是需要大量数据集来训练、测试和验证其算法。然而，由于伦理限制和注释临床图像的劳动强度，大多数研究仅能访问到包含真实标签数据的有限大型队列。

在《21世纪治疗法案》（21st Century Cures Act）下，FDA设定了一个目标，即推进以患者为中心的精准医学。该法案规定了发现、开发和交付的时间表，并要求在多种模式下融合证据，同时要求包括真实世界数据和患者体验。技术进步开启了一个新时代，在这个时代，临床数据以前所未有的速度从多个来源被捕获，范围从医学图像到基因组数据和患者生成的健康数据。与AI的成功一道，这为使用这些先进工具分析许多数据类型提供了机会和必要性，以更好地为决策提供依据并改善患者护理。到目前为止，FDA已经批准了几款基于AI的软件作为医疗设备。FDA通过发布他们最近的AI/ML白皮书，希望强调他们开发这些高度迭代、自主和持续学习算法以及确保安全和有效性所需特定数据类型的监管框架的意图。一些关于数据纳入的建议考虑因素包括：（1）与临床问题和当前临床实践的相关性；（2）以一致、可推广和临床相关的方式获取数据；（3）适当定义和区分训练、调整和测试集；（4）算法及其输出对用户的透明度适当程度。

近年来，AI功能在医疗应用中的整合增加了。然而，到目前为止，大多数方法都只关注一种特定的数据类型，导致整合互补数据类型的方法进展缓慢，许多关于多模态整合的技术、分析和临床方面的问题尚未解决。为了推进精准肿瘤学，医疗AI不仅应提供关于癌症发病率和肿瘤生长的信息，还必须确定最佳治疗路径，考虑到治疗相关的副作用、社会经济因素和护理目标。因此，只有通过合并跨越空间和时间的复杂且多样的多模态数据，才能实现精准医学。单一数据模式可能嘈杂或不完整，但与其他模式的冗余信号结合时，可以更敏感、稳健地诊断、预测和指定治疗。现在正在收集多模态数据，为生物标志物的发现提供了资源。对于癌症，预后和预测生物标志物都很感兴趣。预后生物标志物提供关于患者诊断和总体结局的信息，而预测生物标志物则提供关于治疗决策和反应的信息。

在这里，我们认为，有几种经常收集的医疗数据在诊断和治疗癌症患者时没有充分利用，因为它们主要是孤立地进行研究，而不是以一种综合的方式。这些包括：（1）电子病历（EHRs）；（2）分子数据；（3）数字病理学；（4）放射影像。当这些数据模态结合在一起时，它们可以提供丰富的互补、冗余和和谐信息，以便更好地分层患者群体并提供个性化护理（图1）。在接下来的部分，我们讨论了多模态生物标志物发现的挑战和机遇，以及它们如何应用于癌症患者。我们涵盖了数据融合的策略，并研究了解决数据稀疏性和数据编排及模型可解释性的方法。

肿瘤学中多模态数据融合的需求

图1 | 肿瘤学中常规收集的生物医学模态的生成和处理。在数据融合之前，需要进行不同的步骤，从原始数据转换为每种模态的可操作数据表示，例如电子病历、分子数据和医学图像。

尽管在癌症研究以及诊断和治疗的改善方面投入了大量资金，但癌症预后仍然严峻。基于单一模态的预测模型对疾病的异质性提供了有限的了解，可能无法提供足够的信息来分层患者并捕捉治疗反应中发生的所有事件。例如，尽管免疫治疗方法（如抗体-药物结合物和采用细胞治疗（例如T细胞受体和嵌合抗原受体T细胞治疗）已被证明是有希望的，但根据肿瘤亚型43和肿瘤微环境（TME），反应率差异很大。各种TME元素在肿瘤发展中起作用，也在治疗反应中起作用。此外，TME的细胞组成会随着肿瘤进展和抗癌治疗的反应而动态演变。免疫治疗的日益应用强调了（1）深入了解TME和（2）在疾病进展和治疗干预期间允许纵向TME监测的多模态方法的需求。

目前，生物标志物的发现主要基于分子数据。在临床环境中越来越多地实施基因组学和蛋白质组学技术，导致分子数据的可用性增加，但复杂性也在增加。像癌症基因组图谱（TCGA）和基因组数据共享这样的大型联盟已经收集和标准化了大量数据集，积累了大量的基因组、表达和蛋白质组数据。由于肿瘤异质性、取样偏差和结果解释等诸多因素，NGS检测方法的开发、验证和常规实施仍面临阻碍。临床接受的性能要求通常也因癌症特异性而异，并取决于测试在护理轨迹中的位置以及用于何种特定目的（例如诊断、分层、药物反应或治疗决策）。尽管分子数据对精准医学非常重要，但它们会丢弃组织结构、空间和形态信息。

尽管分辨率低于基因组信息，但全切片成像（WSI）和放射影像可能会提供正交和互补信息。数字病理学通过WSI为病理学家提供关于细胞和形态结构的可视化数据，并可以使用图像分析和空间统计来提供关于TME空间异质性的关键信息。类似地，放射影像如MRI或计算机断层扫描提供关于组织形态和三维结构的可视化数据。

整合涵盖患者不同尺度的数据模式具有捕捉协同信号的潜力，这些信号可识别临床预测所需的患者内部和患者间异质性。例如，2016年世界卫生组织对中枢神经系统肿瘤的分类，重新审视了分类弥漫性胶质瘤的指南，推荐结合分子标记（例如，异柠檬酸脱氢酶1和2（IDH1/2）突变状态）进行组织病理学诊断，因为单独的每种模式都不足以解释患者预后的差异。最近，一些报告还建议使用基于DNA甲基化的中枢神经系统肿瘤分类。

对整合性建模的需求越来越受到重视。在2015年，Ritchie等人的一份报告强调，“将多种数据类型结合起来的方法比分析一个数据集提供了更全面的复杂基因型-表型关联的理解。”近年来，已经有一些尝试开发多模态方法，很大程度上是受到社区驱动的竞赛的刺激，如DREAM和Kaggle（即http://dreamchallenges.org/ 和 https://www.kaggle.com/）。但是，还需要更多的工作将常规收集的数据模式整合到临床决策系统中。

多模态生物标志物发现的数据融合策略

图2 | 多模态数据融合策略概述。

a, 将原始数据处理成可操作的格式。

b, 对于每种模态，使用专用编码器算法提取特征。

c, 早期融合。

d, 中间融合。

e, 晚期融合。

图3 | 组织病理学和基因表达模型解释方法示例。

a-c，组织病理学。a，预测前列腺癌组织病理图像中 TP53 突变存在的信息性图块示例（在 TCGA 数据上的未发表结果）。b，通过 Grad-CAM151 派生的图块内与预测最相关的区域的可视化。c，信息性图块内的单个细胞被 Hover-Net155 分割并分类。为了对相关细胞（黑色注释）进行细粒度解释，通过计算 Grad-CAM 突出显示的区域的轮廓来圈定图块内的相关细胞。

d,e，基因表达。d，SHAP 可视化示例，根据单模型（顶部）和联合多模型（底部）预测癌症生存的假设基因重要性。e，根据单模（顶部）和联合多模（底部）模型中相应基因 SHAP 值对癌症生存预测的通路重要性可视化示例。

精准医学时代需要强大的计算技术来处理高维多模态患者数据。每个数据来源在创建、分析和解释方面都有优势和局限，必须加以解决。无论是在病理学的二维图像还是放射学的三维图像中，医学图像都包含着多个尺度编码的密集信息。重要的是，它们具有高空间相关性，任何成功的方法都需要考虑到这一点。到目前为止，表现最好的方法基于深度学习，特别是卷积神经网络。在检测、分割、分类和空间特征描述方面的持续改进意味着这些方法正成为癌症生物标志物算法的关键组成部分。

电子病历（EHR）包括各种数据类型，从结构化数据（如药物、诊断代码、生命体征或实验室检测）到非结构化数据（如临床记录、患者电子邮件和详细的临床过程）。正在开发可以从结构化和非结构化电子病历数据中提取有用临床信息的自然语言处理（NLP）算法。最近的一项研究显示了这种机器学习工具在肺癌队列中可靠地提取嵌入在电子病历中的重要预后因素的可行性和能力。结构化电子病历来源是最容易处理的。通常，这些数据嵌入到一个低维向量空间中，作为输入提供给循环神经网络（RNN）。长短时记忆和门控循环单元是此目的最流行的RNN架构。虽然结构化的电子病历数据具有明显的价值，但与非结构化临床数据的洞察力相结合已被证明可以大大改善临床分型。幸运的是，NLP的进步现在使得可以挖掘患者记录中的非结构化叙述。处理这些数据的一种方法是将自由文本转换为医学概念，并创建低维的“概念嵌入”。早期方法，如Word2Vec67和全局向量词表示（GloVe）几乎被“上下文嵌入”所取代，例如来自语言模型的嵌入（ELMo）和双向编码器表示（BERT）。虽然ELMo使用RNN，但BERT基于Transformer，这是一种自诞生以来就改变了NLP领域的神经架构。为了发挥电子病历的全部潜力，我们需要更合适的技术来结合结构化和非结构化信息，同时考虑这些数据中常见的噪声和不准确性。在这方面，从电子病历中提取临床信息的迁移学习概念得到了很多关注。

有效的融合方法必须整合高维多模态生物医学数据，范围从定量特征到图像和文本。将原始数据表示为可操作的格式仍然具有挑战性，因为机器学习方法不容易接受未向量化的数据。因此，多模态表示带来许多困难。不同的模态测量具有不同的基础分布和维度的不匹配特征。此外，并非所有模态和观察结果都具有相同的置信度、噪声或信息质量。多模态融合通常在处理源自具有多种模态特征的很少样本的宽特征矩阵方面遇到困难。通常，在数据融合过程之前或作为数据融合过程的一部分，需要采用高级特征提取方法，如基于核的方法、图模型或神经网络，以在保留大部分显著生物信号的同时降低维度。有意义的特征描述是任何模型的关键支柱。

在特定建模阶段进行数据融合的一个主要决策是：（1）早期，（2）中期或（3）后期（图2）。早期融合的特点是连接不同数据模态的特征向量，并且只需要训练一个模型（图2a）。相反，后期融合是基于分别在每个数据模态上开发模型，并通过特定的平均、加权或其他机制整合它们的单一预测（图2c）。后期融合不仅允许为每个模态使用不同的、通常更合适的模型，而且在数据中某些模态缺失时，处理起来更加直接。然而，在后期阶段的融合忽略了不同模态之间可能存在的协同作用。

虽然早期和后期融合方法都是与模型无关的，但它们并没有专门设计来应对或充分利用多种模态。早期和后期融合之间的任何方法都被定义为中间或联合数据融合。中间融合既不合并输入数据，也不为每种模态开发单独的模型，而是涉及开发推理算法，生成一个保留每种单独模态的信号和属性的联合多模态低级特征表示（图2b）。尽管每种模型类型都必须为其开发专用的推理算法，但这种方法试图利用早期和后期融合的优势。与早期融合的一个关键区别是，在训练过程中，损失会向后传播到推理算法中，从而在每次训练迭代中创建更新的特征表示。尽管这允许对模态之间的复杂相互作用进行建模，但需要采用技术防止在训练队列上过拟合。重要的是，目前还没有决定性证据表明哪种融合策略更优越，而特定方法的选择通常是基于可用数据和任务的经验性。

多模态生物标志物在患者分层中的进展

多组学数据融合

虽然单一的组学技术可以洞察肿瘤的特征，但仅凭一种技术并不能完全捕捉到潜在的生物学机制。越来越多的大型多组学癌症数据队列的收集，促使了几项将多组学数据融合以充分把握肿瘤特征的努力，并已提出了多种生存和风险预测模型。TCGA研究网络还发表了大量关于整合多种癌症类型的基因组学、转录组学、表观组学和蛋白质组学数据的论文。此外，在治疗反应和药物组合预测方面，多组学机器学习方法已证明其在传统的单模态模型上具有优势。尽管现在存在各种多组学融合策略，但不是一种方法就能对所有研究问题和数据类型都是最优的，有时添加更多的组学层次甚至可能对性能产生负面影响。每种策略都有自己的优点和缺点，根据目的和可用数据类型仔细选择有效方法是很重要的。

多尺度数据融合

与多组学数据融合相似的努力也已应用于多尺度数据的探索。例如，Cheerla和Gevaert使用了一种中间融合策略，将组织病理学、临床和表达数据整合，以预测多种癌症类型患者的生存。对于每种模式，无监督编码器将数据压缩为每个患者的单个特征向量。这些特征向量被汇总成一个联合表示，允许一个或多个模式的可能缺失。类似地，另一项研究提出了一种后期融合策略来对肺癌进行分类。通过使用RNA测序、microRNA测序、全切片图像、拷贝数变异和DNA甲基化，他们实现了比单独模式更好的性能。已有一些例子表明，放射学在进一步细化患者分层方面具有潜力。

成像基因组学和放射基因组学

如有可能，现在通常会在癌症预后和治疗决策中使用分子肿瘤信息。有趣的是，多项研究表明，从医学图像中得到的表型可以作为分子表型（如肺癌中的表皮生长因子受体（EGFR）突变）的代理或生物标志物。这一发现立即催生了一个新兴领域，称为“放射基因组学”，即直接将图像特征与潜在的分子特性联系起来的研究。例如，Itakura等人使用MRI表型来定义与分子通路活动相关的胶质母细胞瘤亚型。此外，对于乳腺癌，放射基因组学在风险预测和更好的亚型分层方面的价值已得到证实。

当前多模态数据融合面临的挑战和未来方向

利用多模态数据模型可能是推进精准肿瘤学的唯一途径，但要实现其全部潜力还面临许多挑战。尽管数据可用性是多模态数据融合的主要驱动因素，但它也构成了主要障碍。深度学习需要大量数据，而数据的稀疏性和稀缺性对生物医学数据构成严重挑战。在临床实践中，患者之间经常存在不同类型的数据缺失，因为由于成本、保险覆盖、物料可用性和缺乏系统化收集程序等原因，不是所有患者都可能拥有所有模态。为了在肿瘤学环境中发挥作用，方法需要能够处理不同模式的缺失模态。幸运的是，各种插值、填充和矩阵完成算法已经成功应用于临床数据。这些可以从基本方法（包括均值/中位数替代、回归、k-最近邻和基于树的方法）到更先进的算法，如多重插补、链式方程多元插补或神经网络，如循环神经网络、长短时记忆和生成对抗网络。此外，随着深度学习技术的最近成功，专用的融合方法正在问世，这些方法允许处理不完整或缺失模态的联合表示。

然而，推进这些工作面临两个主要障碍。首先，每个患者的数据深度，即每个患者常规生成和存储的可观察数据很多，但患者的典型队列规模相对较小。新出现的证据突显出这些队列往往存在偏见，代表了具有连续医疗保健访问和高度患者参与度的高社会经济地位的患者。将分析限制在具有完整数据的患者将导致模型过拟合、偏见和泛化能力差。其次，缺乏大量具有匹配多模态数据的“金标签”队列，主要是由于注释癌症数据集的劳动密集程度和隐私问题。幸运的是，深度学习算法也开始发展。一种流行的方法是数据增强，它可以包括基本的数据转换以及合成数据的生成，但其他策略，如半监督学习、主动学习、迁移学习和自动注释，已经被证明是克服标签数据稀缺的有前景的途径。

尽管具有潜力，但深度学习在临床环境中广泛采用的一个关键障碍是缺乏明确定义的模型解释方法。虽然深度学习可以从复杂数据中提取预测特征，但这些特征通常是抽象的，而且并不总是明显的，它们在临床上是否相关。为了在临床决策中发挥作用，模型需要经过广泛的测试，具有可解释性，而且它们的预测需要伴随着置信度或不确定性度量。只有这样，它们才会对临床实践者有意义并被采用。

解释黑盒模型是一个被大量研究的主题，已经提出了一些事后解释方法。在组织病理学中，大部分工作集中在通过选择具有最高模型置信度的图块或通过可视化与最终预测最相关的图块来提取最具信息量的图块（图3a）。为了以更高分辨率解释模型预测，可以使用基于梯度的解释方法，如梯度加权类激活映射（Grad-CAM）（图3b）来突出显示最相关的区域。同样，对于分子数据，可以通过基于Shapley加性解释（SHAP）的方法（图3d,e）来确定和可视化预测特征。多模态数据增加了额外的复杂性，在扩展到多模态可解释性之前需要对适当方法进行仔细评估。然而，多模态方法开始出现，提供了令人鼓舞的解决方案，不仅用于可解释性，还用于发现不同模态之间的关联。请注意，前述方法说明了模型为何做出特定决策，但没有解释使用的特征。可以利用其他策略进一步揭示生物学见解。例如，可以将选定的图块与Hover-Net155叠加，以分割和分类细胞核，以评估主要的细胞类型（图3c，在TCGA数据上的未发表结果）。

标准化将导致更加统一和完整的数据集，这些数据集更容易处理并与其他来源融合，并且本身更具可解释性。TCGA可能是最知名和最常用的资源，但还有许多其他举措正在进行，以系统地捕获临床、基因组、成像和病理数据以用于肿瘤学，如癌症成像档案和基因组病理成像收藏。总之，这些努力共同致力于以FAIR（可发现、可访问、可互操作、可重复使用）的方式处理、分析和共享数据。这不仅将促进可重复性和透明度，还将鼓励对现有工作的重新利用和优化。然而，多模态生物医学数据的体量和复杂性使得产生和共享FAIR数据变得越来越困难，当前的解决方案往往需要特定的专业知识和资源。

此外，一些模态如电子病历（EHRs）不仅极难标准化和共享，而且对研究人员来说获取成本非常高。观察性医学结果伙伴关系（OMOP）等努力旨在通过在各研究机构和国家间协调EHR数据来解决这个问题。为了在多模态研究中取得进展，迫切需要数据编排平台，以及适当的监管框架来保护患者隐私。为了充分发挥多模态数据的潜力，研究人员和临床医生需要共同努力解决这些挑战。随着数据整合、标准化和保护隐私的技术不断发展，未来的肿瘤学研究将更加深入地探索多模态数据融合在精准医疗中的应用。

随着越来越多的临床和实验数据的可用性，生物医学多模态数据融合的重要性日益显现。为了应对多模态特定的障碍，已经提出了多种方法和框架，并目前正在大量研究。尽管这些方法和框架通常仍具有问题特异性和实验性质，但该领域正逐渐积累知识，以评估和确定在特定条件和数据模态下哪些方法表现优秀。深度学习方法仅涉及有限范围的潜在应用，主要原因是当前医疗数据所固有的挑战，再次强调了大型协作数据标准化和共享工作的必要性。

在这方面，DREAM和Kaggle等竞赛已经成为一种有效的概念，使标准化的多模态数据变得可用。重要的是，这些举措还促进了观念和代码的交流、可重复性、创新和无偏评估。我们预期这些努力将极大地推动强大多模态方法的发展。随着技术的进步和协作努力，生物医学多模态数据融合有望在未来为精准肿瘤学带来更多的创新。这将使研究人员和临床医生能够更好地理解肿瘤的底层生物学，为患者提供更准确的预测和治疗方案，从而改善患者的生活质量和预后。

最终的目标是通过在更大的独立队列中对成功模型进行严格的临床验证，以证明任何临床效用来推进精准肿瘤学。到目前为止，大多数工作都集中在多模式癌症生物标志物上，以改进风险分层，但通过专门的策略，多模式数据融合也可以协助治疗决策或药物反应。然而，真实世界患者的结果往往相对于临床试验有所滞后，由于缺乏跟进数据而阻碍了疗效的评估。幸运的是，正在进行的努力，以使用临床笔记的NLP自动可伸缩地捕获治疗反应。通过谨慎的研究设计、数据收集和共享方法的持续改进以及疾病监测技术成本和/或可用性的降低，DL算法成为在这个方向上进一步加速精准肿瘤学领域的有希望的选择。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。