【精准影像之前沿解析】医疗领域深度学习指南

前沿解析板块，我们邀请您和GE医疗转化医学团队一道读文章，我们会将文章精华以数据及说明的方式展示出来，助您快速理解与跟踪精准影像的最新进展。

数据量爆炸式增长的今天，深度学习技术在各个领域的应用不断被扩展，那在医学研究领域深度学习技术能为我们带来什么样的机遇和可能性呢？让我们跟随由Stanford和Google Research团队发表在NATURE MEDICINE上的《医疗领域深度学习指南》一起，去了解深度学习中的计算机视觉、自然语言处理、强化学习和广义深度学习技术在医学领域的具体应用吧。

作为机器学习的子领域，深度学习并不是一个新鲜的名词，从人工神经网络刚被提出时的研究热潮，到十九世纪末受到浅层学习技术挑战的遇冷，再到近6年里深度学习戏剧性地回暖复苏，这得益于硬件技术的发展带来算力的提高以及大量数据的积累。该领域见证了机器学习在图像、语言、语音方面数据理解和操控能力的巨大进步，而每年快速增长和累积的医疗设备运行量、电子病历数据量也使得医疗健康领域从深度学习技术的发展中受益。

机器学习与一般的计算机编程技术不同在于：它不依赖于程序员的指定，而是从大量的样本中基于数据导向和统计自寻规律，形成算法实现输入与输出的转化。

构建一个机器学习系统需要人工地设计合适的特征提取器，来将原始数据转化为具有代表性、可供学习器进行模式识别的特征；而深度学习是一种表征学习，系统只需喂进原始数据，网络会自发形成模式识别所需的多层表征性特征。

举个例子，像图1a，特征在相邻层之间经过激活函数的非线性变换，成为更抽象的表征特征传递到下一层，数据在流经深度学习网络的过程中不断迭代变换样本空间，直到表征的数据点变得线性可分。通过这种方式系统可以学习到更复杂的模型。

图1待分类两组数据用不同颜色表示，在流过每一层神经网络时，神经元通过非线性变换将两类数据变得线性可分。

深度学习模型一般都是构建于大规模的数据集上，并随着样本数量的增加，模型性能会相应改进提升，因此在各类任务中比许多经典机器学算法有更优的表现。

同时，深度学习模型能够很好地对多种类型的数据来源进行融合，以图2为例，深度学习模型的输入样本可以是多种不同类型的数据。当前医学领域的深度学习技术应用，最常见的是有监督分类模型，比如皮肤病图像的良恶性鉴别分类器；另一种当前大热的深度学习算法——强化学习一经提出就在游戏领域取得了显著的成就，最广为人知的莫过于AlphaGo和进阶版的AlphaZero。

除此之外强化学习也可以用于医疗健康领域，例如实现机器人辅助手术中的伤口缝合任务等。

图2 | 例：以多类型数据作为输入的大规模神经网络结构，隐藏层1,2对各类数据分别进行特征化处理，提取到的特征在后续隐藏层进行特征融合，作用于输出层。

计算机视觉

深度学习最成功的的应用领域之一是计算机视觉（CV, Computer Vision），计算机视觉专注于图像及视频的分析和理解，从而完成分类、检测和分割的任务，例如检测胸片中是否含有恶性肿瘤。

深度学习算法之一——卷积神经网络（CNN, Convolutional Neural Networks）特有的空间不变性，使得医学图像在图像分类和物体检测上受益匪浅，从而实现辅助医生决策和标记感兴趣区域的功能。在皮肤病学、放射学、眼科学、病理性上已有许多研究成果证明了该结论。

卷积神经网络在医学图像的分级诊断方面取得了很大的成功，在迁移学习算法中，初始CNN的训练是与最终任务无关的大型自然图像数据集（ImageNet2），然后再使用小得多的与任务相关的医学图像数据集对深度学习模型进行微调，达到对待预测图像中包含的对象进行分类的目的。

如图3所示，训练过程的第一步，模型基于大量数据学习图像中的曲线、直线、灰度值相关性等特征，第二步更高层的网络算法则被不断训练以实现有效区分待诊断样本的目的。值得注意的是，深度学习模型在黑色素瘤预测、糖网筛查、乳腺X光片检测乳腺病变等问题上的预测准确性都已经达到一般医生的水平。然而很难进一步去比较算法和人类诊断准确率的区别，问题在于只使用当前的影像数据做诊断增加了诊断任务的难度，缺乏临床背景，实际的诊断过程中医生是可以结合临床资料进行诊断的。

图3 医学图像深度学习流程图；卷积神经网络可以在放射学、皮肤病学、眼科学、病理学多种类型的图像上进行训练。输入图像在经过神经网络的卷积、池化、全连接之后形成扁平的特征向量，softmax层的输出向量表示预测为各类别的概率。训练过程中会进行多次迭代以优化网络的内部参数，常见的预测任务包括肿瘤的良恶性分类及肿瘤病灶检测。

目前有监督的深度学习模型在医学领域的应用瓶颈在于数据量的限制，用于特定任务的小规模医学图像数据集相对易于收集，但其泛化能力往往不如人意，在新的数据集上表现不佳。相应的提升模型泛化能力的方法包括数据增强技术、半监督或弱监督学习、无监督学习如生成对抗网络（GAN, Generative Adversarial Networks）等，都在已有的研究中被证明了其有效性。

自然语言处理

自然语言处理（NLP, Natural Language Processing）目的是分析文本和语音以从词语中推断出语义。循环神经网络（RNN, Recurrent Neural Network）——这种有效处理顺序输入（例如语言，语音和时间序列数据）的深度学习算法在电子健康档案（EHR, Electronic Health Records）的应用领域中发挥着重要作用。图4描述了为HER系统构建深度学习模型的技术步骤。原始数据首先在各个机构之间进行汇总，以确保构建的是一个可推广的系统。然后对数据进行标准化并在时间上和患者之间进行解析，这使得它们适用于深度学习训练。为了理解电子健康档案系统中包含的结构化和非结构化数据，已有研究人员开始采用无监督学习方法，例如自动编码器——网络首先通过特征压缩（编码）然后对无标签的特征数据重建（解码）来训练学习有用的特征，最后实现疾病的特异性诊断预测。最近卷积和循环神经网络被使用在了模拟患者记录中发生结构化事件的时间序列，其具有预测未来医疗事故是否发生的功能。但此应用训练集来源于重症监护病房（ICU, Intensive Care Unit）患者，对于非ICU患者是否具有可推广性还不确定。下一代语音识别和信息提取算法可能会用于开发临床语音助理，从而准确地进行患者分诊，大大减少医生在就诊时处理电子健康档案上花费的时间，提升工作效率。

图4 | 使用EHR进行预测。

a. 非结构化EHR数据。医疗记录存储在特殊的数据结构和格式中，使得建立在给定医院记录上的模型不一定适用于来自其他不同医院的数据。

b.数据标准化。通过将来自多个站点的数据映射到基于FHIR的单一格式，数据被标准化为同类格式。

c.排序。通过将所有数据临时排序到患者时间线中，对整个EHR数据集应用基于时间的深度学习算法，从而对单个患者进行预测。

强化学习

强化学习（RL, Reinforcement Learning）是一类特殊的机器学习算法，借鉴于行为主义心理学。和有监督学习和无监督学习的目标不同，算法要解决的问题是智能体（agent，即运行强化学习算法的实体）在环境中怎样执行动作以获得最大的累计奖励。如图5中的例子，机器人的任务是正确取水灭火，强化学习算法控制机器人的动作，如果环境状态改变火被熄灭，机器人会得到相应的奖励，若是机器人被灼烧则会受到相应的惩罚，通过不断迭代，累积的奖励和惩罚分数会使得RL算法优化收敛。深度强化学习（DRL, Deep Reinforcement Learning）是深度学习与强化学习相结合的产物，基于深度强化学习（DRL）的一个医疗领域的应用是机器人辅助手术技术（RAS，Robot-assisted Surgery）。目前，RAS在很大程度上依赖于外科医生以远程操作的方式引导机器人的器械。深度学习可以通过使用计算机视觉模型（例如，CNN等）来感知手术环境，通过RL方法来学习外科医生的物理运动，从而增强RAS的稳健性和适应性。但DRL技术在手术机器人中应用的一大挑战是数据收集，这需要大型训练数据集，每次手术操作都需要很多训练样本用于学习。鉴于许多外科手术具有差异性和独特性，因此收集足够的数据来进行更一般的外科手术自动化研究仍然很困难。此外，该系统仍然难以适应从未遇见过的罕见情况，例如异常手术事件。

图5

1.观察器实时观测环境状态；

2.RL算法选择策略向智能机器人发出动作指令；

3.机器人采取动作引起环境状态改变；

4.环境的变化不满足预期给算法50分的惩罚，机器人后续将尽可能规避此动作；

5. 算法更新策略；

6. 多次迭代后算法收敛。

广义深度学习

除了CV，NLP和RL任务之外，深度学习适用于输入数据具有细微差别且需要专业处理的领域。为了说明的目的，这里我们考虑基因组学，这是一个典型示例，在其中使用深度学习已经超越了传统（例如，基于CNN或RNN）方法的界限，这需要使用独特的（例如，非图像，非时间）数据表示。

现代基因组技术收集了各种各样的测量数据，从个体的DNA序列到血液中各种蛋白质的数量。深度学习可以用来改进分析这些测量数据的方法，最终辅助临床医生做出更准确的治疗和诊断决策。在基因组学构建深学习模型的经典流程包括获取原始数据（例如，基因表达数据），转换该原始数据转换为输入特征向量，训练神经网络，应用于具体任务等（图6 ）。

图6 | 展示了深度学习技术在基因组学中的应用。

a. 输入数据。基因组数据由实验测量值组成，该数据通常是多样的，可包括测序，基因表达和功能数据以及其他形式的分子数据。

b. 将输入数据量化为特征向量。原始实验测量需要转换为适合输入深度学习模型的形式，该算法将多维特征向量和相关目标标记作为输入。

c. DNN。标记的特征向量用于训练DNN，目的是从输入特征向量预测标签。

d. 生物医学应用。

训练好的DNN可用于生物医学应用，例如预测先前未见过的特征向量的标签或检查输入数据和输出标签之间的相关性。该算法的应用包括解释实验数据（例如，从测序仪器的输出推断DNA序列或推断DNA突变对基因剪接的影响）和分子诊断（例如，预测基因突变对疾病风险或药物反应的影响）等。

总结

深度学网络通过分析原始图片，自发形成模式识别所需的多层表征性特征，其非线性使得它能学习到更复杂的模型。计算机视觉专注于图像及视频的分析和理解，从而完成分类、检测和分割的任务。自然语言处理目的是分析文本和语音以从词语中推断出语义，可以用于开发临床语音助理。广义深度学习可以用来改进现代基因组技术测量数据的分析方法。

文章链接：https://doi:10.1038/s41591-018-0316-z

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。