Nature：深度学习技术在生物学上的应用

深度学习这种热门的人工智能技术还可以应用到生物学研究工作当中，以帮助我们对生物学数据进行发掘和分类。不过那些还不太熟悉深度学习技术的人可能会感到有点费力。

Google 公司旗下有一个 Google 加速科技部门（Google Accelerated Science），他们的主要工作就是利用 Google 公司的最新科技加快科学研究的进展。4 年前，这个部门的科学家登门拜访了美国加利福尼亚州旧金山市 Gladstone 神经疾病研究所（Gladstone Institute of Neurological Disease in San Francisco）的神经学家 Steve Finkbeiner。因为他们觉得，可以利用深度学习技术帮助 Finkbeiner 团队处理大量的图像数据信息。

深度学习技术可以从海量的、已注释过的数据库里（比如图像数据库或基因组数据库）提取出原始特征（raw feature），然后发掘这些原始特征背后的规律，开发出一套预测工具。经过训练之后，深度学习软件还可以对其它的数据进行分析，哪怕是数据来源差别非常大的数据都不是问题。

Finkbeiner 表示，深度学习技术可以解决非常困难、复杂的问题，还可以发掘数据结构。很多时候，由于数据规模太大、太复杂，人脑根本处理不了这些数据。

Finkbeiner 的团队开发出了一种高通量的图像采集技术——机器人显微镜技术（robotic microscopy），并以此获得了大量的图像数据，用于脑细胞研究工作。但是他们却无法处理这么多的数据，所以对于 Google 专家的到访，Finkbeiner 是非常欢迎的。

据 Finkbeiner 介绍，虽然当时他也不清楚，深度学习技术究竟可以帮多大的忙，但是他知道，他们获得数据的速度已经超出了他们处理数据的速度，至少多出了 2 至 3 倍。

今天，他们的工作已经获得了回报。 Finkbeiner 和 Google 的科学家们一起，已经用两种细胞对深度学习软件进行了训练，其中一种细胞经过了人工标记，科研人员很容易发现其特征，另外一种细胞是未经标记的。当深度学习软件“看到”那些之前没有见过的、未经标记的细胞图像时，仍然能够给出非常准确的建议，告诉科研人员应该对这些细胞加上哪些标记。这方面的工作已经写成论文，即将发表。

Finkbeiner 等人的成功预示着深度学习技术这个最有希望的人工智能技术即将进入生物学研究领域。深度学习技术已经进入了我们现代生活的方方面面，比如智能手机、智能音箱和无人驾驶汽车等。在生物学领域，深度学习技术也给我们提供了很多帮助，处理了很多人类无法处理的数据，发现了很多之前无法发现的信息。生物学研究人员可以利用深度学习技术对细胞图像进行分类，了解基因组间的联系，加快药物研发的进度，甚至还可以发现不同类型的数据之间的关联，比如基因组信息、图像信息和电子病历档案之间的关联等。

在 bioRxiv 上已经有超过 440 篇文章在探讨深度学习问题，在 PubMed 上则有超过 700 条参考文献——这还只是 2017 年一年的数据。生物学家和临床科研工作者也越来越容易接触到深度学习技术。不过他们还会面临很多问题，比如深度学习技术可以帮助他们干些什么？如何避免误入歧途等。

训练出更聪明的人工智能软件

深度学习软件依赖的是上世纪四十年代诞生的人工神经网络计算模型。所谓人工神经网络计算模型就是将计算机当作每一个神经元，模拟构成人脑那样的网络连接系统，来像人脑那样分析数据和信息。据美国宾夕法尼亚大学（University of Pennsylvania in Philadelphia）的计算生物学家 Casey Greene 介绍，大约 5 年前，以人工神经网络计算模型为基础的机器学习软件（machine-learning algorithms）都还需要科研人员将原始数据进行初加工，然后再输入软件进行训练。但是随着智能手机和大规模基因组测序技术的普及，以及数据规模呈现爆炸性增长和软件业的创新，我们现在已经可以直接使用这些原始数据了。对于机器学习而言，就是深度学习，即让计算机自己在海量的数据中寻找有意义的关联，而不需要程序员的辅助。在人工神经网络中不同的“皮层”对数据进行分类和过滤的同时，它们彼此之间也在互相交流，让每一个 “皮层”都可以从前一层那里提取运算结果。

最后，这些经过数据训练的人工智能软件就可以正式出师，处理新的数据，并且给出非常准确的结果，比如认出一幅图画是 Charles Darwin，还是一个病变的细胞。不过随着科研人员对这些软件“放任自流”，他们也失去了对整个数据处理过程的监控，因此不能够准确地解释软件的行为。这些深度学习软件的准确预测能力非常惊人，Finkbeiner 表示，很多时候，他们都会感到困惑，究竟是什么原理，让这些软件变得这么神奇。很多生物学研究的子方向，比如图像研究工作已经从人工智能技术中获得了丰厚的回报。10 年前，生物学图像自动处理技术还都只是关注测量一个图像参数的问题。比如在 2005 年，美国博大研究所（Broad Institute of MIT and Harvard in Cambridge, Massachusetts）的计算生物学家 Anne Carpenter 公布了一个开源软件，名为 CellProfiler。该软件可以帮助生物学家对某一个参数进行定量检测，比如荧光显微镜下一个视野里有多少个荧光细胞，或者一条斑马鱼有多长等。

在深度学习技术的帮助下，Carpenter 等人取得了更大的成果。据她介绍，她们已经瞄准了很多生物学家都没意识到的地方，比如将 DNA 染色（DNA staining）、细胞器质地（organelle texture）和细胞内空间的质量（quality of empty spaces）等参数结合起来，就可以得到数千种细胞特征，而随便一种特征都可以揭示一个新发现。最新版本的 CellProfiler 已经包含了这些深度学习元素，而 Carpenter 等人还计划将来加入更多的、更高级的深度学习工具。

Carpenter 表示，大部分人都很难理解这些“细胞特征”。然而，一个细胞就是有这么丰富的信息。事实上包含一群细胞的一幅图像可能还会有更多信息，因为这是该细胞群的转录组群像。

这种图像分析软件让 Carpenter 等人能够用更自动化的方式来处理细胞图像数据，将细胞图像信息“翻译”成疾病相关信息。目前， Carpenter 在美国盐湖城的 Recursion 制药公司（Recursion Pharmaceuticals in Salt Lake City, Utah）担任科学顾问一职，该公司就在利用她们的深度学习技术，为单基因罕见病开发新药。

深度发掘基因组数据金矿

在深度学习时代，并不是所有数据都可以用于训练深度学习软件的，只有那些经过详细注释的海量数据库才适合训练人工智能软件。图像数据很适合，基因组数据也同样适合。

例如 Verily Life Sciences 公司（原为 Google 母公司的 Alphabet 公司旗下的 Google Life Sciences 公司）就正在使用基因组数据开展深度学习研究。该公司的科研人员已经开发出了一种名为 DeepVariant 的深度学习软件。这个软件可以发现单核苷酸多态性（singlenucleotide polymorphisms, SNP）这种常见的基因组变异，而且精确度也明显优于传统方法。DeepVariant 软件能够先将基因组数据转换成图像数据，然后再对这些图像数据进行分析。该软件的研发负责人 Mark DePristo 希望这款软件能够为研究非主流物种的科研人员提供帮助，因为这些研究人员手头并没有太多可用的参考序列，或者高质量的参考序列，所以很难通过传统的方法发现变异信息。DePristo 的同事 Ryan Poplin 就使用 DeepVariant 软件对植物的基因组进行了分析，出错率仅为 2%，而传统方法的出错率则高达 20%。

加拿大多伦多市 Deep Genomics 公司 CEO Brendan Frey 的关注点也是基因组数据，不过他们更侧重如何利用基因组数据来治疗疾病。Frey 在加拿大多伦多大学（University of Toronto）的科研团队开发了一些深度学习软件，并且用健康细胞的基因组和转录组数据对其进行了训练。这些软件能够利用核酸数据预测 RNA 剪接（splicing）、 RNA 转录（transcription）和 RNA 多腺苷酸化（polyadenylation）等细胞内的各种 RNA 事件。如果输入临床数据，即使是之前没有见过的临床数据，这些软件都可以发现突变信号，而且还会自动标记与疾病相关的突变信号。 Deep Genomics 公司的科研人员正在利用同样的技术，确认发病机制，并根据这些突变的短核苷酸序列信息，开发相应的治疗药物。

药物数据库也是非常适合深度学习的数据资源。利用这种人工智能技术，可以解决分类难题（categorization challenges），找出形状或氢键（hydrogen bonding）等分子特征，以明确药物所属类别。比如，美国加利福尼亚州旧金山市的 Atomwise 公司就开发了一款名为 voxels 的软件，它可以将分子数据转换成三维像素数据。据该公司的 CEO Abraham Heifets 介绍，该公司利用这款软件对蛋白质和小分子进行了原子层面的三维结构分析，并对其中碳原子的几何形状特征进行了建模。将这些数据转换成数学模型，软件就可以利用这些模型预测蛋白质都可能与哪些小分子物质发生相互作用。Heifets 表示，他们开展的很多工作都是为蛋白质寻找结合物，而之前，他们一直都不知道哪些分子能够与这些蛋白质结合。

Atomwise 公司已经在他们的人工智能分子筛选平台中使用了这项技术，该平台可以在含有 1000 万种化合物资料的药物数据库中，为客户感兴趣的目标蛋白找到最多 72 种结合小分子药物。

深度学习软件还可以帮助科研人员厘清疾病类型、认识各种疾病、发现新的治疗方法和药物，以及为各种疗法和临床试验项目寻找最合适的患者等。比如有一个名为 Answer ALS 的组织，希望集合基因组学、转录组学、表观基因组学、蛋白质组学、影像学和多潜能干细胞生物学等诸多学科，通过分析 1000 名 ALS 患者的上述各种数据来攻克这种疑难病例。 Finkbeiner 也参加了这个项目，据他介绍，他们首先要做的是让深度学习软件研究一个数据库，看看它能不能从这些数据中发现隐藏的线索，从而了解这种疾病的发病机制。

挑战与注意事项

虽然深度学习技术的前景非常美好，但也存在着很多困难和挑战。与其它计算生物学技术一样，分析结果的质量直接取决于输入数据的质量。另外也应关注过拟合（Overfitting）问题。数据的质量以及标准也是非常重要的。

深度学习技术需要以大规模、已注释的数据为训练材料。更大规模的、标注清晰的数据库，比如拥有数百万个代表不同实验条件和生理条件的数据，能够让科研人员在训练深度学习软件时拥有最大的灵活性。Finkbeiner 指出，他们自己的经验表明，在样本量达到 15000 时，软件的训练效果有了明显的提升。不过 Carpenter 也承认，这种海量的、标定好的真实数据（ground truth）不是那么容易得到的。

为了解决这个问题，科研人员想出了其它一些办法来用更少的数据训练深度学习软件。随着 IT 技术的进步，人工神经网络技术利用数据的效率也在提高。据 Carpenter 介绍，在某些情况下，使用少量的图像进行软件训练就足够了。此外，我们还可以利用迁移学习技术（transfer learning），即把已经训练好的模型参数迁移到新的模型，来帮助新模型训练。比如，Finkbeiner 等人就开发了一种软件，根据细胞的形态来预测细胞是否会死亡。该软件训练时采用的数据是啮齿类动物的细胞图像，在对人类细胞图像进行预测时，准确率为 90%；随着经验的积累，准确率后来提高到了 99%。

Google Accelerated Science 公司的生物图像识别工作，有一部分使用的软件，在最开始就是利用从互联网上获取的上亿张消费者图像信息来进行训练的。后来，科研人员简缩了这个训练过程，只使用数百张与待研究目标类似的生物图像就可以达到效果。

Google Accelerated Science 公司的科研人员 Michelle Dimon 指出，深度学习技术面临的另一大挑战就是计算机本身是又懒又笨的。计算机不会区分什么是正常的变异，什么是有生物学意义的差异，不过它们大规模发现差异的能力的确很强。因此，获得训练深度学习软件的数据，往往也意味着对实验设计和试验控制要求严格。Google Accelerated Science 公司要求科研人员在细胞培养皿上放置随机对照，以了解培养箱温度等环境因素的微小差异给试验带来的影响，使得研究者可以使用两倍的对照组。如果没有这个系统，就需要研究者自己进行操作。Dimon 打趣道，他们那边的科研人员在做实验时，用移液器都很困难。

Dimon 认为，这也进一步凸显出生物学家与 IT 专家共同合作，为深度学习软件设计实验的重要性。进行周密的实验设计已经成为 Google Accelerated Science 公司最重要的行为准则，其重要程度甚至超过了他们的最新项目——Contour 计划。Contour 计划的目标就是将细胞影像学数据按照重点特征进行归类，而不是简单地进行影像学分类。

Greene 提醒，虽然深度学习软件可以全自动地分析数据，无需人工干预，但这并不意味着不会出现偏倚（biased）。训练用数据就可能存在偏倚，比如只使用了北欧人的基因组数据等。如果用这些偏倚数据来训练深度学习软件，那么在后面的工作中肯定会出现偏差，最终影响临床工作。此时，就需要人工来进行校正。在做关键性决策时尤其需要注意这个问题。Greene 指出，我们应该让人工智能技术来帮助我们思考，而不是让它们来代替我们思考。

还有一个问题就是，我们还不清楚，这些人工智能软件是如何发现数据的特征，如何对数据进行分类的。据美国马里兰州巴尔的摩 Insilico 医学中心（Insilico Medicine in Baltimore, Maryland）的研究人员 Polina Mamoshina 介绍，计算机专家也在尝试解决这个问题，他们的办法就是改变或者打乱模型里的变量，然后观察软件的运行结果。 Mamoshina 等人也在使用深度学习技术改进新药研发工作。不过 Greene 指出，不同的深度学习软件，即便在处理同一个问题时，也可能会采用不同的运行机制。科研人员越来越关注深度学习软件的预测准确性和合理性，不过目前，我们还是不清楚这些人工智能的运行机制。

Greene 认为，2018 年肯定来不及阐明深度学习的整体运行机制，不过他希望他是错的。

深度学习技术介绍
目前深度学习技术正在飞快地发展着。生物实验室只有配备专门的 IT 人员，或者与外部的 IT 人员合作，才能更好地利用这项新技术。
首先，美国加利福尼亚州旧金山市 Gladstone 神经疾病研究所（Gladstone Institute of Neurological Disease in San Francisco）的神经学家 Steve Finkbeiner 认为，可以和有深度学习知识背景的人吃个工作餐，看看是否可以在生物学研究工作中用到深度学习技术，可以使用哪种技术。有一些数据，比如图像数据就可以用现成的深度学习软件来处理。如果要开展更复杂的工作，那就需要与专业的 IT 人员开展合作了。参加会议和讨论会也可以提供训练的机会。
在使用深度学习软件时还可以使用云计算资源，这样就不需要自己配备计算机等硬件系统了。 Google 公司的 TensorFlow 系统就是一个开源的深度学习软件平台，大家可以到 GitHub 网站上获得 TensorFlow 系统。DeepVariant 也是一款非常好的开源深度学习软件，可用于发现遗传变异。
据 Google Accelerated Science 公司的科学家 Michelle Dimon 介绍，他们也和很多生物学家开展了广泛的合作。他们研究的都是非常值得研究的生物学问题，都需要大量的、高质量的和已注释过的数据。他们公司的机器学习专家在其中解决的也都是重大问题，都是对机器学习界有重要贡献的问题。
那些希望加快认识深度学习技术的科学家也应该好好看看美国宾夕法尼亚大学计算生物学家 Casey Greene 写的一篇深度学习综述，会很有帮助的，详见 T. Ching et al. Preprint at bioRxiv http://doi.org/ gbpvh5; 2018。

原文检索：

Sarah Webb. (2018) DEEP LEARNING FOR BIOLOGY. Nature, 554: 555-557. Eason/ 编译

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。