打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
NG Perspective|基因组学中的深度学习

 

2018年12月发表在Nature Genetics的一篇Perspective文章“A primer on deep learning in genomics”中就针对基因组学中如何应用深度学习进行了介绍,文中主要讨论了深度学习方法的主要分类,谈到深度学习在调控基因组学、变异检测和致病性评分方面的成功应用,并对如何在基因组学中有效利用深度学习提出了一些建议。

1、深度学习,机器学习的一种方法

机器学习已经被广泛应用于基因组学研究中,主要分为两种:监管型和非监管型,前者的目的是利用已知的训练集对数据的类型和应答结果进行预测,后者则是利用数据本身学习其中的遗传模式,例如聚类分析和主成分分析。无论哪种类型,机器学习的最终目的都是为了训练数据和真实数据中不断优化模型,利用训练集、验证集和测试集来优化和平衡计算模型。

大型神经网络是一种主要的深度学习,可以进行预测和降维分析。在基因组学研究中,深度学习和机器学习最大的不同在于,深度学习模型的能力更强且更灵活,在适当的训练数据下,深度学习可以在较少人工参与的情况下自动学习特征和规律。

2、建立深度学习

深度学习其实是一个概括性的术语,具体指的是近年来在神经网络和相关训练平台上的一些进展。神经网络起点是一个人工神经元,可作为真实数值的一个输入载体,然后利用非线性转换计算加权平均值,权重值则作为模型训练过程中的参数。神经网络的功能源于每一个被高度模块化和可组合的神经元,每个神经元的输出可直接作为另一个神经元的输入,通过组合这些神经元,就可以构建一个神经网络。

在基因组学研究中,初始输入的通常是DNA序列,将ACTG四种碱基编码成[1,0,0,0]、 [0,1,0,0]、[0,0,1,0]和[0,0,0,1],神经网络输出预测结果,例如判断输入的DNA是否是一个增强子。

图1. 基因组学研究中深度学习的流程

3、如何在基因组学研究中有效利用深度学习

(1)合适的训练集

在构建一个有效的深度学习模型中,首先最重要的就是要找一个合适的训练集并选择合适的评估指标,训练数据集要确保不会引入人为夸大性的偏差。例如,已知的致病性遗传变异可能会聚集在基因组某些区域(外显子或启动子),但是已知神经元变异可能是广泛分布在整个基因组中,如果利用这些不平衡的数据,在实际应用过程中,神经网络可能会识别富含致病变异的基因组区域,但是却无法区分这些重要区域中的中性变异和致病变异。

(2)专业领域知识

深度学习的成功应用必须有专业的领域知识,这对于所有机器学习方法来讲都是一样的。领域知识可以帮助构建数据特征,在深度学习中,领域知识是内置在神经网络架构中的,神经网络的性能则主要依赖于不同架构中对假设和局限的理解。举个例子,如果我们要构建一个预测DNA是否为活性增强子的模型,那么首先基于生物学知识,我们知道调控元件即使在小范围翻译后仍然有效,这种情况下采用CNN(convolutional neural network)可能更有效;其次,调控motif通常相对较短(<20nt),因此卷积过滤应该也较小(<20nt);最后,因为增强子通常聚集在几百bp到2kb之间的区域,那我们设置的神经网络输入序列应该小于2kb才合理。

(3)浅层次神经网络模型

与计算机图片处理不同,在大多数基因组学应用中所需的神经网络层数不超过5层,虽然较浅,但是这些网络中却包含了数百万个参数,而且决定模型成功的关键在于使用大量的标签数据(labled data)进行训练,大部分成功应用深度学习的生物学应用都至少含有几千个标签数据。使用较为简单的模型同时对相同的数据集进行训练效果会更好。

图2.基因组学中的深度学习

4、深度学习模型的难点在于解读

大多数情况下,与预测结果的准确性相比,研究人员对预测模型结果的生物学意义更加感兴趣,例如构建一个准确的深度学习模型来预测染色质模式,更多的是希望通过解读这个训练模型来获得新的基因调控模式。解读一个预测模型可以识别出显著的特征并产生假设,但是深入推断实际的因果关系还需要进一步的实验证明。

5、基因组学中的应用

到目前为止,已经发表了大量与深度学习相关的方法或工具(图3),其中在功能基因组学领域的应用最多,例如预测DNA或RNA的蛋白结合位点,增强子、顺势调控元件的结合位点,甲基化状态等等,这些工具都是基于基因测序、ATAC-seq、ChIP-seq等产生的数据进行训练。

图3. 深度学习工具和资源

例如多种不同的工具能够从大型基因表达数据集中提取转录组模式,用于评估来自特定细胞或环境下产生的RNA含量。深度学习还可以从基因型数据中构建基因表达预测模型,研究可变剪接模型,识别长链非编码RNA,从遗传数据中预测表型,对致病性变异进行排序。

图4. 深度学习在基因组学中的应用

到目前为止,基因组学中最成功的深度学习应用就是监管型学习,例如预测。通过以上介绍,我们也可以发现,深度学习在基因组学中具有巨大潜能,但同时也存在一系列挑战,首先是如何将深度学习系统和人类经验相结合,辅助进行基因组信息解读,其次是确保适当且无偏好的训练集,最后还需要功能性的实验进行评估。相信不久之后,深度学习还能应用到合成生物学中,通过学习自动生成新的目标DNA序列和蛋白质序列。

参考文献:

1.Zou J, Huss M, Abid A, et al. A primer on deep learning in genomics[J]. Nature genetics, 2018: 1.

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
热点追踪 | AI在GWAS功能/转化研究中的应用
NEJM综述:人工智能在分子医学中的应用
西奈山医学院 | iPS细胞模型可以帮助解开一些精神疾病背后的复杂生物学机制
如何将珍贵样本中的信息最大化:多组学的力量 | 推广
Nat. Rev. Genet. | 通过可解释人工智能从深度学习中获得遗传学见解
Nat Rev Genet | 德国科学家发文解析基因组学新的计算模型技术―深度学习
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服