打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
Nature Methods | 深度学习架构Enformer提高基因表达的预测准确性

本文介绍Žiga Avsec教授团队与Calico的团队共同发表在NATURE MATHOD的工作:作者开发了一种基于Transformers的神经网络架构Enformer,这个深度学习架构能够整合来自基因组中远程交互(高达100 kb远)的信息,大大提高了从 DNA 序列预测基因表达的准确性。由于Enformer在预测变异对基因表达的影响方面较之前的模型来说更为准确,所以可以用于解释来自全基因组关联研究的疾病相关变异。此外,Enformer还学会了从DNA序列直接预测增强子-启动子的相互作用,比起先前直接输入实验数据预测结果的方法有了长足的进步。该模型能促进对基因调控结构的理解,并促进诊断遗传起源疾病的工具的开发。

1

简介

虽然人类基因组计划成功绘制了人类基因组的DNA序列,但是非编码DNA如何决定不同细胞类型中的基因表达还是一个尚未解决的问题。作者使用称为 Enformer的深度学习架构有效利用来自非编码DNA的信息,大幅提高了基因表达预测的准确性。该架构能够整合来自基因组中远程交互的信息,从而更准确地预测自然遗传变异和饱和突变的基因表达变异效应。作者及其团队在来自人类和小鼠的基因组进行训练,并对保留序列进行测试,证明了基因表达预测与数据的相关性有所提高。本文还展示了Enformer通过数据训练能够具备增强子选择的特异性,而且该模型提高了对eQTL数据的变异效应和MPRA 突变效果的预测准确性。

2

Enformer改进了对基因表达的预测

2.1概念

2.1.1. self-attention机制:最早运用于图像处理。受到人类注意力机制启发,人在观察图像的时候,其实并不是一次就把整幅图像的每个位置像素都看过,大多是根据需求将注意力集中到图像的特定部分。而且人类会根据之前观察的图像学习到未来要观察图像注意力应该集中的位置。在自然语言处理(NLP)中,self-attention是一种自动加权,通过权重的不同决定重点处理部分,可以把两个需要联系起来的不同模块,通过加权的形式进行联系。

2.1.2.transformer网络架构:是基于self-attention机制的架构,且是多头(multi)架构。它满足最基本的self-attention计算原理:第一步,将query和每个key进行相似度计算得到权重,常用的相似度函数有点积,拼接,感知机等;第二步,一般是使用一个softmax函数对这些权重进行归一化;第三步,将权重和相应的键值value进行加权求和得到最后的attention。

2.2 正文

Enformer(是enhancer和portmanteau的组合词)是基于Transformers网络构架的算法模型,能预测人类和小鼠DNA片段的基因表达和染色质状态。

原理方法

①通过计算不同序列的加权和,确定不同序列的位置

②通过计算任何两个位置的向量嵌入、距离,确定任何两个位置之间的注意力权重。

③通过注意力权重收集所有相关区域信息(如enhancer增强子)完善转录起始位点(TSS)预测,从而实现远端元素之间信息的流动。

优点

①预测长度:Enformer可达100千碱基kb,而卷积层是局部感受野,需许多连续层才能到达远端元件,如Basinji2 或Expecto仅达到20千碱基kb。即使卷积进行扩张效果也不如Enformer。

②通过帽基因分析(CAGE)预测转录起始位点(TSS)的RNA表达:Enformer将平均相关性从0.81提升至0.85,是Basinji1→Basinji2提升的两倍

③预测准确性:Enformer比ExPecto准确性更高

④四种全基因组轨迹:CAGE测量转录活性(CAGE measuring transcriptional activity),组蛋白修饰( histone modifications),TF结合( TF binding), DNA在各种细胞和组织的保留染色体中的可及性。上述四种轨迹能分析组织细胞特异性,Enformer均有所改善。其中CAGE改善最明显,可能因为组织特异性与远端元件密切相关。

3

Enformer 关注细胞类型特异性增强子

3.1概念

1. 帽分析基因表达cap analysis gene expression (CAGE):cap指的是在成熟mRNA前的7甲基鸟苷帽子,即m7GPPPN结构。而CAGE指的是对源自 5' 末端 mRNA 的最初 20 个核苷酸的 DNA 标签多联体的制备和测序。CAGE 允许进行高通量基因表达分析和转录起点 (TSS) 分析,还包括启动子使用分析。

2. CRISPRi:基因抑制/沉默。在此次实验中,CRISPRi 被用来抑制 10,000 多个候选增强子的活性并测量它们对基因表达的影响。

3.绝缘体元件insulator elements:绝缘体元件,它能将两个拓扑关联域 (TAD) 分开并将两者之间的增强子-启动子串扰最小化,从而提升DNA序列稳定性。

3.2正文

此部分解释了Enformer具体使用了哪些DNA序列元素进行预测

原理方法

①通过计算两种基因表达贡献分数(输入梯度、注意力权重),能标识出对特定基因表达最具预测性的输入序列。验证前提是目的基因已经通过CRISPRi证实具有增强子。

②计算机诱变(silico mutagenesis)和输入梯度(gradient × input):是针对特定输出帽分析基因表达(CAGE)计算的,所以该种贡献分数具有组织或细胞特异性。

③注意力权重(attention weights):是模型内部的,在所有组织和细胞类型中共享,所以是非特异性的。

优点

①远端增强子的贡献分数:Enformer能突出20千碱基kb以上的增强子,并且与CRISPRI 验证符合很好,说明Enformer能够通过贡献分数确定增强子优先级。而Basenji2 对距离 TSS 超过 20 kb 的序列的贡献分数为零,因此缺少几个增强子。

②增强子-基因对距离分类性能:Enformer明显优于Basenji2。甚至在某些情况下,Enformer优于ABC。ABC贡献分数依赖于实验数据,例如基于 HiC 的交互频率和 H3K27ac 进行输入再输出,而Enformer仅以DNA序列作为输入数据,且没有进行过任何增强子定位训练,所以Enformer能在一定程度上赶超ABC分数显示了其进步性。这表明 Enformer 也可用于缺乏实验数据的任意序列变化的增强子定位。

③特定细胞类型的贡献得分比不可知细胞类型的贡献得分更高,表明该模型在不同的细胞类型中使用了不同的增强子序列。因此,Enformer 贡献分数是在用于模型训练的细胞类型中优先考虑候选增强子的有效策略。

④对绝缘体元件的注意:除了启动子-增强子元件外,绝缘体元件的定位也非常重要。在以TAD边界为中心的注意力权重矩阵中,Enformer 更关注TAD边界,而较少关注TAD两侧区域。说明Enformer能专注于绝缘体元件在抑制基因组区室之间信息流中的作用。

4

Enformer改进了对eQTL数据的变异效应预测

4.1概念

1. 表达数量性状基因座(eQTL):定量性状基因座(QTL)是指基因组中DNA变异与定量表型性状变异统计相关的区域。表型一般包括任何形式的数量性状,如:身高和体重。eQTL可以概括为,把每个基因的表达数据当做一个表型,经过关联分析,筛选出对基因表达产生影响的SNP。这些调控性多态位点能够显著影响大量附近基因的表达水平,找到这些位点有利于对基因性状的分析和预测。

2. 基因型-组织表达(GTEx)项目:2010年由美国国家卫生研究所创办,在美国国家人类基因组研究所的协助下,计划在获取的组织中研究全基因组范围内的序列变异与RNA测序结果之间的关联。目的为完整地研究组织内的转录本表达丰度在不同个体之间的差异对性状表达差异的影响。

4.2正文

此研究的一个中心目标是预测遗传变异对细胞类型特异性基因表达的影响,以便为来自全基因组关联研究 (GWAS) 的表型的精细定位提供信息。希望构建的模型能够产生基因表达数量性状位点 (eQTL)的结果,节约大量基因测序的人力物力。

原理方法

使用GTEx eQTL(GTEx项目在多种人体组织中发现的表达数量性状位点)验证模型的预测功能,用SLDP测量Enformer和GTEx eQTL之间的全基因组统计一致性,并且评估其受到连锁不平衡的影响。

优点

①预测效果提高:相对于Basenji2(另一个已开发的常用预测模型),Enformer 在精细定位的 eQTL 的表达变化方向方面有更好的准确性,最接近样本匹配的数值(Z值)更高(图3)。

②与 ExPecto1中使用的DeepSEA方法相比,Enformer对 DNase 超敏反应的变异效应预测与GTEx的SLDP一致性更高。总体来看,Enformer对非编码变异的预测主要针对具有相似细胞类型组成的样本而改善。

③识别因果变异更准确:用预测差异向量来表示变体,并训练随机森林分类器,Enformer为大多数组织提供了更准确的分类器,使特征曲线下面积增加,可以有效解析增强子和启动子的变体。

图3

5

Enformer改进MPRA突变效果预测

5.1概念

1. MPRA方法:可以实现大规模分析GWAS数据。利用一种独特的DNA条形码对每个质粒进行标记,在报告基因之外的读出值,通过对每种质粒产生的mRNA进行测序和计数,鉴定出对基因表达影响最大的变异,并定量其幅度。

5.2正文

研究团队使用数据集评估了Enformer在另一个独立的变异效应预测任务中的性能,利用MPRA直接测量遗传变异的功能效应。

将Enformer与使用了其他部署方法的组作比较,包括:CADD框架、DeepBind和DeepSEA等,给予与CAGI5 competition相同的训练和测试集,以参考等位基因和替代等位基因之间的预测差异为评估效果。比较了下列两种方法:(1)训练套索回归模型;(2)预先选择与细胞类型匹配的子集,进行无需额外训练的CAGE和DNase变化不可知预测,并生成汇总信息。结果表明,以Enformer预测为特征的套索回归具有最佳平均相关性。其超过了来自CAGI5的获胜团队,并且捕获了LDLR基因座的四个转录因子结合位点,比deltaSVM更加全面,可以反映细胞类型的预测。

图4

6

总体结论

作者及其团队通过改造Transformer,用于处理更长的DNA序列,从而有效的模拟增强子对远距离基因表达的影响。与之前的模型相比,Enformer 能更准确地预测变异对基因表达的影响。在理解基因组序列的复杂性方面,Enformer 向前迈进了一大步,有助于研究疾病和增强子生物学变异之间的关系。在未来,我们也预想通过对更多功能基因组数据集分析训练,提高Enformer模型对遗传变异的敏感性,促进遗传疾病诊断工具的开发。

参考资料

Avsec Ž, Agarwal V, Visentin D, et al. Effective gene expression prediction from sequence by integrating long-range interactions. Nat Methods.2021;18(10):1196-1203.

 doi:10.1038/s41592-021-01252-x

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
Nature Methods | 结合DNA远端互作,DeepMind等团队发表高精度基因表达预测模型——Enformer
文献之声|全基因组甲基化芯片之利用DNA甲基化定量性状基因座来表征甲基变异,基因表达和复杂性状之间的...
阐明转移因子多态性的疾病风险
科学家初步完成人类与黑猩猩基因组比较
解密最后的“空白区” 首个完整无间隙人类基因组序列公布
科学家人工合成出新冠病毒:可在一周内产出大量病毒活体
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服