打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
比较Hi-C数据分析的计算方法

基于Hi-C数据的深层挖掘和多组学联合分析已经成为了三维基因组领域的重要组成部分。而工欲善其事必先利其器,夯实基础方能垒砌高台。染色质构象各个层级的识别和鉴定的准确性会直接影响到后续分析的可靠性去年年底发表在Nat Method的《Comparison of computational methods for Hi-C data analysis这篇文章详细介绍了十三款软件的优势和劣势小编摘要翻译分享给大家。

 

为了更好地理解后面的内容,小编先介绍Hi-C文库原理。细胞核中基因组DNA是一个动态调控的整体,为了能定量地分析染色质在空间上的相互关系,必须将细胞进行固定。甲醛醛基可以是DNA蛋白中的氨基进行交联,这一过程将染色质构象特征稳定保持在特定的状态中;通过限制性内切酶的酶切活性,使得基因组双链DNA剪切成独立DNA-Protein复合物即使如此,这个复合物依旧维持在细胞核的原有位置,极少DNA出核通过带有生物素的AC脱氧核苷酸DNA聚合酶的作用下可以将DNA末端限制性内切酶粘性末端补平;再通过DNA连接酶活性,可以将平末端DNA连接成嵌合分子随后通过超声打断,末端去除生物素和末端补平和加测序接头即可完成Hi-C文库的构建。


 图1.Hi-C实验原理


由此可知Hi-C的标准文库一个嵌合分子(Chimeric两侧read来源于不同的基因组片段)


如果直接将Hi-C文库拿来比对会发现有效比对率要远低于RNA-SEQChIP-SEQ文库数据,因为在read两端比对过程中可能存在读过限制性内切酶连接位点的可能因此通常情况下,软件一般会选用识别酶切位点预先reads进行处理或在一端无法唯一比对的情况下,识别连接位点进行切割再次比对的算法Chimeric mapped


图2.Chimeric mapped算法示意图

 

言归正传这篇文章中作者分析13种用于分析Hi-C数据法,它们分别是用于鉴定染色质互作的软件Fit-HiC,GOTHiC,HOMER,HIPPIE,HiCCUPS,diffHic用于鉴定TAD软件(HiCseg,TADbit,DomainCaller,InsulationScore,Arrowhead,Armatus,TADtree).通过比较发现各种算法之间在鉴定染色质互作中显著的差异TAD识别更多可比较性的结果。作者同时选用了已经发表的9个数据集41个样品进行分析,这些样品覆盖了不同的Hi-C实验方法,数据分辨率和细胞类型

 

比较不同软件在数据比对、过滤数据产出

 

Reads比对。

文章发现相较于Bowtie算法HIPPIE(采用STAR),HiCCUPS(采用BWA),diffHiC(采用Bowtie2)分别在比对率上提升了18.4%27.4%40.1%,同时他们测试利用不同的分析读长来进行比对,发现利用chimeric方法相较于全长进行比对的算法能增加30.9%55.4%的比对数据。表明chimeric识别更多嵌合片段上更有优势

 

无效数据过滤。

在进一步经过过滤步骤之后,测试结果表明,HICCUPS获取到最多的比对数据,虽然该方法只去除了PCR重复而没有将其他潜在的无效数据进行过滤DiffHiC通常会过滤掉最多的比对reads,值得注意的是由于该软件在比对过程中能得到较高的比对率,所以依然能获得较多的有效reads(表1)

表1.不同数据集中各软件数据预处理结果

 

比较不同的Hi-C实验方法发现经过过滤后,in situ HiC获取到更多有效reads对于简化Hi-C方法经过过滤后得到最少的reads,通过测试数据发,这主要是由于PCR 重复率过高导致的(图3c)。


图3.不同软件不同分析读长的唯一比对率及过滤比较

 

染色质相互作用的识别

 

数据量对鉴定Loop数量影响

 

研究结果表明,所有方法鉴定得到的顺式互作的数量均多于反式互作,随着有效数据的增加有效的互作数也随之增加虽然每个软的增加有所差别发现染色质内的有效互作高于染色质间的互作;大部分的数据集GOTHiC获得最的染色质内互作;通常情况下,diffHiC软件能鉴定得到多的染色质间互作,同时发现有效数据量与顺式作用比上反式作用的比例成正比文章着重提到了HiCCUPS软件由于该软件采用的局部背景模型,通过图形算法邻近peaks聚集成一个单独的互作,因此相较于其他的工具,获得的互作最少(图4a)。



图4.不同软件在不同数据量中鉴定loop的数量和大小分布图


Loop的大小


 

通过顺式互作染色质内两个bin进行距离分析发现,GOTHiC鉴定得到的互作具有的距离,在5kb分辨率下,Fit-Hi-C得到的互作的平均距离大于10Mb。在1Mb的分辨率条件下所有软件鉴定得到的互作的平均距离分布10Mb53Mb(图4b)。在图中将互作在互作矩阵中,可以直观地观测到不同软件鉴定得到的loop差异(图5)。

 


图5.不同软件calling得到的Loops在chr21局部热图中可视化


Loop可重现性

 

为了比较在不同重复中获得染色互作的可重复性,作者选用Jacard相似系数两者交集比上两者并集作为一个鉴定互作集合的度量。一般情况下,相同数据技术重复或生物学重复在不同的分辨率中均比较低。然而显著性高于随机组合。在低精度时GOTHiC具有最高的一致性最可能的原因是在每个样品重复中它获得了大量的距离互作相反,在几乎所有的高分辨率数据HiCCUPS鉴定得到的loop是各重复中保守的令人惊讶的是,顺式相互作用(JI<>)相比,反式相互作用的相似系数反而更高(JI=0.19)(图6d)

 图6.不同软件的可重现性比较特定生物学元件富集

 

仅考虑top 1000顺式互作的 JI指标,相较于所有的互作JI,结果发现除了FitHiC之外, 没有显著改善。相反样本中valid pair reads增加时,可重复性也随之增加,HiCCUPSGOTHiC尤为显著。同时HiCCUPSGOTHiC软件得到的loop在使用重复相关系数(一个比较不同数量相互作用鲁棒性的相似性度量来衡量时也呈现最高的重复性(图7a)

 


图7.不同软件鉴定的顺式互作的可重现性比较图


在比较同一个细胞系中用不同限制性内切酶进行处理数据集时,可重复性相似,相反数据集间之间的重复性(如不同数据集中同细胞系利用不同的实验方法酶时,JI系数非常低。

 

Loop 注释

 

为了鉴定这些软件calling 得到互作是否转录调控的染色质状态有关,作者基于互作两侧的端点基于染色质状态进行分类,5kb的分辨率考察了所有的方法,发现将近有16%顺式互作归类到启动子-增强子,23%互作分布在异染色质或沉默状态的染色质上3%被认为缺少生物学支撑如一端是启动子或增强子,另一侧为异染色质或沉默状态的染色质。

 

5kb分辨率下HiCCUPSHOMER鉴定得到了最高比例的增强子-启动子的互作元件,虽然他们不是数量最多的(图6e)。在40kb分辨率下,所有的方法均鉴定得到较高比例的增强子-启动子互作,作者认为这可能是较大的划bin更可能包含启动子或增强子。相反,对于反式作用的互作比例,归类为启动子-增强子所有的软件中均较低。

 

不考虑软件和分辨率的情况下,少于8%的顺式互作被归类到违背生物学预期互作中。对于所有软件,随着数据量的增加启动子-增强子的占比增加

 

Loop 真阳性

 

比较鉴定得到的顺式作用数据有效性时,GOTHiC获取数量最多的真阳性的互作HOMERFit-Hi-CGOTHiC具有相似的效果,尽管他们鉴定得到的相互作用较少在高分辨率的数据集中Rao et,.aldiffHic鉴定互作具有最高的真阳性比虽然在相同的数据条件下HOMER软件比其他所有的软件获得更多真阳性(图8)。所有的软件在鉴定真阴性上性能均不是很好



图8.各软件真阳性比例图 

 

 

三、鉴定拓扑学相关结构域

 

数据量对鉴定TAD数量的影响

 

为了进行TAD calling该项研究40kb分辨率所有样本进行分析,与鉴定互作的软件不同,除了Arrowhead以外TAD 工具在鉴定TADvalid pair数量的增加TAD的个数影响不大(图9a)

 

TAD数量

 

不同的软件得到的数量不等,所有数据中,TADtree软件得到最多TAD7638),Arrowhead识别的最少(636相反,在1Mb分辨率时,InsulationScore能获得最多的TADTAD标记在热图中可以明显发现HiCseg,TADbit,InsulationScore获得TAD连续的,其他的几款软件则TAD之间有间隔。Arrowhead TADtree采用多尺度的方式返回嵌套的TAD


图9.不同数据量calling TAD个数和大小统计 


TAD 可重现性

 

为了比较TAD可重性,作者计算了JI作为不同生物学重复间的TAD边界重叠的评价指标。所有的分辨率下, HiCseg在同一数据集不同重复中具有最高的可重现性,通常情况下,TAD可重现性要远高于我们观测到的染色质互作的可重现性(图10)刚提到测序有效数据的增加不会影响TAD个数,但是它可以提高所有的TAD鉴定软件在识别不同生物学重复TAD中的可重现性。HiCseg鉴定TAD使用重叠相关系数时其他工具更好

 


图10.不同软件JI比较


对于相同细胞系使用不同的限制性内切酶大多数工具得到的重复性是相似的。另外,在不同数据集(同一细胞系不同的实验方案和酶时)大部分软件得到的可重现性要低于同一数据集的结果。TADtree在测试中表现的最好,而Arrowhead表现最差(图11)。

 

图11.不同软件对不同数据集TADcalling 可重现性比较


TAD 注释

 

所有软件鉴定得到的TAD其边界具有绝缘子(CTCF或者BEAF32的富集绝大部分的数据集中超过50%TAD边界都与CTCFpeak重叠。其中Armatus TADtree 获得TAD边界CTCF富集尤为明显(图12)。

 

Sexton数据集中,大多数软件返回的TAD边界富集了BEAF32,一个在果蝇中被报道的CTCF广泛富集与TAD边界的结构蛋白。

图12.CTCF在不同软件鉴定得到的TAD边界富集图

 

使用模拟数据时,DomainCaller,TADbit InsulationScore鉴定得到TAD个数与模拟的数相似,且与噪音的增加无关HiCseg鉴定得到少些范围比较大的TADTADtree则得到更多小的TAD。这两种方法在鉴定正确结构上强烈受到噪音的影响。TADbitArmatus在重现TAD边界上具有最高的敏感度,尽管TADbit在所有噪音水平上表现的更高精度(图13a)。这一结论同样适用于在模拟嵌套TAD层次结构时只不过TADtree被专门设计用于识别嵌套结构,因此在嵌套TAD情况中可能会更好些。


图13.不同软件在模拟数据中表现


 

四、结论

 

在讨论部分,作者认为,没有一种算法可被用于作为识别染色质相互作用的金标准独立于数据分辨率,方法的选择影响交互数据及其特征。

 

loop calling方面


1. 同一数据中一个技术重复鉴定的loop很难在其他技术重复中重现。而这可能与细胞的异质性决定的。而在高精度的数据中,HiCCUPS具有最高的保守性,在低精度数据中GOTHiC具有最高的可重现性。

 

2. 即使受限于可重现性,所有方法鉴定得到的loop依然是有意义可比较的。loop富集了具有统计学意义的启动子-增强子互作,而只有极少部分的loop是聚类到无法用生物学概念解释的那部分。

 

3. valid pair 数据量增加能增加loop的可重现性和鉴定的loop的数量。

 

4. HOMERHiCCUPS则能获得更比例的具有生物学意义的互作虽然 HiCCUPS的识别潜力仅在非常高分辨率的数据集分析中才能发挥的淋漓尽致。

 

 

TAD calling 方面

 

1. 尽管没有一种单独的方法所有境遇中技压群雄TAD工具在方法学上较互作的工具要成熟的多,所有的TAD 识别工具中,TADbitArmatusTADtree实验和模拟数据中的大多数分辨率条件下具有稳定的表现


2. 在实际数据中HiCseg软件具有最高的可重现性,但是在模拟数据中随着噪音增加,其性能显著下降。


3. 不同软件calling得到的TAD边界均有结构蛋白的富集。

 

文章提到实际数据和模拟的数据中,调和两个之间的差异是很困难的,特别是针对互作的鉴定软件,这可能是由于设计具有预定义特征HiC数据策略复杂性导致的虽然在对于聚合物折叠建模生物物理学中具有几种有前景的建模方法,但迄今还未提出任何算法可完全模拟Hi-C数据中的真实分布和偏好性合成数据的易用性对于合理调整任何算法参数而言都是必不可少的,因此这限制了在选择固有的启发式算法的最佳选择。


表2.各软件的下载地址


参考文献

Forcato M, Nicoletti C, Pal K, et al. Comparison of computational methods for Hi-C data analysis[J]. Nature Methods, 2017, 14(7):679.

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
一篇文章学会ChIP-seq分析(上)
研究揭示人类大脑进化的基因组调控机制
如何从Hi-C数据中快速分析影响疾病的DNA结构?
一文读懂3D基因组之Hi-C及其数据处理
走近Hi-C数据分析,解密染色质三维结构
GTRD:最全面的人和小鼠转录因子chip_seq数据库
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服