打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
解密Hi-C数据分析中的分辨率

Hi-C基于传统的染色质构象捕获技术,在DNA连接时引入生物素标记分子,标记交联的染色质,然后富集带有生物素标记的junction reads,  再结合高通量测序和下游的生物信息学分析,可以在全基因组范围内研究染色质的空间互作关系。

在Hi-C文库中,我们得到的是互作染色质形成的junciton reads, 通过将这些reads 比对到参考基因组之后,可以分析染色质之间的互作。以下图为例

图中蓝色和红色对应的染色质区域有互作,黑色和黄色对应的染色质区域有互作,在对应的Hi-C文库中,我们可以得到如下所示的junction reads

将这些reads正确比对到参考基因组上之后,就可以确定对应的染色质区域之间存在互作,而对应的junction reads的数目越多,则代表两个区域交互作用发生的频率越高。

对于所有区域的互作信息,通常会用一个交互矩阵interaction matirx来表示,该矩阵是一个方阵,每一行或者列都代表一个染色质区域,方格的颜色代表代表两个区域交互作用的强弱,示意如下

在构建矩阵的过程中,我们首先需要确定每一行代表的染色质区域的范围,互作的片段是通过酶切来得到的, 理论上存在10的11方种唯一的酶切片段。如果想要精确分析所有酶切片段之间的交互,首先需要足够的测序深度,涵盖所有类型的酶切片段,这就要求非常庞大的测序数据量,其次对于如此庞大的交互矩阵,数数据分析阶段对于计算资源的消耗也是一个天文数字。

为了有效利用Hi-C文库中的信息,科学家提出了binning的概念,将基因组划分为等长的窗口,这样的窗口称之为bin, 利用窗口内reads的分布来研究不同窗口之间的互作关系。这样的处理相比最原始,最直接的染色质互作数据,其分辨率确实是有一定程度的丢失,但是基于全基因组范围,仍然能够挖掘出很多有效信息。

bin窗口的长度称之为分辨率。如果分辨率为1Mb,  以人类基因组为例,在交互矩阵中会有3000左右的行。bin窗口的长度越小,则基因组区域的划分越细致,对于染色质三维构象的研究的就越精细。

不同分辨率对于测序量的要求不同,适用的场景也不同。基于不同分辨率的Hi-C数据,陆续发现了A/B  compartments, TAD拓扑结构域,染色质环等空间结构。

·end·

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
Hi-C升级一小步,产品优化一大步
RiceENCODE:水稻多元表观基因组数据库
DNA荧光原位杂交(FISH)简要综述
Hi-C系列一:实验原理及质控
带你读懂ChIP-seq的优点和局限
SCIENCE | 单细胞的三维基因组结构(IF=41.037)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服