打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
在不同细胞环境中使用染色质特征模拟基因表达

Genome Biology

2012 Jun 13

IF:13.583

01

Introduction

    基因表达是指以时空方式产生特定数量的基因产物的过程。它在许多步骤中都受到高度调控,包括转录调控、剪接、末端修饰、输出和降解。转录调控可以在遗传和表观遗传水平上发生。在这里,我们将遗传调节定义为基因和转录因子之间的直接或间接相互作用,表观遗传调节是通过染色质的化学修饰改变转录因子对DNA的可及性。

    在组蛋白的氨基末端发生了几种翻译后修饰,如甲基化、乙酰化和磷酸化。这些修饰可以通过招募其他酶复合体来改变染色质的结构和功能。已经有人提出,这些组蛋白修饰可以组合地发生,形成被其他蛋白质读取的组蛋白密码,从而引起各种下游事件,如转录。组蛋白修饰已被证明参与转录的激活和抑制。早期关于个体修饰的研究报告了它们在转录调控中的功能。

    Wang等人,系统分析了人类CD4 T细胞中的39种组蛋白修饰,发现组蛋白乙酰化与基因表达呈正相关,与其在转录激活中的作用一致。通过对组蛋白修饰模式进行分类,他们还发现,表达最低的类含有H3K27me3,但没有乙酰化,表达中等的类含有H3K36me3,17个修饰的修饰网络,或修饰网络 H4K16ac,表达最高的类除了修饰网络外,还含有H2BK5me1,H4K16ac,H4K20me1,H3K79me1/2/3。组蛋白修饰和表达之间的相关性也在酵母和拟南芥中发现。使用与Wang等人相同的数据集,研究出了使用组蛋白修饰来预测基因表达的定量模型,并表明它们具有很好的相关性。程等人,从modENCODE蠕虫数据中建立支持向量机模型,并将其应用于人类K562细胞和小鼠胚胎干细胞,取得了良好的性能(皮尔逊相关系数(PCC)r=0.73和0.74)。这两项研究都成功地量化了组蛋白修饰和基因表达之间的关系。然而,由于这些研究中使用的人类数据集有限(例如,只有一个细胞系和/或没有关于RNA类型的信息),这种关系是否在其他细胞环境中仍然成立,在很大程度上仍然是未知的。

    在这里,我们利用来自ENCODE项目的丰富的数据集来进一步研究这种关系。我们在7个人类细胞系中分析了11个组蛋白修饰、1个组蛋白变体和DNase I超敏反应的全基因组定位,对于每个细胞系,ENCODE成员使用不同的方法从不同的细胞隔间(例如,全细胞、核、胞浆)提取RNA(例如,PolA 、PolA-),并使用各种技术(CAGE)、RNA配对末端标签(RNA-PET)测序和RNA-Seq来测量它们的水平,从而为我们研究染色质特征与不同细胞环境下基因表达之间的关系提供了一个很好的平台。我们着手回答以下问题。首先,我们能重现基因表达水平和组蛋白修饰之间的定量关系吗?第二,这种关系是否存在于不同的人类细胞系和不同的基因组之间?第三,如果是这样,最具预测性的染色质特征是否会因所使用的表达量化技术而有所不同?第四,也是更有趣的是,染色质特征能否很好地预测来自不同细胞隔间的RNA和/或通过不同方法提取的RNA的表达水平(例如Polya 与Polya-)?

    为了解决这些问题,我们推出了一个新的两步定量模型,将测量的基因表达水平与组蛋白修饰水平关联起来。我们的模型不仅证实了先前研究中显示的组蛋白修饰和转录水平之间的一般关系,而且还表明,当使用不同的技术来量化表达时,相关强度和最具预测性的染色质特征会发生变化。例如,CAGE定量的转录本被H3K4me3等启动子标记更好地预测,而H3K79me2和H3K36me3等结构标记更好地预测RNA-Seq测量的转录本。与以前的研究一致,低CpG基因比高CpG基因更难预测,这两组基因在预测染色质特征方面有所不同。这项研究还显示了以前未知的结果,如Polya RNA比Polya-RNA更可预测,并且对于基于RNA-Seq的测量,胞质RNA比核RNA对Polya 更可预测,而对于Polya-则相反。总之,使用来自ENCODE项目的丰富数据,我们的分析不仅通过一个强大的模型证实了染色质特征和基因表达之间的定量关系,而且通过比较该模型在不同细胞环境中的表现,进一步提供了对这种关系的更全面和更准确的看法。

02


Results

1.建立染色质特征与转录水平关联的新定量模型

    基因表达水平以两种形式进行量化:RNA-Seq用于量化基于转录本(TX)的表达水平;GAGE和RNA-PET的5'标签用于捕获基于转录起始位点(TSS)的表达水平。因此,CAGE很好地捕捉到基因的转录起始(即鉴定转录起始位点),而RNA-Seq描述了转录延伸。为了进行比较,我们还通过对共享相同TSS的转录本的RNA-Seq量化进行求和,得出了基于TSS的表达水平。

    以前的研究使用TSS侧翼区域(TSS周围的[-2k, 2k])的平均信号来估计基因的组蛋白修饰水平。然而,这种策略可能导致偏差,因为修饰标记沿基因有不同的密度分布,例如,H3K4me3和H3K36me3分别在5'和3’端达到峰值。为了更好地估计每个染色质特征的代表性信号,我们遵循程等人的方法,将特定的遗传区域划分为bins。并搜索显示染色质特征信号与表达水平之间最佳相关性的一个或多个bin,即'Best bin’。使用所有基因的三分之一(D1)确定best bin,并将其应用于其余三分之二的基因(D2)以进行进一步分析

    我们使用了一个两步模型来确定染色质特征和表达水平之间的相关性(图1),简而言之,我们首先将基因i处的染色质特征j的归一化标签tag(记为xij)转换为对数标度log2(Xij)。然后,我们使用剩余数据集D2上的每个染色质特征的log2(xij aj)(这里的aj是为了 防止出现底数为0的情况)来建立预测对数比例的表达式值log2(Yi)的模型。我们在D2上执行了十次交叉验证,以验证相关性不是特定于数据子集的。考虑到数据的结构,我们首先训练一个随机森林分类器C(X)来区分非零(ON)基因和表达水平为0(OFF)的基因,并在训练集中的非零基因上训练一个回归R(X),然后将C(X)*R(X)应用于测试集。除了线性回归模型外,我们还采用了多元自适应回归样条线(MARS)和随机森林等非线性模型作为回归变量。然后计算总的实测值和预测值之间的皮尔逊相关系数(R)和归一化均方根误差(RMSE)以评估相关性。我们的模型显示了基于TSS和基于TX的数据的染色质特征和表达水平之间的良好相关性。

    图2a显示了一个例子,其中CAGE对来自K562细胞的长胞浆PolyA RNA进行了分析,结果显示总体预测准确率很高,PCC r=0.9,P值<2.2×10-16。请注意,许多基因(图2a中约6,000个)的表达水平为零,并被正确地归类为未表达。我们还测量了染色质特征对于分类和回归的准确性和重要性。我们正确地将90.44%的基因分类为'ON’和'OFF’类别(ROC曲线下的面积(AUC)=0.95),并获得回归'ON’基因的PCC r=0.77和RMSE=2.30。

    除了对数变换外,我们还使用RANKIT变换将表达式值转换为排名的“正常分数”,这消除了伪计数(即上述的aj)的需要。我们仍然看到预测和测量的正常分数之间存在显著的相关性(r=0.86,RMSE=0.71)。除了线性回归模型,我们还使用了另外两个多变量回归模型(MARS和随机森林),它们自动对非线性建模。这三种方法显示了相似的预测精度,因此我们选择了最简单的线性模型来进行其余的分析。我们还使用了随机抽样方法,以确保预测精度稳定且不受样本大小的影响。我们确定了每个特征对于预测表达数据集的相对重要性。我们观察到,组蛋白修饰如H3K9ac和H3K4me3在识别'ON’或'OFF’基因方面更重要,而组蛋白修饰如H3K79me2和H3K36me3对于表达基因的回归更重要(图2b)。

    我们总结了实验中7个人类细胞系的78个RNA表达实验得到的预测表达值与测量值的相关系数(图2c),它表明,大多数实验表明,基于TSS的CAGE和基于RNA-PET和TX的RNA-Seq技术预测的表达水平与测量的表达水平之间存在很强的相关性(中值r=0.83)。在剩下的部分中,我们将根据测量表达、细胞系、染色质特征的类型、TSS的类型和细胞隔间的技术来分析我们的模型的性能。

2.不同表达测量技术的比较

    由于副本之间的高度相关性,我们将同一样本中的多个副本合并到一个数据集中。合并后,CAGE、RNA-PET和RNA-Seq类别中分别共有39、14和45个表达数据集。在98个实验中,有78个是从整个细胞、胞浆或细胞核中提取的PolA 或Polya-RNA。我们首先比较了这三种不同技术测量的表达水平。通过将来自七个细胞系的Long Polya RNA测量结果与每个细胞系三个细胞室的测量结果进行聚类,我们看到,使用相同技术的实验倾向于分组在一起,并且RNA-Seq是CAGE和RNA-PET的外组(图3a),然而,对于从同一细胞系提取的RNA,RNA-Seq的表达与CAGE和RNA-PET的表达呈正相关。

    当只考虑单转录基因时,相关性增加。对同一细胞系中不同细胞隔间的RNA的评估表明,整个细胞提取的RNA比核RNA更类似于胞质RNA(图3a)。这可能是由于Poly(A)尾巴的存在,它帮助从细胞核输出mRNA,并提供保护,防止细胞质降解。我们将我们的模型应用于每个数据集,以确定预测精度,即预测表达水平和测量表达水平之间的相关性。为了比较这些不同表达数据集的预测精度,我们将来自相同高通量技术的所有Polya 实验分组,图3b显示了相关系数的分布。我们看到,模型很好地预测了三种技术测量的表达(中值r范围从0.79到0.88),尽管平均而言,CAGE的表达预测要好于RNA-PET或RNA-Seq(图3b)。我们还观察到,对于所有基因(图3b)以及仅对单转录基因(数据未显示),基于TSS和基于TX的RNA-Seq量化具有类似的性能(中值r分别为0.80和0.79),这表明RNA-Seq的较低预测性并不是由于共享相同TSS的多个转录本。在随后的分析中,我们只使用RNA-Seq数据进行基于TX的表达分析。

3.染色质特征可预测不同ENCODE人类细胞系的基因表达

    然后,我们比较了不同的细胞系,看看一些细胞系中的染色质特征是否比其他细胞系中的染色质特征更能预测基因表达。图4a展示了7个细胞系的PCCs,包括基于TSS的CAGE数据和基于Tx的RNA-Seq数据,平均相关系数为0.8。这表明我们的模型在通过不同细胞系中染色质特征信号来预测基因表达方面是有效的。

    为了进一步探索这些模型是否可以在不同的细胞系中推广,我们将在一个细胞系中训练的模型应用于其他细胞系,使用这些细胞系中染色质特征的值作为模型的输入,以确定预测精度是否发生了显著变化。图4b显示了这种跨细胞系预测的一个例子,其中我们从CAGE测量的K562细胞的PolA 胞浆RNA中学习了一个预测模型,并将其应用于CAGE测量的来自其他四个细胞系的PolA 胞浆RNA。对GM12878、H1-hESC、HeLa-S3和NHEK细胞株的预测准确率仍然较高,r分别为0.82、0.86、0.87和0.84。这些结果表明,我们的模型准确地捕捉到了各种染色质特征之间的关系,并且广泛适用于预测所有细胞系的表达。

    尽管这些模型对不同的细胞系工作得很好,但我们观察到,在预测基于RNA-Seq的实验方面,H1-hESC细胞比其他六个细胞系的相关性相对较弱,这与基于CAGE的实验不同,在CAGE的实验中,所有七个细胞系都具有同样高的相关性(图4a)。这可能是由于未分化干细胞和定型细胞在转录组特征上的差异。转录暂停(即启动,但没有延伸)是细胞从未分化状态变化到承诺状态时,在最终激活和沉默之间的一种必要的过渡状态。一项比较小鼠胚胎干细胞和小鼠胚胎成纤维细胞的研究也表明,在分化过程中,许多基因离开暂停状态而进入伸长状态。虽然我们的模型不能直接基于分化将h1-hESC与其他细胞系进行比较,但我们的结果与以下观察结果一致:h1-hESC中的许多基因发生了转录终止,因此更准确地被CAGE捕获,而避免被RNA-Seq完全捕获。

4.转录起始和延伸通过不同的染色质特征集来反映

    除了确定对单个表达数据集贡献最大的染色质特征(如图2B所示)外,我们还想确定不同类型的染色质特征是否在预测GAGE测量的RNA、多腺化RNA和来自特定细胞间隔的RNA方面贡献最大。根据已知的基因调控功能,我们将11个组蛋白标记和1个组蛋白变体分为4类,即H3K4me2、H3K4me3、H2A.Z、H3K9ac和H3K27ac作为启动子标记,H3K36me3和H3K79me2作为结构标记,H3K27me3和H3K9me3作为抑制标记,H3K4me1、H4K20me1和H3K9me1作为远端/其他标记。我们可以通过这些类别或者类别的组合(例如启动子标记和结构标记组合)来预测准确率。通过比较每个类别的标记或两个类别的组合的预测精度(图5),我们表明,对于基于CAGE TSS的基因表达,启动子标记是最具预测性的,而对于基于RNA-Seq TX的表达数据,结构标记是更好的预测者。对于CAGE测定的PolA 胞质RNA,启动子标记作为一个组具有很高的相关系数(中位数r=0.86)。启动子标记与另一类染色质特征相结合,可以提供同样高的预测精度。然而,非启动子标记类别的预测准确率较低(例如,仅结构标记的中位数r=0.84;仅抑制标记的中位数r=0.35)。另一方面,H3K79me2和H3K36me3等结构标记对RNA-Seq表达数据更具预测性。这是意料之中的,因为CAGE主要描述转录起始事件,而RNA-Seq捕获转录延伸。因此,我们的结果进一步证实了转录起始和延伸具有不同的染色质标记。我们注意到,开放染色质的一般指标DNase I超敏反应的相关系数显著低于启动子标记的相关系数(r=0.83,配对Wilcoxon检验P值=4×10-15)。

5.具有高CpG含量启动子的基因比具有LCP(低CpG含量)启动子的基因更容易预测

    先前的研究表明,CpG丰富的启动子与普遍表达的基因有关,而CpG贫乏(通常含有TATA)启动子与细胞类型特定的基因相关,并具有不同的组蛋白修饰模式。我们预计,基于ENCODE数据的染色质特征的预测能力在由高CpG含量启动子(Hcp)和低CpG含量启动子(LCP)驱动的基因之间会有所不同。为了验证这一点,我们根据基因在启动子区域的标准化CpG得分将基因分为两组,并将我们的模型应用于两组。结果表明模型在高CpG含量启动子(Hcp)基因中的预测能力要大于低CpG含量启动子(LCP)驱动的基因,

(median r = 0.8 for HCP versus 0.66 for LCP, P-value = 2.19 × 10-14; 图 6)与高通量技术或染色质特征类别无关。

    我们还研究了预测hcp和lcp基因表达是否需要不同的染色质特征。HCP基因最重要的染色质特征与所有基因的染色质特征相似(比较图6a和图2c),这与先前工作的发现一致。我们注意到,H3K79me2和H3K36me3是HCP基因和所以基因的最好的两个预测因子。启动子标记(图2c和6中的红色基团)对于CAGE和RNA-PET测量的转录本更重要,而结构标记(绿色基团)对于RNA-Seq测量的转录本更重要。引人注目的是,这种差异在LCP基因中变得更加显著了,H3K4me3和H3K9ac是CAGE和RNA-PET测量的转录本的最好的两个预测因子,而H3K36me3对RNA-Seq测量的转录本的预测要重要得多。同样,基于TX的RNA-Seq数据集允许我们沿着整个基因主体测量染色质特征信号,直到3'端,在那里像H3K36me3这样的结构标记被证明具有强烈的信号。这就解释了为什么H3K36me3是RNA-Seq表达的更重要的标记,而不是CAGE或RNA-PET。然而,目前还不清楚为什么LCP基因的差异如此之大。我们大胆地认为,LCP基因转录起始和伸长的调节是解偶联的,因此最能预测起始的染色质特征不能很好地预测伸长,反之亦然。

    由于LCP基因通常具有低表达水平,我们比较了高表达和低表达基因的可预测性,以确定最具预测性的染色质特征是否存在差异。根据CAGE测量的基因表达水平,将基因分成10个bins,并以一种累积的方式计算了预测准确性。结果表明,LCP基因的比例与表达水平呈负相关,证实了LCP基因中更多属于低表达基因。不同标记在不同基因亚群中的相对重要性也表明,结构标记如H3K79me2和H3K36me3在预测高表达基因方面更好,而启动子标记在添加低表达基因时变得更具预测性。这与我们之前的观察一致,即结构标记在预测hcp基因时更重要,而启动子标记在使用CAGE定量预测LCP基因时更重要(图6)。

03


Conclusion

    在这项研究中,我们开发了一个新的两步模型来研究染色质特征和基因表达之间的定量关系。我们总结了以前的发现,即组蛋白修饰可以预测基因表达,而HCP和LCP基因可以通过不同的组蛋白标记进行最佳预测。我们的模型普遍适用于多个细胞系,并导致了几个新的见解,包括:1)组蛋白修饰,如H3K9ac和H3K4me3,对于识别'ON’或'OFF’基因更重要,而组蛋白修饰,如H3K79me2和H3K36me3,对于表达基因的回归更重要;2)所有三种技术(CAGE,RNA-PET和RNA-Seq)测量的表达水平都被模型很好地预测(中位数r在0.79到0.88之间),平均而言,用CAGE测量的表达比用RNA-PET或RNA-Seq测量的表达更好地预测;3)启动子标记(例如,H3K4me2、H3K4me3、H2A.Z、H3K9ac和H3K27ac)对于基于CAGE的转录起始测量是最具预测性的,而像H3K79me2和H3K36me3这样的结构标记对RNA-Seq表达数据(可以测量转录延伸)更具预测性;4)染色质特征总体上比PolyARNA更好地预测Polya RNA;以及5)对于用RNAseq测量的不同细胞区室的表达水平,该模型预测来自主要功能区室(例如细胞质Polya RNA和细胞质Polya-RNA)的RNA比来自其他功能较低的区室(例如,核Polya RNA和细胞质Polya-RNA)的RNA更好。

Reference:

Modeling gene expression using chromatin features in various cellular contexts

PMID:22950368

DOI: 10.1186/gb-2012-13-9-r53

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
探索人类基因组“荒漠”中的秘密(图)
联合应用RNA
ncRNA系列(二)丨lncRNA生物标记
NAT REV GENET | 新生RNA分析:跟踪转录及其调控
ATAC-seq联合RNA-seq揭示衰老过程免疫系统变化特征
文献详解 | 如何利用数据库进行挖掘发表8+分SCI文章
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服