打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
TCGA:转录因子和lncRNA调控网络识别肺腺癌的关键因素

医知圈


我们开发了一个基于网络的方法,整合体细胞突变,转录组,DNA甲基化和蛋白质 - DNA相互作用,揭示肺腺癌(LUAD)中的关键调节因子。通过将贝叶斯网络分析与组织特异性转录因子(TF)和靶向基因相互作用相结合,我们推断与LUAD相关的共表达基因模块中的15个疾病相关核心调节网络。通过靶基因集富集分析,我们确定了一组关键的转录因子,包括已知的可能调控疾病网络的癌基因。这些TFs在多种癌症相关途径中显着富集。具体来说,我们的研究结果表明,肝炎病毒可能有助于肺癌的发生,突出了进一步研究病毒在治疗肺癌中所扮演的角色的需求。此外,我们的研究还揭示了13种假定的调控性长非编码RNA(lncRNAs),其中包括3种已知与肺癌相关的调控性长链非编码RNA(lncRNAs)和9种新型lncRNAs。这些lncRNA及其靶基因表现出高的相互作用潜力,并表现出正常肺和LUAD组织之间显着的表达相关性。我们进一步扩展了我们的研究,包括16种固体组织肿瘤类型,并确定这些lncRNA中的大多数在多种癌症中具有推定的调节作用,少数表现出肺癌特异性调节。我们的研究提供了LUAD调控网络背景下转录因子和lncRNA调控的全面调查,并产生了对LUAD基础调控机制的新见解。我们的研究发现的新的关键调控元素为合理的药物设计和伴随的治疗策略提供了新的目标.

我们收集了540个RNA-seq,527个DNA甲基化和540个体细胞突变数据集供我们分析。从56个正常和484个LUAD组织样品产生RNA-seq数据。从TCGA数据入口下载原始读数和标准化基因表达(每百万转录本的百万分率片段)数据用于我们的研究。


  我们用差异表达分析(DEG)的原始读数和共表达模块发现的标准化数据。体细胞突变被Mutect2包调用。Methylumin Bioconductor软件包用于DNA甲基化数据处理的β值的归一化和计算。β值代表每个CpG位点甲基化探针强度与总体强度的比率。我们筛选出没有β值或没有CpG岛信息或在基因转录起始位点(TSS)上游或下游1kb以外发生的甲基化的甲基化样品。结果,保留了26个正常和420个肿瘤样品的446个DNA甲基化样品用于随后的分析。


1:差异分析

我们使用edgeR Bioconductor软件包[ 26 ]来进行基于RNA-seq数据的差异表达分析。采用倍数变化(FC)和错误发现率(FDR)作为选择差异表达基因的标准。排除中等表达水平小于0.5 FPKM(每千克转录本的片段)的转录物后,将| log 2(FC)>2| 选择> 0.5和FDR <>对于DNA甲基化,我们使用samr R软件包进行差异甲基化分析。


2:基因调控网络识别程序 

该程序包括共表达鉴定,通过转录因子(TF)靶标确定,贝叶斯分析和长非编码RNA(lncRNA) - 蛋白结合潜力。DNA甲基化分析被用来推断潜在的表观遗传学调控。DEGs:差异表达的基因。

   首先,我们基于RNA-seq表达谱使用加权相关网络分析(WGCNA)鉴定共表达模块。

  然后,进行贝叶斯网络分析以推断共表达模块中基因之间潜在的调控关系。我们使用了bnlearn R包来执行分析并测量网络中有向边的强度。然后,所有的边缘按照强度的降序排序,只有边缘等于75%的边缘被保留。此外,删除了连接未被共同表达确认的边缘。

基于TF和靶基因相互作用推断基因之间的其他调控关系。我们从四个主要数据库中下载了TFs,包括JASPAR ,AnimalTFDB 2.0 ,Regulatorycircuits 和转录调控元件数据库(TRED)下游靶基因是基于最近的基因调控研究而选择的,只有肺癌特异性的TF和靶标相互作用被用于网络构建如果转录因子及其靶基因在同一模块中呈现,则在两个基因节点之间添加有向边缘。每个基因模块含有蛋白质编码基因和lncRNAs。我们计算了结合分数来评估lncRNA和蛋白之间的潜在结合得分越高,lncRNA与蛋白质结合的可能性越大。只有等于或高于25的绑定分数(被认为是真实的绑定)才被保留。

DNA甲基化,可能是因为它阻断转录因子结合的启动子,被认为在抑制基因表达中起关键作用。已经观察到启动子中较高的DNA甲基化对应于相应基因的较低表达。因此,如果目标基因表达与其启动子中的DNA甲基化相关,则我们去除了TF和靶基因之间的边缘。我们应用自举法来评估网络对噪声的鲁棒性。在每次自举迭代中,我们从网络中随机删除2%的节点。然后,我们评估每个网络100次迭代后保留边的百分比(调节关系)。

驱动体细胞突变鉴定

来自LUAD患者的体细胞突变概况从TCGA数据门户获得。所有确定的体细胞突变合并成一个单一的VCF文件。然后,我们使用VAriants工具包的癌症相关分析(CRAVAT 4.3)来鉴定含有显着体细胞突变的基因。CRAVAT结合两个驱动突变预测因子CHASM 和VEST 来评估体细胞突变。无论是CHASM预测是基于随机森林模型,并产生p是被用来排名在LUAD的体细胞突变的意义-值。

基因富集分析

计算网络内外特定TF的目标基因的优势比。接下来,我们应用Fisher Exact Test来评估各个调控网络中目标基因富集的统计学显着性。我们应用DAVID [分析来评估调控网络中基因的途径富集。网络使用Cytoscape v3.4.0绘制


结果


肺腺癌多维基因组图谱的差异分析

从TCGA项目获得56个正常和484个肺腺癌组织样品产生的RNA-seq数据。差异表达分析得到6220个差异表达基因,其中包括5934个蛋白质编码基因和286个lncRNAs(| log 2(FC)|> 0.5和FDR <>我们还获得了来自同一患者队列的26个正常和420个肿瘤样品产生的DNA甲基化谱。差异甲基化分析显示1903和2992基因在其启动子区域分别具有正(高)和负(低) - 甲基化(q值≤0.0075和FDR <>我们发现了两个低表达的lncRNAs和281个蛋白质编码基因,其启动子甲基化水平升高。此外,基于相同的LUAD患者的体细胞突变概况,我们发现2835个基因含有至少一个显着的体细胞突变(FDR <>


 网络外的关键转录因子

我们进一步研究了在LUAD中表达水平没有显着变化的TFs; 然而,它们的下游靶标在疾病网络中显着丰富(p <>我们发现63例这种类型的TF在LUAD患者中也存在一个或多个体细胞突变(FDR <>功能分析提示63个TF在癌症相关途径中丰富,包括癌症转录失调,癌症途径,乙型肝炎,结直肠癌和胰腺癌(p调整<>

OncoPrint是cBioPortal提供的一个功能,cBioPortal是一个在癌症研究中广泛使用的网络工具将OncoPrints中报道的驱动突变与目标基因富集分析的结果偶联,我们鉴定了由TP53MGASOX9编码的九种关键转录因子ETV6GATA3NFE2L2RUNX1SMAD3SMAD4


网络中的关键转录因子 

a)总共95个TF在肺腺癌中表现出显着的表达水平改变,并且在同一网络中具有至少一个靶基因。b)46个主要交易所的渠道显着丰富。c)通过将46个关键TF与61个TF至少携带一个体细胞突变进行重叠来揭示9个常见TF。d)在肺腺癌(LUAD)中具有显着体细胞突变的61个TF显着富集的途径。HTLV-1:人类T淋巴细胞病毒1型。




关键lncRNA的调控


请你来打分,你应为这个文章影响因子能打多少分?



本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
长链非编码RNA/LncRNA的研究,读这一篇文章就足够了!
lncRNA,miRNA,TF的研究思路 – GCBI学院
神操作!5-10分的lncRNA-转录因子文章竟然是这么设计出来的!
有了这个数据库,我反手就是一批课题!
综述 | 斯坦福大学:大脑发育和疾病中不同的lncRNA机制
文献解析之通过干扰泛癌细胞中的微小RNA介导转录因子和靶基因
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服