打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
8分纯生信miRNA预测模型套路大曝光

现在,ceRNA,预测模型,WGCNA,预后分析等等已经成为生信入门级别的套路了,大多数纯生信的文章可能如今只能发2-3分的文章了。

最近,小编发现一篇非常熟悉的套路文章——miRNA预测模型,竟然是2020年7月份[IF:8.579]的。非常惊讶!接下来就好好解析这篇文章,看是否能学习到其中的奥秘呢?

原文链接:
https://www.thno.org/v10p8771.htm

文章背景
三阴性乳腺癌(TNBC)是目前复发率最高、生存期最短的乳腺癌。并且,由于缺乏有效的治疗靶点,TNBC的治疗策略仅限于手术,化疗和放疗。因此,迫切需要一种优于TNM分期系统的风险评估方法来预测术后的复发率,改善患者预后价值。

本文通过从癌症基因组图谱(TCGA)数据库和GEO数据库中获得癌症患者的miRNA数据和临床信息,通过Logistic回归和高斯混合分析建立8-miRNA预测模型,并进一步利用验证数据集来验证预测模型的准确性。

文献内容

1
 研究对象
数据集:TCGA,GEO

下载TCGA_BRCA的miRNA数据,其中包括117名患者,637名正常人;

从GSE40525下载miRNA数据,其中包括

验证数据集:GSE40049,GSE19783,E-MTAB-1989

2
差异分析

通过癌症组织和癌旁组织分组求取差异基因,以P<0.05,FDR<0.05为标准筛选差异基因。结果显示:分别从TCGA_TNBC,GSE40525中得到109,44个DEmiRNAs。并通过取交集的方式,求出共同的10个DEmiRNAs,分别是miR-139-5p、miR-10b-5p、miR-486-5p、miR-455-3p、miR-107、miR-146b-5p、miR-17-5p、miR-324-5p、miR-20a-5p和miR-142-3p(图1A-B)。

同时,在TCGA,GEO中,10个候选miRNAs水平在癌症与癌旁组织中的差异均有统计学意义(图1C-D)。

 图1 10个候选miRNA在TCGA_TNBC和GSE40525数据集的差异表达

3
TNBC复发预测模型建立
运用高斯混合模型对10个miRNA进行聚类分析,并且通过Logistic回归模型,ROC曲线计算出对应的AUC值。

结果显示,一共将基因聚类到8个聚类中,并且选取最高AUC值的第八个聚类作为TNBC复发的预测模型,其包括8个miRNAs(hsa-miR-139-5p, hsa-miR-107, hsa-miR-486-5p, hsa- miR-10b-5p, hsa-miR-146b-5p, hsa-miR-455-3p, hsa-miR-20a-5p and hsa-miR-324-5p)(图2A)。

因乳腺癌按分子分型,分为luminal A型,luminal B型,HER2型,TNBC型。接下来计算预测模型在各分子分型中的AUC值。

结果显示,此复发预测模型在TNBC型中的AUC值仅为0.8,并且比其他分子分型的要低(图2B)。

 图2 logistic回归模型和AUC值结果

4
TCGA中预测模型的验证
通过预测模型计算风险分数,风险分数=(0.02554× expression value of miR-139) + (-0.000005284× expression value of miR-10b) + (-0.0003305× expression value of miR-486) + (0.008664× expression value of miR-107) + (0.003201× expression value of miR-324) + (0.001031× expression value of miR-455) + (0.000474× expression value of miR-146b) + (-0.001575× expression value of miR-20a)。

取中位数1.602为截点分为低风险(n=56),高风险(n=55)两组(其中6个患者样本信息无OS和DFS,对其进行删除)(图3A-B)。并进行KM生存分析分别计算对应的总生存率与无病生存率。

结果显示,相比于低风险组,高风险组有更好的复发率和死亡率(图3C-D)。且预测模型的AUC值为0.8032,表明预测模型有较高的准确率,能显著提高预后价值(图3E)。

 图3 8-miRNA预测模型在111例TNBC患者中的预测价值
5
预测模型与临床特征的相关性
进一步采用KM分析方法确定模型中单独的miRNA与临床特征的关系。

结果显示:hsa-miR-486-5p, hsa-miR-455-3p,hsa-miR-107表达量在两组的总生存率中具有显著差异(图 4A-B);而只有hsa-miR-139-5p表达量在在两组的无病生存率中具有显著差异(图 5A-B)。

这些结果表明hsa-miR-139-5p的表达量和TNBC患者的复发率有关,hsa-miR-486-5p, hsa-miR-455-3p,hsa-miR-107表达量和TNBC患者的生存率有关。

进一步也计算了miRNA表达量对TNM分期的影响。

结果显示只有hsa-miR-139-5p表达量在肿瘤Ⅰ-Ⅱ期和Ⅲ-Ⅳ期间有显著差异,并且与淋巴转移,远处转移相关(图6)。

以上结果表明,hsa-miR-139-5p可能在TNBC的进展和转移中发挥重要作用。

 图4 8个miRNA的表达量对生存率的影响

 图5 8个miRNA的表达量对无病生存率的影响

 图6 8个miRNA的表达量对TNM分期的影响
6
富集分析
为了研究miRNAs与其功能之间的关系,作者进行了基于GO功能分析和Hallmark信号通路的GSEA富集分析。

GSEA结果发现模型相关的miRNA在炎症和癌症转移相关通路中发挥作用。而前10个GO通路均与淋巴细胞活化,细胞间黏附,质膜的外侧有关,这些也是与炎症反应,肿瘤进展高度相关(图7A-B)。

为了进一步确认与模型相关的生物学功能,将从miRTarBase得到靶向基因,将基因与模型放在一起确认他们的生物学功能。结果显示最显著的通路与免疫系统,细胞反应,基因表达,癌症和信号的转导有关(图7C-D)。

以上结果表明,预测模型与炎症和癌症转移密切相关。这一发现可能是由于免疫逃逸促进了肿瘤复发,因此相对于低风险的患者而言,高风险患者有更高的复发率和死亡率。

 图7 预测模型的富集分析图
7
GEO中预测模型的验证
验证数据集:GSE40049,GSE19783,E-MTAB-1989

先对数据集进行分组。GSE40049中以风险分数(中位数=-1.9938)分为高风险组(n=11)和低风险组(n=13)。GSE19783中以风险分数(中位数=-3371)分为高风险组(n=8)和低风险组(n=10)(图8A-B)。

然后通过KM生存分析发现,与低风险组相比,高风险组有更高的复发率(文中没有显示E-MTAB-1989的结果图)(图8C-D)。同时,验证数据集的AUC值为0.8961(GSE19783)和0.9062(GSE40049),而训练数据集的AUC值为0.8032(图8E)。

结论:8-miRNA预测模型有较高的准确性并能显著改善预后价值,且高风险组的复发率和死亡率高于低风险组。

 图8 预测模型的预测结果

总结
到了最后可以发现,这篇文章的套路还是十分友好的,换了任意一种癌症都可以模仿。那他为何能发如此高的文章呢?其实这篇文章的图标做的蛮漂亮的。并且虽然是纯生信文章,但两个数据库的应用,与临床信息的分析,最后的验证做得挺全的。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
点到就是赚到,一篇8.579的miRNA纯生信文章
三张图的miRNA简单分析如何发6分?
科研 | Human Reproduction:血浆miRNAs作为子宫内膜异位症生物标志物的研究
miRNA前体、miR-5p、miR-3p
文献之声|ceRNA芯片研究之胆管癌中lncRNA相关ceRNA调控网络的构建与研究
批量miRNA的靶基因预测,不用代码怎么实现?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服