打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
对方向扔了一个赤果果的生信分析SCI思路

文章2017年发表在Oncotarget上(虽然已经牺牲了),但是我们可以取其精华呀,只要还有值得我们学习的地方,我们就挖掘出来。

 

摘要部分看完大概知道文章找了些结直肠癌中差异的上百了lncRNA,后来从中缩小到了8个lncRNA,然后弄了一个基于SVM的风险分类模型来区分早期结直肠癌中的高风险病人,然后还做了通路富集分析啦。

首先用第一个数据集GSE37892做了差异分析(分组是early stage Vs. advanced stage),找到几百个差异lncRNA,然后分层聚类分析下,明显分层两类,虽然有点点小瑕疵,效果还算不错。

然后顺便比较了用差异基因分出的两组病人的生存分析(kaplan-meier),这种结果根本不用想肯定会比较好啦,用差异基因分出来的组,几乎就是在做advanced stage跟early stage组的生存率比较,不符合才怪呢。总不可能就用上百个基因这么去分类吧,因此接下来作者用随机森林(random forest supervised classification algorithm)算法做了降维处理(有个R包可以做啦),筛选了8个lncRNA。

列下这8个lncRNA的大概信息,然后用这8个lncRNA来聚类看下:

同样是聚类热图加生存分析比较,发现用8个lncRNA也能分开,而且也不错,同样的比较两Cluster的生存情况,当然结果还是不错啦。

然后还是在这个Training 数据集,作者将这8个biomarker放到一个基于SVM的风险分类模型,做了ROC曲线,AUC非常高,当然生存分析比较还是很好滴。

接下来要用外部数据集验证下了,称为Testing数据集,发现聚类结果还勉强吧,同样的ROC曲线评估下,AUC其实不是太好,但是还算勉强吧,这里同样可以有个两组的生存分析比较。

然后就是我们的老朋友DAVID做了功能富集分析。

作者找了跟这8个lncRNA表达相关的mRNA做富集,认为这些是与8个lncRNA相关的研究通路,然后就没有然后了,大家都去研究吧,它们很重要。

 

总的来讲文章的思路可以说简单粗暴了,比如我们是不是可以找更大的数据集来验证呢?既然是做肿瘤为何不用TCGA数据库辅助呢,还可以探索这8个lncRNA与其它临床信息的关联呀。内容分享完了,希望对大家有帮助!

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
手把手教你用lncRNA预后模型发5分文章
细述ceRNA网络研究思路
TCGA数据分析ceRNA的套路
又一国产高分数据库,堪称lncRNA神器
​ Lnc2Cancer:肿瘤相关lncRNA数据库
3~5分生信数据挖掘文章也能灌水吗?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服