打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
几乎不提供任何有用信息的肿瘤外显子你还做吗
userphoto

2023.07.19 广东

关注

众所周知,肿瘤外显子是TCGA计划的6大数据之一,而TCGA数据库是目前最综合最全面的癌症病人相关组学数据库,包括:

  • DNA Sequencing(主要是肿瘤外显子)
  • miRNA Sequencing(很小众)
  • Protein Expression array (基本上不用)
  • mRNA Sequencing(数据挖掘玩烂了的)
  • Array-based Expression (基本上淘汰了)
  • DNA Methylation (也是有点小众)
  • Copy Number array(会跟肿瘤外显子重叠的生物学意义)

知名的肿瘤研究机构都有着自己的TCGA数据库探索工具,比如:

  • Broad Institute FireBrowse portal, The Broad Institute
  • cBioPortal for Cancer Genomics, Memorial Sloan-Kettering Cancer Center

我们也针对TCGA数据库写了大量的笔记,包括:

也就是说,任意癌症,很容易在TCGA数据库下载到其肿瘤外显子队列的somatic突变信息,包括SNV和CNV,这样的话,除非大家感兴趣的疾病并不在TCGA数据库里面,或者说具有其它特殊性(比如人种),否则都不建议继续设计这样的简单的课题了。

而且肿瘤外显子价格也不便宜,数据分析也对绝大部分初学者来说不友好。在全新服务器配置肿瘤外显子数据处理环境。流程步骤:

  • 获取fastq文件(aspera从ebi的ena数据库下载,prefetch从ncbi的sra数据库下载,自己测序)
  • fastqc+trim-galore 质量控制
  • baw的比对
  • GATK工具套件一站式处理
  • mutect2看配对样品的somatic突变
  • CNVkit2看配对样品的拷贝数变异
  • 其它

如果仅仅是为了得到队列的somatic突变信息,包括SNV和CNV,如果是样品数量太少了, 很难得到可以讲故事的点,课题就搁浅了。。。。

比如新加坡团队的2023发表的鼻咽癌文章:《Clinical efficacy and biomarker analysis of dual PD-1/CTLA-4 blockade in recurrent/ metastatic EBV-associated nasopharyngeal carcinoma》,就是有一个肿瘤外显子队列,样品数量很少:

  • To determine the genomic landscape, identify active mutational signatures, and explore the utility of tumor mutation burden (TMB) as a biomarker of response, whole-exome sequencing was performed on available tissue and matched blood normal (n = 20).

因为早期已经是有了七八个鼻咽癌的肿瘤外显子队列文章,这样的话,他们的这个数据分析得到的结论基本上没有什么新颖之处:

  • mutational landscape of these tumors was generally bland with a median TMB of 0.75 mut/Mb (range: 0.04–14.56), corroborating previous reports
  • The most frequently mutated genes included TP53, FAM135B, COL3A1 and EP300
    • 突变全景图
  • The most common mutational signatures were Cosmic signatures SBS5 and SBS40
    • 突变特征

也就是说,仅仅是看了看somatic突变信息里面的SNV,这些分析我们五年前就都系统性梳理过:

样品数量为多少的肿瘤外显子队列合适呢?

其实回答这个问题并没有意义,样品数量当然是越多越好,但是绝大部分情况下都需要考虑经济情况,没有经费没有病人样品,说什么都没有用。

哪怕是队列纳入的样品数量再小,也是可以得到队列的somatic突变信息,包括SNV和CNV,绘制突变全景图,看突变特征频谱等等。

较小的样本规模可能在特定情况下满足研究需求,但较大的样本规模通常可以提供更全面和可靠的结果。同时,样本数量的选择也要考虑实验设计的合理性,例如是否包含对照组和实验组、是否涵盖不同的肿瘤类型和临床分期等。最终的决定应该根据具体研究问题和实验条件进行权衡。对于肿瘤外显子测序研究,样品数量的选择需要综合考虑以下几个因素:

  1. 研究目标和问题:如果研究目标是寻找罕见的突变或特定的基因变异,样品数量可以相对较少。但如果研究目标是探究广泛的基因变异和复杂的肿瘤异质性,样品数量应该相对较多。
  2. 统计分析的可靠性:样品数量越多,统计分析的可靠性越高。较大的样本规模可以提高对差异表达基因、突变等变异的检测能力,减少偶然性的影响。
  3. 实验成本和资源:样品数量的增加会带来实验成本和资源的增加。需要根据实验经费和实验室资源来平衡样品数量和研究目标。
  4. 统计分析要求:某些复杂的统计分析方法,如生存分析、群落分析等,可能对较大的样本规模有更高的要求。
  5. 公共数据库数据的可用性:如果可以结合公共数据库的数据,样品数量可以适当减少。

文末友情宣传

强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
嫌弃cosmic数据库的30个肿瘤突变signatures?
Clinical Cancer Research|肾癌驱动因素—拷贝数变异
18分1区期刊的生信,看看高手如何炒作概念
如何从TCGA数据库下载体细胞突变数据(somatic mutation)
文献解析一篇纯生信加转录组还能发到8分+,赶快来看!
基因学:大数据的大希望
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服