众所周知,肿瘤外显子是TCGA计划的6大数据之一,而TCGA数据库是目前最综合最全面的癌症病人相关组学数据库,包括:
- Protein Expression array (基本上不用)
- mRNA Sequencing(数据挖掘玩烂了的)
- Array-based Expression (基本上淘汰了)
- Copy Number array(会跟肿瘤外显子重叠的生物学意义)
知名的肿瘤研究机构都有着自己的TCGA数据库探索工具,比如:
- Broad Institute FireBrowse portal, The Broad Institute
- cBioPortal for Cancer Genomics, Memorial Sloan-Kettering Cancer Center
我们也针对TCGA数据库写了大量的笔记,包括:
也就是说,任意癌症,很容易在TCGA数据库下载到其肿瘤外显子队列的somatic突变信息,包括SNV和CNV,这样的话,除非大家感兴趣的疾病并不在TCGA数据库里面,或者说具有其它特殊性(比如人种),否则都不建议继续设计这样的简单的课题了。
而且肿瘤外显子价格也不便宜,数据分析也对绝大部分初学者来说不友好。在全新服务器配置肿瘤外显子数据处理环境。流程步骤:
- 获取fastq文件(aspera从ebi的ena数据库下载,prefetch从ncbi的sra数据库下载,自己测序)
如果仅仅是为了得到队列的somatic突变信息,包括SNV和CNV,如果是样品数量太少了, 很难得到可以讲故事的点,课题就搁浅了。。。。
比如新加坡团队的2023发表的鼻咽癌文章:《Clinical efficacy and biomarker analysis of dual PD-1/CTLA-4 blockade in recurrent/ metastatic EBV-associated nasopharyngeal carcinoma》,就是有一个肿瘤外显子队列,样品数量很少:
- To determine the genomic landscape, identify active mutational signatures, and explore the utility of tumor mutation burden (TMB) as a biomarker of response, whole-exome sequencing was performed on available tissue and matched blood normal (n = 20).
因为早期已经是有了七八个鼻咽癌的肿瘤外显子队列文章,这样的话,他们的这个数据分析得到的结论基本上没有什么新颖之处:
- mutational landscape of these tumors was generally bland with a median TMB of 0.75 mut/Mb (range: 0.04–14.56), corroborating previous reports
- The most frequently mutated genes included TP53, FAM135B, COL3A1 and EP300
- The most common mutational signatures were Cosmic signatures SBS5 and SBS40
也就是说,仅仅是看了看somatic突变信息里面的SNV,这些分析我们五年前就都系统性梳理过:
样品数量为多少的肿瘤外显子队列合适呢?
其实回答这个问题并没有意义,样品数量当然是越多越好,但是绝大部分情况下都需要考虑经济情况,没有经费没有病人样品,说什么都没有用。
哪怕是队列纳入的样品数量再小,也是可以得到队列的somatic突变信息,包括SNV和CNV,绘制突变全景图,看突变特征频谱等等。
较小的样本规模可能在特定情况下满足研究需求,但较大的样本规模通常可以提供更全面和可靠的结果。同时,样本数量的选择也要考虑实验设计的合理性,例如是否包含对照组和实验组、是否涵盖不同的肿瘤类型和临床分期等。最终的决定应该根据具体研究问题和实验条件进行权衡。对于肿瘤外显子测序研究,样品数量的选择需要综合考虑以下几个因素:
- 研究目标和问题:如果研究目标是寻找罕见的突变或特定的基因变异,样品数量可以相对较少。但如果研究目标是探究广泛的基因变异和复杂的肿瘤异质性,样品数量应该相对较多。
- 统计分析的可靠性:样品数量越多,统计分析的可靠性越高。较大的样本规模可以提高对差异表达基因、突变等变异的检测能力,减少偶然性的影响。
- 实验成本和资源:样品数量的增加会带来实验成本和资源的增加。需要根据实验经费和实验室资源来平衡样品数量和研究目标。
- 统计分析要求:某些复杂的统计分析方法,如生存分析、群落分析等,可能对较大的样本规模有更高的要求。
- 公共数据库数据的可用性:如果可以结合公共数据库的数据,样品数量可以适当减少。
文末友情宣传
强烈建议你推荐给身边的博士后以及年轻生物学PI,多一点数据认知,让他们的科研上一个台阶:
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请
点击举报。