几乎不提供任何有用信息的肿瘤外显子你还做吗

众所周知，肿瘤外显子是TCGA计划的6大数据之一，而TCGA数据库是目前最综合最全面的癌症病人相关组学数据库，包括：

DNA Sequencing（主要是肿瘤外显子）
miRNA Sequencing（很小众）
Protein Expression array （基本上不用）
mRNA Sequencing（数据挖掘玩烂了的）
Array-based Expression （基本上淘汰了）
DNA Methylation （也是有点小众）
Copy Number array（会跟肿瘤外显子重叠的生物学意义）

知名的肿瘤研究机构都有着自己的TCGA数据库探索工具，比如：

Broad Institute FireBrowse portal, The Broad Institute
cBioPortal for Cancer Genomics, Memorial Sloan-Kettering Cancer Center

我们也针对TCGA数据库写了大量的笔记，包括：

也就是说，任意癌症，很容易在TCGA数据库下载到其肿瘤外显子队列的somatic突变信息，包括SNV和CNV，这样的话，除非大家感兴趣的疾病并不在TCGA数据库里面，或者说具有其它特殊性（比如人种），否则都不建议继续设计这样的简单的课题了。

而且肿瘤外显子价格也不便宜，数据分析也对绝大部分初学者来说不友好。在全新服务器配置肿瘤外显子数据处理环境。流程步骤：

获取fastq文件（aspera从ebi的ena数据库下载，prefetch从ncbi的sra数据库下载，自己测序）
fastqc+trim-galore 质量控制
baw的比对
GATK工具套件一站式处理
mutect2看配对样品的somatic突变
CNVkit2看配对样品的拷贝数变异
其它

如果仅仅是为了得到队列的somatic突变信息，包括SNV和CNV，如果是样品数量太少了，很难得到可以讲故事的点，课题就搁浅了。。。。

比如新加坡团队的2023发表的鼻咽癌文章：《Clinical efficacy and biomarker analysis of dual PD-1/CTLA-4 blockade in recurrent/ metastatic EBV-associated nasopharyngeal carcinoma》，就是有一个肿瘤外显子队列，样品数量很少：

To determine the genomic landscape, identify active mutational signatures, and explore the utility of tumor mutation burden (TMB) as a biomarker of response, whole-exome sequencing was performed on available tissue and matched blood normal (n = 20).

因为早期已经是有了七八个鼻咽癌的肿瘤外显子队列文章，这样的话，他们的这个数据分析得到的结论基本上没有什么新颖之处：

mutational landscape of these tumors was generally bland with a median TMB of 0.75 mut/Mb (range: 0.04–14.56), corroborating previous reports
The most frequently mutated genes included TP53, FAM135B, COL3A1 and EP300

突变全景图

The most common mutational signatures were Cosmic signatures SBS5 and SBS40

突变特征

也就是说，仅仅是看了看somatic突变信息里面的SNV，这些分析我们五年前就都系统性梳理过：

样品数量为多少的肿瘤外显子队列合适呢？

其实回答这个问题并没有意义，样品数量当然是越多越好，但是绝大部分情况下都需要考虑经济情况，没有经费没有病人样品，说什么都没有用。

哪怕是队列纳入的样品数量再小，也是可以得到队列的somatic突变信息，包括SNV和CNV，绘制突变全景图，看突变特征频谱等等。

较小的样本规模可能在特定情况下满足研究需求，但较大的样本规模通常可以提供更全面和可靠的结果。同时，样本数量的选择也要考虑实验设计的合理性，例如是否包含对照组和实验组、是否涵盖不同的肿瘤类型和临床分期等。最终的决定应该根据具体研究问题和实验条件进行权衡。对于肿瘤外显子测序研究，样品数量的选择需要综合考虑以下几个因素：

研究目标和问题：如果研究目标是寻找罕见的突变或特定的基因变异，样品数量可以相对较少。但如果研究目标是探究广泛的基因变异和复杂的肿瘤异质性，样品数量应该相对较多。
统计分析的可靠性：样品数量越多，统计分析的可靠性越高。较大的样本规模可以提高对差异表达基因、突变等变异的检测能力，减少偶然性的影响。
实验成本和资源：样品数量的增加会带来实验成本和资源的增加。需要根据实验经费和实验室资源来平衡样品数量和研究目标。
统计分析要求：某些复杂的统计分析方法，如生存分析、群落分析等，可能对较大的样本规模有更高的要求。
公共数据库数据的可用性：如果可以结合公共数据库的数据，样品数量可以适当减少。

文末友情宣传

强烈建议你推荐给身边的博士后以及年轻生物学PI，多一点数据认知，让他们的科研上一个台阶：

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。