打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
荧光定量PCR中的数据统计和常见误区
2017-01-09

我们致力于为新一代病理工作者提供分子诊断技术,为病理医生与临床医生架起沟通的桥梁。

自1996年Applied Biosystems公司发明了荧光定量PCR后,基于此技术的各种应用在临床和科研领域不断的在扩展。这项技术已经由最初的高大上到了目前非常普及的程度,越来越多的实验室已经建立了荧光定量平台。我们一步步辛苦地喂老鼠,养细胞,提核酸,反转录,定量PCR后,最终得到了一堆看上去离散的Ct值。接下来要做的重要事情是:将数据合理地呈现出来,以支持我们文章的立题。

我们需要面对一系列问题:怎样量化和评价对照组和处理组的差异?“差异具有显著性”和“具有显著差异” 是一回事吗?到底该用哪个表述? “生理学差异(physiologicsignificance)”和“统计学差异(statistical significance)”之间是什么关系?检测类型选单侧or双侧,配对or非配对?

对于一个生物学背景的你,是不是感觉有些隐隐头痛?翻看传统统计学课本,也找不到针对荧光定量PCR数据如何统计的具体章节。没关系!通过下面的图文,上述问题会一步步明朗起来,妈妈再也不用担心我的数据统计了。以研究基因表达差异的相对定量为例,目前常用的方法是KJ Livak(Applied Biosystems)等人在2001年提出的“比较Ct法相对定量”。这种方法利用ΔCt值差异来推算基因表达差异(Ct目的基因 – Ct内参基因 = ΔCt),已广泛被学术界接受,目前文章引用已经多达60720次。


其中的计算原理和方法,网络上的介绍非常多,不再赘述。我们重点来看结果如何统计:在相对定量的最终结果中,我们通常会得到样本间的表达差异倍数(Fold change),比如Treated组相对于Control组的基因表达倍数:


1. 差异如何表示? 

那么问题来了,Treated组相对Control组的差异如何来定义呢?

首先,我们需要考虑的是生理学上的差异(physiologic significance)。例如,通常对于基因表达来说,两倍以内的差异被认为是生物学意义不明显的。

其次,由于随机误差的普遍存在,我们也需要考量误差对实验结果的影响,即我们得到的看上去完美的倍数差异,有没有可能不是我们的实验处理造成的,而是随机误差造成的。这时候我们就需要衡量统计学差异(statistical  significance)。

我们可以提出假设(hypothesis test),客观上存在两种可能情况:1,我们的这种结果是由于随机误差偶然造成的。2,结果是由实验处理真实客观造成的。那么这两种情况一定会存在各自发生的概率,我们希望第二种情况的概率越大越好。

这个时候,就需要引入一个衡量标准:P值(P-value)。P值是一个什么概念呢?很简单,实际上P值代表了一种可能性。统计学的金标准中,一般要求P值小于0.05(Fisher 1925)。如果P-value=0.05,意味着我们的实验结果有5%的概率是随机误差引起的,也就是假设一的发生概率。那么相应的,这个时候假设二发生的概率为95%。由此,我们可以看出P值实际上衡量的是随机出错的概率,而不是差异的大小。

2. 差异描述的误区

混淆P值的真正含义是数据统计时的一个常见误区。比如,在许多期刊表格的下方都會看到一颗星*代表p<>(显著,significant),两颗星**代表p<>(极显著,highlysignificant)。很多人自然地觉得p<>的效果比p<>的好,进行差异比较时,组间的差异自然也更大。这样的说法对吗?

回看P值定义,这样的理解实际上是不对的。P值衡量的是随机出错的概率,设定P值边界后,结果只有两种:有差异和没有差异。我们不能说一个P值<>的结果比P值<>的结果具有更大的差异,只能说前者出错的概率更低。

所以在文章里我们怎么正确表述呢?如果P值<>,我们可以说“差异具有显著性”,或者更精确的说“差异有统计意义”(statistical  significance),而不是组间“具有显著的差异”(the differenceis great)。P值和衡量差异量变大小的Magnitude,是不同维度的概念。

3. P值如何计算?

既然衡量标准是P值,那我们怎么拿到它呢?算法有很多种,我们以最常用的T检验(T-test)为例。

在Excel中,T检验的公式为:=T.TEST(Group A values,Group B values, tails, type)

公式中有4个元素,前两个为待检测的A和B两组数值容易理解,不过tail和type是什么?

这里的tail不是老鼠尾巴,而是等同于“side”。具体说有单侧(One-tailed)检验和双侧(Two-tailed)检验两类,上述公式中One-tailed = 1 ,two-tailed = 2。

在假设检验中,只强调差异而不注重方向的检验称为双侧检验。既强调差异又注重方向的检验称为单侧检验。选单侧还是双侧,要根据研究的目的来确定。比如,如果我们只关心A和B两组样品是否存在差异,而不关心A>B还是A<>< span=''>,则选双侧检验。而如果我们关注的问题是A>B这个结论是否成立,则考虑用单侧检验。<>


接下来我们来看type,有3种类型:

Type 1 = paired

Type 2 = unpaired,equal variance between the groups

Type 3 = unpaired,unequal variance between the groups

Paired/unpaired主要用来定义个体来源。可以用下面的图来帮助理解:比如我们研究同一只实验鼠在不同时间点的表达差异,即为一个典型的配对检验(paired test)。相应的,我们比较control和treated两组不同老鼠的表达差异,则属于非配对检验(unpaired test)。在基因表达实验中,处理往往会引起组间的不等变异(unequal variance),因此对于非配对检验(unpaired test),选Type 3比较稳妥。



4. 常用的统计软件

当然以上Excel示例只是帮助我们理解处理过程,Excel本身并非专业统计软件。目前市面上有Realtime StatMiner,SPSS,SAS 等软件可供选择,这些软件非常专业。

5. 两点提醒

最后,在你处理数据之前,有两点提醒需要注意:

 1)你会发现Excel计算结果往往和软件结果不一致。这是因为大部分的软件在统计中引入了FDR校正(false discoveryrates),可以将多个基因被协同调控(co-regulated)的因素计算进去。所以关掉FDR后,数据才会和Excel计算结果一致(当然,我们不建议你关掉)。下图为ThermoFisher cloud中的FDR设置界面。


2)使用T-test需要基于一个前提:组内数据呈现正态分布(Gaussian distribution)。下图中的A为典型的正态分布,B和C则为非正态分布。如果实验得到的Ct值分布是下图中B和C这两种情况,我们就不能使用T检验了。这个时候需要使用非参数检验(non-parametric test),例如常用的Wilcoxon twogroup test。



Acknowledgment:

Thanks for Dr. John Pfeifer(Sr ApplicationScientist ,Applied Biosystems)’s presentation.

Reference:

Analyzing real-time PCR data by thecomparative Ct method. TD Schmittgen, KJ Livak - Natureprotocols, 2008

The qPCR data statistical analysisR Goni, P García, S Foissac - IntegromicsWhite Paper, 2009

Statistical analysis of real-time PCRdata .JS Yuan, A Reed, F Chen - BMC, 2006

转自 赛默飞ABI服务平台

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
(二)假设检验之
假设检验之t检验
u检验、t检验、F检验、X2检验
第6章 假设检验
普通心理学
统计学基础
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服