数据的提取和转化

有时，我们检索到了我们认为合格的文献，但是面对文章中复杂的数据，再加上语言的差异(以笔者现在的英语水平)，有时候束手无策，不能提取到合格的文献，甚至会错过一些合格的高质量的文献。本文将介绍一下二分类数据和连续型数据的提取以及转化。

一 二分类数据
收集二分类结局数据最可靠的方式是收集每组实验组和对照组明确经历和未经历结局的数量。理论上这相当于收集的总数和发生结局的数量，有的事件的人数需要从百分比中计算，需要知道实验组和对照组的总人数。如果受试者总人数和发生事件数量无法提取，但可能会报告效应值及其95%的置信区间，这种数据可采用倒方差法纳入Meta分析。
笔者认为，二分类数据的效应值是OR，RR等，只要文章能提供计算效应值的数据或者直接提供效应值(包括标准误，95%的置信区间等)即可。

二 连续型数据
连续型数据的Meta分析的效应指标是均数差值(MD或WMD)或标准化均数差值(SMD)，需要每个研究提供实验组和对照组结局指标的均值(Mean)，实验组和对照组结局指标的标准差(Standard deviation)，实验组和对照组测量结局的参与者人数(N)。但是由于由于各个纳入文献的差异大，质量也参差不齐，以及一些指标很难符合正态分布，可能难以或无法从数据汇总中直接获得必要的信息，需要我们去提取和转化。

1.从标准误获得准差
已知实验组和对照组的标准误和样本数，标准差可以通过均数的标准误乘以样本量的平方根获得(这个知道标准误的公式怎么来的就很简单了)：
SD=SE*(N)^1/2

2.从可信区间获得标准差
(1)如果样本量很大(即每一组大于100)。
每一组的标准差等于可信区间长度除以3.92再乘以样本量的平方根(95%的可信区间)：
SD=(UL-LL)/3.92*(N)^1/2
对于90%可信区间应当用3.29代替3.92，而对于99%可信区间应当用5.15代替。
(2)中等规模样本量（即介于60与100之间），可使用t分布或标准正态分布(Z分布)。评价者应当寻找使用何种的证据，如果使用不方便的话可使用t分布，也就是接下来要介绍的方法3。
(3)如果样本量很小(即每一组少于60)。
可信区间应当使用一个t分布值来计算。例如样本量为25的95%可信区间的t值，可通过键入=tinv(1-0.95,25-1)在Microsoft Excel电子表格的单元格里而获得(结果是2.0639)，上述公式中的除数3.92将改为2×2.0639=4.128。当然也可以通过查t界值表。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。