军科院某位教授2000年调查,国内生物医药类论文统计误用率高达80%,随着时间推移,以及近年整体科技实力的提升。误用率应该会有所下降,但是目前至少50%错误还是有的!今天就一起来评析一篇文章,以期他山之石,可以攻玉!
说是8个错,有的地方也仅是质疑。大家先看文章找找,看能否发现。
您可以先自己阅读原文,自行评析,后面有松哥的个人观点,大家一起讨论。若有新意观点,可以底部留言! 文中表1 ,同样的108例患者,在从干预前至12h,共进行了8次检测,注意这里的8次是不同时间检测的,属于重复测量设计,作者采用等同于成组R×C表的卡方检验,方法不对。应该采用广义估计方程或多水平模型。
同样见表1,表中口渴评分也是8个时间点的重复测量,作者采用单因素方差分析明显不对,因为单因素设计方差分析要求数据相互独立,而重复测量数据数据之间不再相互独立。
如果你说,作者未必不是重复测量数据方差分析呀,只不过没说那么细致罢了,关键重复测量数据方差分析结果不是这么表达的。 我们知道,Logistic回归至少包括二项、多项、有序和条件。本文方法学部分说采用的是二项Logistic回归。 但是本文研究的是口渴,采用的是量表,得到的是评分值。而且作者给出 意即按照评分分级,无、轻度、中度和重度,这明显是一个等级资料,应该首先考虑采用有序Logitic回归。 也许作者将轻度、中度和重度进行合并,与无口渴构成二分类记性回归。但未解释为何不用等级。 或者分析不充分到位,应该再补充有序Logistic回归的结果进行进一步讨论。 如果作者按照二项Logistic回归来做的,因为检测了8次,到底用的是那一次结果进行二项化的呢?文中并无交代,结合多因素分析中,有通气时间分为3个等级来看,这个二项Logistic回归应该是基于一个综合判定。然而如何区分是否发生口渴的二项,不得而知。
如果只要发生就算有,没发生算无,那时间变量如何添加对应!
本次研究总共108例患者,当作者把通气时间作者自变量X时,发现3个级别时间每次108人,样本量被扩大了2倍。同时作者没交代为什么8次测量为何转变为3个时间段。
另从统计学角度,也实在想不出,他这个数据到底如何整理成统计分析的数据库格式呢?如果3个时间段当做一个变量3个水平,样本量就是324,那么其他变量也同样扩增的吗?如果分成3个变量,那是如何选择进入模型作为一个变量进行分析的呢?
表2单因素分析呼吸类型,可见张口口渴评分高于闭口,所以张口是风险因素。 而多因素分析发现,底部呼吸类型赋值,1=张口,2=闭口,竟然闭口发生口渴的风险是张口的8.891倍。前后矛盾! 文中漏气量的赋值为1=9~,2=50~,3=100~348这典型是一个数值变量如何分组进入模型的问题,很可能本次研究最小漏气量是9ml,最大是348ml。也就是9~348ml,作者为什么这样分组,不知依据何在,也许是基于专业。但是从论文延伸来说,如果有人同样开展这样的研究,其漏气量为0~8,那他就不知道从这篇文章得到什么样的数据暗示。 对于数值变量降级进入模型,常可以采用四分位数分组,三分位数分组,对数据标准化等方法。也可以10等分分级,做最优尺度回归,再决定如何分组。同样其他指标,也有类似问题。 本文单因素分析发现8个有意义单因素,在后续的多因素分析中,8个因素全部存在,一个没丢,有这种可能,但概率不高! 因为全文研究是12h内,可以改成12h内口渴水平与影响因素分析似乎更为合适? 这个口渴感的均分6.14±1.26是用什么数据算出来的呢?每个人都测了8次,是108×8作为总样本量算出来的吗?但这样有意义吗? 而且基于给出各时间点的均数,算出来的也不是6.14分。 采用二项Logistic回归,也许无法分析文章中的数据。这种纵向数据应该采用多水平模型进行分析比较合适些! 本研究无创机械通气时间最少12h,中位数3d。全文仅分析12h内,而且12h时已经6+102全部中重度口渴,如果二项logistic回归,Y全部发生,已经不构成二项了。 水平有限,也许本人出现误判,仅供学术交流,欢迎大家提供留言,一起讨论提高!
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请
点击举报。