上面两节,我们提到了“如何理解Logistic回归”以及“模型选择”,这一部分,我们谈一下Logistic回归的输出,OR值,和结果解读。
我们提一个问题,“你为什么会选择Logistic回归”?
很多人都会回答:因为处理的是“因变量为二分类变量的情形”。
但实际上,Logistic回归如此流行,根源却并不仅仅在于因变量是二分类变量这一点,其实是Logistic回归的产出--OR值,给了Logistic回归如此高大上的江湖地位。
那么什么是OR值呢?这个,恐怕要从RR值说起。
我知道不少人都对公式比较恐惧的,但有时候必须要克服一下,才能够真正理解一个定义的内涵。如下,很简单的:
是的,大概就如您理解的,RR值,就是相对危险度,某个人群发病率是另一个人群发病率的多少倍。例,吸烟者患肺癌的机率是不吸烟者的多少倍。
而OR值却没有这么好解释,。。。怎么办呢?
好在,我们可以得到一个结论,在发病率较小时,OR值与RR值是极为近似的!那我们就可以用OR来模糊代替RR值。
另一点,在Logistic回归结果汇报时,往往会遇到这样一个问题:
是应该汇报OR值,还是β值,还是两个都要汇报?
这个决定权最终当然还是作者您的了,但有一点需要进一步了解:
OR值和β值其实是等价的。如下所示, 又是很简单的公式推导,要不要挑战一下?
如上,便可得到一个结论,OR值和β值其实是等价的!
很多朋友都很关心meta分析的写作,在回顾文献时,如果部分研究只汇报了β值,却没有报告OR值,那这篇文章还能采用吗?当然可以,前面说过,两者其实是等价的,只需要做一个对数转换!
同样,如果你遇到的是生存分析中的HR,跟本文的OR其实是一回事。
下表是一张典型的论文中的Logistic回归结果报告表。
试试能否找到以下几点:
上一次模型选择,我们提到过哑变量,能否在图中找出哪里进行了哑变量处理?
红框中的2.105,如何解读?
同一行中,95%CI与P-value有什么特别的关系?
上面题目的答案:
The reason for的两行,都是哑变量,两个哑变量,实际上是对应了三个变量(分别为a,b,c)。
2.105,解释成危险因素或者保护因素,方向根据Y的方向设定来确定。大于1,说明Y中赋值大的容易发生。如果0是不患病1是患病,那这个2.105,就是说这个自变量发生,患病的可能性为2.105倍。
如果P小于0.05,那么95%CI上下限全部大于1,或者全部小于1。不会包含1的。
添加本微信公众号“biostat”,回复关键词“Logistic回归”,即可查看Logistic回归的系列文章。
联系客服