互助问答第919期：单因素分析和多因素cox分析的样本控制

今日提问

老师好，我想问一下，做生存分析，在PSM之后有11组配对共22个样本，这之后做单因素分析和多因素cox分析，此时多因素cox还有必要做吗。除了处理因素外还有两个变量，这个时候的多因素cox还有样本量的限制嘛？

问题解答

多变量 Cox 模型没有硬性的样本量界限。但样本越小，估计值的可靠性就越低，过度拟合的问题就越严重。在 N 值较低的情况下，简单的模型更为可取。在倾向得分匹配后只有 11 个匹配对（共 22 个样本）的情况下，对于多变量 Cox 回归模型来说，样本量相当小。在样本如此小的情况下，最好使用单变量 Cox 模型，以尽量避免过度拟合。

总的来说，对于样本量的限制问题，这里没有绝对的临界值。但一般情况下每个预测因子可能至少得有 5-10 个事件。事件越少，就越需要谨慎使用多元模型，以避免过度拟合。对于像你这样的较小样本，简单的单变量模型通常是最安全的。

本期关键词

解释变量被解释变量内生性

本期知识科普

Cox回归模型，又称比例风险回归模型，是一种半参数回归模型。也就意味着该模型不需要对生存分析的分布进行假设（针对这一点，类似于非参数），就可以生存结局和生存时间为因变量，可同时分析众多因素对生存结局的影响。

生存分析的主要目的在于研究变量X与观察结果即生存函数(生存率/累积生存率)

之间的关系。当

受很多因素影响时，传统的方法是考虑回归方程。但由于生存分析研究中的数据包含删失数据，且时间变量t通常不满足正态分布和方差齐性的要求，因此用一般的回归方法研究变量与生存函数间的关系较为困难。

故D.R.Cox提出了Cox比例风险回归模型，它不是直接考察

与X的关系，而是用

即风险函数——在t时刻的瞬间“死亡率”（SPSS生存分析），作为因变量。假设在时间点t个体出现生存结局的风险量可以分解为两个部分：

§只受时间影响：基本（本底）风险量

§受其他客观因素影响第i个因素使得该风险量从

增加

倍而成为

。因此，如果有k个因素同时影响生存过程，则任意时间点t的风险函数可以表示为：

Cox回归模型对

未作任何假定，扩大了生存分析的适用范围；即使在

未知的情况下，可以根据公式估计出参数β ，故Cox回归模型属于半参数模型。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。