重复测量数据分析系列：二分类重复测量资料的广义估计方程

我们花了很多的笔墨去介绍重复测量的数据分析方法与操作：

线性混合模型/多水平模型【SPSS】

这些示例中，结局都是连续性变量。但生活里不止有连续型变量，还有分类资料和计数资料。比如某多中心临床试验采用随机、双盲、安慰剂对照设计，观察某复方中药治疗疲劳综合征的疗效。现选取其中一个中心的60例数据作为示例。该试验在治疗过程中进行了4次访视。评价指标y为每次访视受试者疲劳症状的改善情况，无改善记为y=0，有改善记为y=1。自变量有药物、性别、年龄。

……

数据来源：《医学研究中的logistic回归分析及SAS实现》第2版。

很明显，这是一个重复测量资料的数据，只是结局变量是二分类资料。对DBPC研究而言，干扰因素一般都会控制得很好。常用的分析套路也很简单易懂：首先评估研究因素的组间基线（包括结局变量的基线值）的平衡性，在基线无统计学意义的前提下，直接分析感兴趣的因素的各水平间结局是否有差异。本示例没有用药前的基线疲劳程度数据，而且性别在组间也具有统计学意义，抛开这些数据上的疑问，我们直接进行演示分类重复测量数据的广义估计方程操作。

Analyze>>Generalized Linear Models>>Generalized Estimating Equation…

[重复]选项卡：受试者变量选入id；受试者内变量选入visit；作业相关矩阵选入非结构性相关。其他默认；

受试者内变量的值（选入多个变量时是组合）定义了受试者内测量的顺序。受试者变量和受试者内变量的组合值是唯一的，对应的是每次测量。

协方差矩阵（Covariance Matrix）：[基于模型的估计器]是 Hessian 矩阵的广义逆的负数。[稳健估计器]，也称为 Huber/White/sandwich 估计器，是对[基于模型的估计器]的“校正”，即使在工作相关矩阵指定错误时也能提供一致的协方差估计。该处协方差矩阵估计方法用于广义估计方程的线性部分的参数，而在“估计”选项卡上的规范仅适用于初始的广义线性模型。

默认的“稳健估计”仅对β估计高度有效，无论“相关作业矩阵”指定是否正确，对β及其方差的估计依然近似正确。“基于模型估计”对β和α估计都有效，当采用“基于模型估计”且“相关作业矩阵”指定正确的前提下，有效性更高。

工作相关矩阵（Working Correlation Matrix）：矩阵的大小由重复测量次数来决定，是受试者内变量值的组合。

独立（Independent）：汉化软件翻译成了自变量，这显然是一个错误，此处指的是工作相关矩阵是独立结构，即重复测量间不相关。
AR(1)：一介自相关。重复测量具有一阶自回归关系，间隔次数越长，相关系数越小，取值在-1和1之间。任意两个相邻元素间的相关系数为ρ，则间隔一个元素的两元素相关性等于 ρ2，依此类推。
可交换（Exchangeable）：即等相关，也被称为复合对称结构，任意两点的观测值间相关系数是相等的，常用于时间间隔不长的纵向资料或同时间点的重复测量资料。
M介相关：相隔M个观察值的重复测量间具有相同的相关系数。
非结构性相关（Unstructured）：不做任何限定，任意两点间的相关都可能不等。

[模型类型]选项卡：选择二分类logistic回归（Binary logistic）；

[响应变量]选项卡：因变量选入结局变量Y；参照水平按钮中选择最低值；

[预测变量]选项卡：因子框中选入Trt、sex、age及visit，如有连续变量则选入协变量框，本例无；对分类变量，在SPSS中默认高水平为参照水平，在选项按钮里因子分类序次中选择降序，保证模型参照水平是变量的低水平；

[模型]选项卡：选入Trt、sex、age及visit。如考虑交互项，构建类别中选择交互作用，同时选中两个或两个以上变量选入模型框即可，本例暂不考虑；

[估计]选项卡：默认；

[统计量]选项卡：选中包括指数参数估计、工作相关矩阵。

主要结果与解读：

【1】模型信息：总结了建模的一些重要选项：结局变量是疲劳改善与否；概率分布是二项分布；链接函数采用的是logit；受试者效应变量1个，是id；受试者内效应变量1个，是visit；工作相关矩阵结构选择的是无相关结构。这些信息可用来确认是否是你想要的建模选项。

【2】个案处理概况：共240个结果，无缺失。

【3】相关数据总结：受试者变量id有60个水平，受试者内变量visit有4个水平，受试者60个，每个受试者测量了4次（本例无缺失，最大测量和最小测量数一样）。

【4】分类变量信息。如果有连续性变量放入协变量框，在分类变量信息表格后还会有连续性变量的基本信息。

【5】模型拟合优度：这些统计量可用于模型的选择或更符合模型结构的工作相关矩阵，但单独看并不能说明单一模型拟合的优劣。信息统计量值越小模型拟合越好。

广义估计方程拟合优度的评估采用的是基于准似然函数（似然函数不再适用于广义估计方程）的QIC和QICC。QIC用于给定模型下选择相关矩阵，而QICC则是给定相关矩阵下选择模型。两个指标都是值越小对应的结构/模型越好，smaller-is-better。

The Quasi-likelihood under Independence Model Criterion (QIC) can be used to help you choose between two correlation structures, given a set of model terms. The structure that obtains the smaller QIC is "better" according to this criterion.

The Corrected Quasi-likelihood under Independence Model Criterion (QICC) can be used to help you choose between two sets of model terms, given a correlation structure. The model that obtains the smaller QICC is "better" according to this criterion. The computation of the QICC assumes that the distribution, link function, and working correlation matrix specifications are all "correct" for the dataset.

【6】模型效应检验。结果表明，不同的治疗方案的治疗结果不一样（P=0.018）。

【7】参数估计。模型效应能看出各因素对结局的影响是否有统计学差异，如果想知道到底相差多大，就可以通过参数估计表来看。模型效应表和参数估计表其实是完全对应的。以治疗方案Trt为例，在校正性别、年龄和随访时间的影响后，与安慰剂相比，复方中药组对疲劳综合征的改善率更高（β为正值），复方中药组对疲劳综合征的改善率大约是安慰剂组的2.657倍（OR=2.66[1.185,5.960],P=0.018）。

【8】工作相关矩阵。V1和V2、V2和V3的相关系数相对较大。

通过矩阵可以初步判断适合模型的工作相关矩阵，但单凭这些绝对数字来判断对我来说还是很难的，可以通过前面说过的模型拟合中的QIC来选择。本例实际上更适合独立结构，但各个结构相差不大。

另外不要忘了广义估计方程选择稳健估计协方差矩阵的优势，无论“相关作业矩阵”指定是否正确，对β及其方差的估计依然近似正确，其实上表结果大家也可以发现各个工作相关矩阵下的QIC值相差并不大，不同工作相关矩阵下的分析结果也就不再展示了。

本次笔记只是示例分类重复测量资料的广义估计方程操作，从模型选择的角度，还应该考虑与纳入交互作用的模型相比，比如纳入Trt*visit、Trt*age等，然后再通过QICC来进行选择，感兴趣的也可以尝试一下。

— END —

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。