掌握多元logistic回归分析，看这篇就够了

01. 概念

多元 logistics 回归(multinomial logistics regression)又称多分类 logistics 回归。医学研究、社会科学领域中，存在因变量是多项的情况，其中又分为无序（口味：苦、甜、酸、辣；科目：数学、自然、语文、英语）和有序（辣度：微辣、中辣、重辣）两类。对于这类数据需要用多元 logistics 回归。

多元 logistics 回归实际就是多个二元 logistics 回归模型描述各类与参考分类相比各因素的作用。如，对于一个三分类的因变量（口味：酸、甜、辣），可建立两个二元logistics回归模型，分别描述酸味与甜味相比及辣味与酸味相比，各口味的作用。但在估计这些模型参数时，所有对象是一起估计的，其他参数的意义及模型的筛选等与二元logistics类似。

02.条件

因变量：三个及以上分类变量
自变量：分类或连续变量
协变量：分类变量

03.案例及操作

【例】为了研究饮食口味偏好的影响因素，分析年龄、婚姻情况、生活态度在饮食口味类型偏好（1=酸、2=甜、3=辣）中的作用，共挑选被试30人，结果见下表，试进行多元logistics回归。

说明：本案例数据纯属编造，结论不具有参考性和科学性，仅供操作训练使用。

⑴ 建立数据文件口味偏好,sav，见下图

每个被试有一个口味偏好因变量taste和3个自变量age、married、inactive。

⑵对口味偏好 taste 加权

单击【数据】→【加权个案】，打开加权个案对话框，加权口味偏好，见下图

(3)选择【分析】→【回归】→【多项logistics】，打开多项 logistics回归主对话框，见图。

 【因变量】：分类变量，本例选择“taste”
 【因子】：可选择多个变量作为因子，本例选择“age”、 “married”、“inactive”
 【协变量】：可选择多个变量作为协变量，本例未选择

(4)单击【参考类别】按钮，打开参考类别对话框，见图

 【参考类别】：可选择【第一类别】、【最后类别】或【定制】，本例选择【最后类别】
 【类别顺序】：可选择【升序】或【降序】

(5)单击【模型】按钮，打开模型对话框，见下图：

本例主要考察自变量age、married、inactive的主效应，暂不考察它们之间的交互作用，然后点击【继续】；

(6)单击【statistics】按钮，打开统计对话框，见图：

设置模型的统计量。主要【伪R方】【模型拟合信息】【分类表】【拟合优度】这几项必选，其他可以默认不勾选。这些参数主要用于说明建模的质量。

(7)单击【条件】按钮，打开收敛性准则对话框，见下图，默认选项，

(8) 单击【选项】按钮，打开选项对话框，默认选项，见下图，

(9)单击【保存】按钮，打开保存对话框，勾选【估算响应概率】，估算每个个案三类口味偏好的概率。

(10)单击【确定】按钮，得到以下主要结果。

04.结果解释

结果 1 【个案处理摘要表】

列出因变量和自变量的分类水平及对应的个案百分比。建议在此表主要读取变量分类水平的顺序，比如自变量“年龄段”，第一个分类是“0~20 岁”，第二个分类是“21~25”，第三个分类是“26~30”，尤其是看清楚最后一个分类，因为前面参数设置时要求是以最后一个分类最为对比参照组的。

结果 2 【模型拟合信息表】

读取最后一列，显著性值小于 0.05，说明模型有统计意义，模型通过检验。

结果 3 【拟合优度表】

原假设模型不能很好地拟合原始数据，最后一列皮尔逊卡方显著性值 0.343，概率较小，原假设不成立，说明模型对原始数据的拟合没有通过检验。

结果 4【伪 R 方表】

依次列出的 3 个伪 R 方值（类似于决定系数）均偏低，最高 0.836，说明模型对原始变量变异的解释程度较好，只有一小部分信息无法解释，拟合程度比较优秀。

结果 5【模型似然比检验表】

最终进入模型的效应包括截距、年龄、婚姻状况、生活态度，而且最后一列显著性值表明，只有生活态度对模型构成有显著贡献。

结果 6【参数估计表】

列出自变量不同分类水平对口味偏好的影响检验，是多项 logistic 回归非常重要的结果。第二列 B 值，即各自变量不同分类水平在模型中的系数，正负符号表明它们与早餐选择是正比还是反比关系。第六列是瓦尔德检验显著性值，此值小于 0.05 说明对应自变量的系数具有统计意义，对因变量不同分类水平的变化有显著影响。比如，酸和辣相比，21~25岁的年轻人更偏向于选择在酸，这种可能性是 26~30 岁以上人的 3.8 倍；甜和辣相比，结婚与否对口味偏好没有差别。

05.多项 logistic 回归模型

经过对该口味偏好调查数据进行多项 logistic 回归分析，由参数估计表，我们可以得到模型如下：

G1=LOG[P(酸)/P(辣)]=17.915-56.406age1 1.348age2 19.333married0-19.801inactive0

G2=LOG[P(甜)/P(辣)]=18.609-19.954age1-0.039age2-0.446married0-.022inactive0

G3=0 （对照组）

根据这个模型，我们首先计算某个受访者 G1、G2、G3 的值，然后带入如下公式，最终可得到三个早餐相应的概率。

P1=exp(G1)/[exp(G1) exp(G2) exp(G3)]
P2=exp(G2)/[exp(G1) exp(G2) exp(G3)]
P3=exp(G3)/[exp(G1) exp(G2) exp(G3)]

原始数据最右侧新增3个变量，依次为EST1_1、EST2_1、EST3_1，分别对应因变量“口味偏好”的三个分类水平（酸、甜、辣）的响应概率。比如第一个个案，他选择酸的概率为0.67，在三种选择中数值最大，因此，模型会判定他选择酸，这和原始记录的真值一致，说明模型判断准确。

结果 7【分类】

模型在预测辣味偏好倾向上准确率最高，达到100%，其他两个口味偏好的预测略低，模型总体预测准确率为83.9%，表现比较好。前面伪 R 方数据显示，模型对总体变异的解释能力尚可，这和总体预测准确率结论也一致。

以上就是本节的全部内容，请大家多多练习~

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。