数据价值-DataValues

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 358|回复: 0

深入解读Logistic回归结果(二):分类变量(哑变量)的处理及解读

[复制链接]

1万

主题

1万

帖子

3万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
39787
发表于 2018-5-23 14:28:56 | 显示全部楼层 |阅读模式
深入解读Logistic回归结果(二):分类变量(哑变量)的处理及解读,
关键词:spss回归分析结果解读、 回归分析结果解读、logistic回归结果解读、logistic回归分析、logistic回归分析案例、spss回归分析结果解释,
一、哑变量的设置方法,
Logistic回归中分类变量需要使用哑变量(也叫虚拟变量)来操作。
一般的,n个分类需要设置n-1个哑变量(为什么不是n个?请继续看)。
举个例子,有一个“年龄”变量,分为:青年,中年,老年三类,那么我们可以用两个哑变量来代替:
年龄 变量1变量2
青年10
中年0 1
老年00

变量1 = 1代表青年,0代表非青年
变量2 = 1代表中年,0代表非中年
变量1和变量2都等于0代表老年
所以用2个变量就可以表示3个类别。

二、分类变量在SPSS中的操作及结果解读
SPSS中能自动设置哑变量,只需要把变量标记为分类变量即可。
假设我们要分析年龄和病程对某种疾病预后的影响,采用Logistic回归分析。
变量赋值如下(数据均为人造,非真实数据):
预后 :因变量,为二分类变量,0=预后差,1=预后好
年龄:自变量,为多分类变量,1=青年,2=中年,3=老年
病程:自变量,为连续变量
(1)首先将年龄设置为分类变量,对比方式默认为“指示符”,参考类别默认为“最后一个”(后面解释为什么)。见下图。





(2)结果输出,有两个主要的表格。



这是分类变量的编码表格,可以看出,年龄被替换为两个新的变量:年龄(1)和年龄(2)。年龄(1)代表青年人,年龄(2)代表中年人,他们的取值都为0表示老年人,作为青年和中年的参考对象。



这是回归表格,出现了年龄(1)和年龄(2)两个新的变量。可以看出年龄(1)的P为0.000,有统计学意义,年龄(2)的P为0.135,没有统计学意义。
两者不一致,怎么解释?
因为年龄(1)和(2)都是以老年人来作为参照的,所以可以解释为:
(1)青年人相对于老年人,预后更好
(2)中年人相对于老年人,预后没有统计学差异
(3)青年人比中年人看起来预后好,但需要进一步假设检验。
三、参照方式的选择
分类变量都需要一个参考对象,也就是说跟谁比。
SPSS中提供了多种对比方式,如指示符,简单,差值等等,如下图:



其中默认的“指示符”使用最多,这里仅介绍这一个。
指示符”表示将每一个类别与参考类别对比。那么哪一个是参考类别呢?SPSS有两个选项:“最后一个”与“第一个”。这里的“最后一个”和“第一个”顺序与上文“分类变量编码表”中的顺序是一样的。如果设置为最后一个,就是以老年为参考类别,如果设置为第一个,就是以青年为参考类别。具体使用哪一个,需要根据分析目的来确定。
,
转载请注明:数据分析 » 深入解读Logistic回归结果(二):分类变量(哑变量)的处理及解读
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|Archiver|手机版|DataValues ( 赣ICP备16006919号-3 点击这里给我发消息 DataValues

GMT+8, 2018-12-11 20:21 , Processed in 0.113991 second(s), 30 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表