文章目录
逻辑回归中,有些自变量是分类变量,同时有两个以上的分类,这就导致了我们在做回归的时候就默认的把该变量当成了等距数据,最后造成了更大的误差。哑变量就是要解决这个问题,下面是具体的方法。
方法/步骤
- 在spss中打开数据,确定要设置哪个变量为哑变量以后,我们打开逻辑回归对话框,操作方法:analyse–regression–binary logistic
- 将是否吸烟这个变量放到因变量中,将种族放到自变量中,如图所示
- 选择变量进入方程的方法是enter,因为所有的哑变量必须是同时进入,否则就没有统计学意义了。
- 接下来要设置哑变量了,点击categrio按钮,打开变量分类对话框
- 将要设置哑变量的变量放入右侧窗口中
- 到了最关键的部分,我们要选择哪个分类作为参考分类,设置参考分类必须使参考分类有意义,比如这个例子中,种族类别包括黑人、白人和其他种族,那么其他种族一般被设置为参考分类,那么你怎么知道参考分类是第一个还是最后一个呢,后面要设置last和first。下面一个步骤告诉你
- 回到变量视图中,找到种族这个变量,在value中可以查看变量值,我们看到其他种族这个分类为3,上面那一步应该设置为last
- 点击ok,开始输出统计结果
- 输出了一大堆数据,我们不用管,因为这里要教大家如何分析哑变量,所以直奔主题,找到variables in the equation表,这个表中,你可以看到有race(1)和race(2)这两个变量,他们就是race的哑变量,B是系数,因为他们都是跟其他种族相比,图中的数据可以看到,白种人比其他种族的人更容以吸烟,黑种人比其他种族更容易吸烟,白种人和黑种人相比,黑种人可能比白种人更容易吸烟,但是需要进一步的检验。
转载请注明来自DataScience.
邮箱: 675495787@qq.com