推荐书: Python开发最佳实践

f02-多重共线性理论解释+危害+解决方法

微博@mlln-cn, 并附上文章url链接, 我就能回答你的问题奥!

我们通常在线性回归或者多元方差分析中听过这个词, 它通常指的是当回归模型中的自变量相关太高时,它们将无法独立预测因变量的值。换句话说,他们解释了因变量中的某些相同方差,从而降低了其统计显着性。

本篇文章主要介绍了诊断多重共线性的理论解释和解决方法。

假如我们调查了51人的工作年限(X1)/工作经验(X2)/工资水平(Y)这三个变量, 我们期望得到的回归方程是:

$$ Y = h + \beta_1 X_1 + \beta_2 X_2 + e (1式) $$

也就是说:

$$ h=-1.147 \\ \beta_1=.870 \\ \beta_2=.153 $$

但是实际上, $X_1$$X_2$

用spss统计的结果是这样的:

也就是说:

$$ h_3=48.046 \\ \beta_3=5.256 $$

假如我们将(2)式代入(1)式, 会得到下面的方程:

$$ Y = h + h_3 \beta_2 + \beta_1 X_1 + \beta_2 \beta_3 X_1 + e $$

从上面的式子中, 我们应当可以看出, 由于共线性的存在($\beta_3$不为0), 又由于$X_2$对Y有影响($\beta_2$不为0), 所以, 当我们考察$X_1$对Y的影响的时候, 只看$\beta_1$就会得出错误的结论, 而需要考察$\beta_1+\beta_2 \beta_3$

解决方法

使用将”工作经验”设置为中介变量, 进行中介分析, 推荐使用spss的process插件。

注意
本文由jupyter notebook转换而来, 您可以在这里下载notebook
有问题可以直接在下方留言
或者给我发邮件675495787[at]qq.com
请记住我的网址: mlln.cn 或者 jupyter.cn

赞助

持续创造有价值的内容, 我需要你的帮助