我们这个系列的教程目的就是让只有高中数学知识的童靴能够正确而有效率的完成论文的数据分析, 因此我们并不关注过深的统计知识, 基于此, 我们可以如此理解回归分析:
有一个理论的模型方程: $Y = b_0 + b_1 X + \epsilon$
, 这里的X和Y是我们关心的自变量和因变量, 我们的目的是求方程中的参数$b_1和b_0$
前提条件
- 自变量和因变量都是连续型变量(或者自变量可以定义为连续)
- 自变量和因变量之间有线性关系(散点图或者相关分析)
- 具有相互独立的观测值(Durbin-Watson)
- 没有异常值(Casewise Diagnostics)
- 等方差性(残差与回归拟合值或标准化残差与标准化预测值之间的散点图)
- 回归残差近似正态分布(直方图)
这些前提条件满足才可以做回归分析, 但是我们实际上不需要一项一项进行检查, 很多检测项目会在spss进行回归分析的时候输出。
我们会在视频里详细介绍这些条件是否有必要检测。
数据介绍
我们调查了三百多人的体重和坐姿时间的数据, 研究目的是考察坐姿时间是否对体重有影响, 采集到的数据是这样的:
相关和散点图
在做回归之前, 有必要进行相关分析和做散点图, 主要目的就是对数据的总体情况有一个大概的了解。
- 首先打开相关的对话框
- 选择有关的变量
- 结果解读(我们会在视频中进行一个讲解)
回归分析
操作步骤
- 打开线性回归的对话框
- 设置自变量和因变量
打开”统计”对话框, 按照下图所示勾选选项,
- 杜宾-沃森: 为了检验观测值之间是否相互独立
- 个案诊断: 检测异常值
- 打开”图”设置框, 设置X轴为”ZPRED”(标准化预测值), 设置Y轴为”ZRESID”(标准化残差)
- 点击”确定”开始你的分析
结果解读
首先是要看”个案诊断”, 很多童鞋没有输出这个表格, 因为你的数据没有诊断出问题, 而我用的数据也没有诊断出问题(标准残差超过3),
所以我设置的时候, 设置超过2就算异常(仅仅是为了输出这个图, 图中所有标准残差绝对值没有超过3。这个结果会在视频教程里详细介绍。
然后, 查看残差的直方图, 直方图应该大概符合正太分布, 没有必要进行严格的正态性检验, 只要大致看起来中间高两边低就可以了
“等方差性”就是不同的Y值的情况下, 残差的方差没有差异, 可以通过散点图的方式来考察, 之前作图的步骤就是为了输出这个散点图, 我们会在视频教程里详细解读这个图:
接下来就进入真正的回归分析了, 首先要看模型的”模型摘要”表格。
首先要看杜宾沃森检验, 该统计量位于0-4之间, 实际值越接近2, 说明样本之间的独立性越好, 我们这个值是2.088, 非常接近2, 所以前提条件中”具有相互独立的观测值”是成立的。
在”模型摘要”表格中, 最重要的指标就是R, 它代表着预测的准确性, 也就是当你知道自变量x的值的时候, 根据回归模型$Y = b_0 + b_1 X + \epsilon$
可以计算得到$Y$
的值, 这个值叫做$\hat Y$
, 这个预测值与Y的实际值之间的相关系数就是R, 而$R^2$
就是R的平方, 在回归分析中$R^2$
在ANOVA分析中, 很多童鞋会质疑”为什么回归分析中有方差分析的结果”, 在这里我再次强调, 回归分析中用到了F检验去检测模型是否有统计学意义, 在F检验显著的情况下, 才需要去查看回归系数显著性检验表。 另外再说下, 方差分析其实是特殊的回归分析。
最后, 也是最重要的结果就是回归系数表, 这里每个系数使用t检验的方法来检测该系数是否显著不等于0, 如果显著性小于0.05, 可以认为系数显著不等于0。 回归我们的方程式:$Y = b_0 + b_1 X + \epsilon$
, 根据下表的结果, 我们可以轻易得到各个参数的值, 如下:
- 截距:
$b_0=48$
- 回归系数:
$b_1=2$
根据参数值, 我们可以写出回归方程是: $Y = 48 + 2 X + \epsilon$
, 注意方程中还带有参数$\epsilon$
结果汇报
回归方程的ANOVA检验显示F(1,301) = 19.3, P<.001,结果显著,说明至少有一个自变量对因变量具有预测作用,具体哪些变量有预测作用,需要看具体的系数显著性检验。坐姿时间的标准化系数为0.245(t=4.388, P<.001), 系数显著,且因为系数大于0,所以坐姿时间正向影响体重的大小。总之,变量坐姿时间的变化会显著影响体重的变化。
注意
本文由jupyter notebook转换而来, 您可以在这里下载notebook
统计咨询请加QQ 2726725926, 微信 mllncn, SPSS统计咨询是收费的
微博上@mlln-cn可以向我免费题问
请记住我的网址: mlln.cn 或者 jupyter.cn