SPSS 数据准备 5 – 检查变量

作者:Ruben Geert van den Berg,发表于 数据准备

6. 不便的分布 (Inconvenient Distributions)

(概述和数据文件可以在这里找到)

首先明确一点:我们不会仅仅因为变量的分布不合我们的心意就排除它。我们所说的“不便的分布 (inconvenient distributions)”是指那些不能真正为我们提供有用信息的变量。 通过一个例子来解释这一点可能最好。让我们检查 q4 变量。因为它是一个有序变量 (ordinal variable),我们将像往常一样创建其频率表和条形图:frequencies q4/barchart

SPSS 数据准备 - 不便的分布

好的。从技术上讲,这个变量没有任何问题。然而,几乎所有受访者都给出了相同的答案。也就是说,这个变量并没有真正为我们提供任何有用的信息。因此,我们可能会将其从数据中删除,或者至少将其从分析中排除。 另一种更微妙的不便分布 (inconvenient distributions) 的例子是看起来非常不寻常的分布。这可能表明一个变量并没有真正代表它应该代表的内容。

7. 小类别 (Small Categories)

(概述和数据文件可以在这里找到)

现在让我们检查 nation 变量。这是一个名义变量 (nominal variable),所以我们将运行其频率分布和条形图:frequencies nation/barchart

SPSS 小类别条形图

同样,这个变量也没有什么真正的问题。然而,存在许多小类别 (small categories) 通常是不受欢迎的。例如,让我们通过运行 means rprice by nation 来检查每个国籍的平均房间价格。结果表过于庞大,并且许多平均价格仅基于 1、2 或 3 个受访者。拥有许多小类别 (small categories) 也会使一些统计程序复杂化。在实践中,我们可能会将这些小类别合并为一个,并将其标记为“其他国籍”。

8. 不良编码 (Undesirable Coding)

(概述和数据文件可以在这里找到)

检查 q5 时可以看到不良编码 (undesirable coding) 的一个例子。这是一个有序变量 (ordinal variable),因此我们将通过运行 frequencies q5/barchart 来检查其频率表和条形图。

SPSS 反向编码

乍一看,这个变量看起来不错。我们需要将 6 指定为用户缺失值 (user missing value),并且也存在一些系统缺失值 (system missing values),但总的来说,缺失值并不多。条形图看起来也不错:没有奇怪的分布或小类别。 但是,请注意,最低值 (1) 反映了最积极的态度(“非常好”)。这本身并没有什么问题,但对于有序变量 (ordinal variable),我们通常希望较高的值反映较高的数量或更积极的态度。如果我们要比较具有不同编码方案的变量,这一点尤其重要。