在SPSS中计算总和:3个简单选项

By Ruben Geert van den Berg under SPSS Blog

在SPSS中,SUM(v1,v2) 并不总是等同于 v1 + v2。本教程解释了它们之间的区别,并展示了如何在此处做出正确的选择。

SPSS Sum, Mean and Plus

当存在缺失值时,不同的求和方式会产生不同的结果

解释

  • 在SPSS中,如果v1、v2或v3中至少存在一个缺失值v1 + v2 + v3 将导致一个系统缺失值 (system missing value)
  • 第一种替代方法,SUM(v1, v2, v3) 隐式地将缺失值替换为
  • 第二种替代方法,MEAN(v1, v2, v3) * 3 隐式地将缺失值替换为非缺失值的平均值
  • 第三种替代方法,MEAN.2(v1, v2, v3) * 3 与第二种方法几乎相似。但是,通过在MEAN 后加上后缀 .2,您可以确保只有当 v1、v2 和 v3 中至少存在两个非缺失值时,才会计算平均值。
  • 以下语法 (syntax)演示了这些要点。

SPSS 语法演示

data list free/v1 v2 v3.
begin data
1 3 5
1 3 ''
1 '' ''
end data.

compute sum_by_sum = sum(v1,v2,v3).
compute sum_by_plus = v1 + v2 + v3.
compute sum_by_mean = mean(v1 to v3) * 3.
compute sum_by_mean.2 = mean.2(v1 to v3) * 3.
exe.

那么哪个最好?

  • 这个问题很难回答。这可能取决于缺失值的含义(跳过问题?技术问题?)。此外,各个问题和总和应该反映什么?
  • 其次,缺失值的数量和样本量 (sample size) 可能会被考虑在内。它是否允许排除一些具有缺失值的观察结果?这会影响代表性吗?如果是,那会是一个真正的问题吗?
  • 一方面,通过 SUM 计算的总和可能会偏向于零。例如,如果 v1 到 v3 衡量满意度的组成部分,那么受访者将被视为“不太满意”,因为他们有更多的缺失值。这个结论可能具有误导性。
  • 使用 + 运算符不会导致这种偏差,但可能会导致总和中出现许多缺失值。当输入变量中存在更多缺失值并且对更多变量求和时,这个问题会变得更大。
  • 将平均值乘以变量数可能是一个更好的选择。但是,如果至少有一个非缺失值,它总是会得出一个总和。特别是对于许多输入变量,单个值可能被认为不足以推断求和度量。
  • 但也许预计这些选项都不会产生足够准确的结果。在这种情况下,可以部分通过(多重)填补缺失值 (multiple imputation of missing values) 来规避该问题。