SPSS 中 Kendall’s Tau 的两种简易方法
作者:Ruben Geert van den Berg,发表于 Correlation
示例数据文件
一项针对公司所有者的调查包括了多年来“您的年度收入是多少?”这个问题。 数据(部分如下所示)位于 companies.sav 文件中。
我们今天的主要研究问题是:年度收入在多大程度上相互关联? 2014 年表现最佳的公司与 2015 年和其他年份的公司是否相同? 或者我们是否每年都有完全不同的“赢家”? 如果我们有确切的年度收入数据,我们可以选择计算年份之间的 Pearson 相关系数 (Pearson correlation),甚至可以进行一些回归分析。 但是,我们的数据仅包含收入_类别_,这些是 ordinal variables(有序变量)。 这给我们留下两种选择:我们可以检查
虽然这两种统计量都适用,但我们将选择 Kendall’s tau:它的 standard error(标准误差)和 sampling distribution (抽样分布) 更为人所知,并且后者收敛到 normal distribution (正态分布) 的速度更快。
筛选出国内公司
我们将通过使用 FILTER 将我们的分析限制在外国公司。 由于此变量仅包含 1(外国)和 0(国内),因此只需要一行 syntax (语法)。
***Restrict analyses to foreign companies.
**
filter by foreign.
从 Correlations 菜单计算 Kendall’s Tau-B
计算 Kendall’s tau-b 最简单的方法是使用 correlations menu(相关性菜单),如下所示。
- 将所有相关变量移动到 variables box(变量框)中,
- 选择 Kendall’s tau-b,然后
- 单击 P aste 将生成以下 syntax (语法)。 让我们运行它。
***Kendall's tau-b as pasted from correlations dialog.
**
NONPAR CORR
/VARIABLES=rev14 rev15 rev16 rev17 rev18
/PRINT=KENDALL TWOTAIL NOSIG
/MISSING=PAIRWISE.
***Short syntax, identical results.
**
nonpar corr rev14 to rev18
/print kendall nosig.
结果
SPSS 创建一个完整的 correlation matrix(相关矩阵),其中一部分如下所示。
请注意,大多数 Kendall 相关性都(非常)高。 这意味着在一个年份表现良好的公司_通常_在其他年份也表现良好。 尽管我们的 sample size(样本量)非常小,但许多 Kendall 相关性都具有 statistically significant (统计显著性)。 这些 p-value(p 值)与在 JASP 中重新运行分析获得的值相同。
从 Crosstabs 菜单计算 Kendall’s Tau-B 和 Tau-C
从 SPSS 获取 Kendalls tau 的另一种方法是使用 CROSSTABS。 我们只在以下情况下推荐这种方法:
- 无论如何您都要运行 CROSSTABS - 可能是为了获得 chi-square tests (卡方检验);
- 您需要 Kendall’s tau-c 而不是 tau-b;
在这种情况下,您可以访问 Crosstabs dialog(交叉表对话框),如下所示。
- 许多有用的 association measures(关联性度量) - 包括 Cramér’s V 和 eta squared - 可以在 Statistics(统计)下找到。
- 选择 Kendall’s tau-b 和/或 tau-c - 尽管后者很少被报告。
- 单击 P aste 将生成以下 syntax (语法)。
***Kendall's tau-b as pasted from crosstabs dialog.
**
CROSSTABS
/TABLES=rev14 BY rev18
/FORMAT=AVALUE TABLES
/STATISTICS=BTAU
/CELLS=COUNT
/COUNT ROUND CELL.
***Short syntax, identical results.
**
crosstabs rev14 by rev18
/statistics btau.
小样本下的错误显著性水平
虽然从 CROSSTABS 获得的 Kendall’s tau 是正确的,但其他一些结果充其量也令人尴尬。
- Kendall’s tau-b 与从 correlations dialog(相关性对话框)获得的结果相同;
- Approximate T 是一个 z-value(z 值) 而不是 t-value(t 值):它近似于 normally distributed (正态分布),但这仅适用于合理的 sample size(样本量)。 它不能用于本例中使用的小样本量。
- 因此,Approximate Significance (近似显著性) 严重失真:当使用 correlations dialog(相关性对话框)时,SPSS 对于完全相同的数据 得出的 p = 0.079。 这应该是用于小样本量的精确 p-value(p 值)。
“官方”说法是,近似显著性可以用于 N > 10,但如果 N < 20 左右,最好避免使用。 在这种情况下,从 Correlations dialog(相关性对话框)运行 Kendall’s tau 可能比从 Crosstabs(交叉表)运行更明智。