箱线图(Boxplots)- 入门教程

作者:Ruben Geert van den Berg,发布于 SPSS 图表 & 统计 A-Z

箱线图(Boxplot)是一种展示一个或多个变量的四分位数(Quartiles)、异常值(Outliers)以及最小值和最大值的图表。

  • 四分位数(Quartiles)
  • 四分位距 - IQR(Interquartile Range)
  • 潜在异常值(Potential Outliers)
  • 极端值(Extreme Values)
  • 箱线图还是直方图(Histograms)?

示例

一项速度测试由 N = 233 人完成。下图显示了他们的反应时间的箱线图。

箱线图示例及解释

从这张图表中可以得出一些粗略的结论:

  • 所有 233 个反应时间都在 0 到 3,000 毫秒之间;
  • 有 4 个 高极端值(high extreme values)。这些是介于 2,551 和 2,905 毫秒之间的反应时间;
  • 有 1 个 1,749 毫秒的 高潜在异常值(high potential outlier)
  • 最大反应时间(不包括潜在异常值和极端值)约为 1,650 毫秒;
  • 75% 的受访者的得分低于约 1,150 毫秒。这是第 75 个百分位数或 四分位数 3(quartile 3)
  • 50% 的受访者的得分低于约 975 毫秒。这是第 50 个百分位数(中位数(median))或 四分位数 2(quartile 2)
  • 25% 的受访者的得分低于约 800 毫秒。这是第 25 个百分位数或 四分位数 1(quartile 1)
  • 最小反应时间(不包括潜在异常值和极端值)约为 350 毫秒;
  • 有 1 个 239 毫秒的 低潜在异常值(low potential outlier)
  • 没有任何 低极端值(low extreme values)

那么什么是四分位数?如何获得它们?潜在异常值和极端值又是如何定义的?

我们将在 这个 Googlesheet 中向您展示所有您需要知道的内容,其中一部分如下所示。

Googlesheet 中的箱线图统计

四分位数 1(Quartile 1)

四分位数 1(Quartile 1)是第 25 个 百分位数(percentile):它是将最低 25% 的分数与最高 75% 的分数分开的分数。在 Googlesheets 和 Excel 中,=PERCENTILE.EXC(A2:A234, **0.25**) 返回单元格 A2 到 A234(我们的 233 个反应时间)的分位数 1。结果是 811.5。这意味着我们 25% 的分数低于 811.5 毫秒。或者 - 反过来说 - 75% 的分数更高。

这里的一个小复杂之处是 25% 的 N = 233 个分数导致 58.25 个分数。由于没有“0.25 个分数”这样的东西,我们无法精确地将最低 25% 与最高 75% 分开。 对于这个问题没有真正的解决方案,但一种称为线性插值(linear interpolation)的技术可能最接近。这就是 Excel、Googlesheets 和 SPSS 如何得出 811.5 作为我们 233 个分数的四分位数 1。

四分位数 2(Quartile 2)

四分位数 2(Quartile 2) - 也被称为 中位数(median) - 是第 50 个百分位数:它是将最低 50% 的分数与最高 50% 的分数分开的分数。在 Googlesheets 中,=PERCENTILE.EXC(A2:A234, **0.50**) 返回单元格 A2 到 A234 的四分位数 2。对于这些数据,这将是 954 毫秒。

这个中位数是 集中趋势(central tendency) 的一种度量:它告诉我们人们通常的反应时间为 954 毫秒。常见的集中趋势度量有:

SPSS 集中趋势的度量 百分位数、四分位数和集中趋势的度量可以从 SPSS 的 Frequencies 对话框中获得。

四分位数 3(Quartile 3)

四分位数 3(Quartile 3)是第 75 个百分位数:它是将最低 75% 的分数与最高 25% 的分数分开的分数。在 Googlesheets 中,=PERCENTILE.EXC(A2:A234, **0.75**) 返回单元格 A2 到 A234 的四分位数 3。对于我们的 233 个反应时间,这将是 1,164 毫秒。

下面的屏幕截图显示,SPSS 得出的四分位数与 Excel 和 Googlesheets 完全相同。我们现在将使用四分位数 1 和 3(811.5 和 1,164 毫秒)来计算四分位距或 IQR。

SPSS 输出中的四分位数 SPSS 为我们的 N = 233 个反应时间得出了相同的四分位数

四分位距 - IQR(Interquartile Range)

四分位距或 IQR 的计算公式为:

\[IQR = quartile\;3 - quartile\;1\]

因此,对于我们的数据,这将是:

\[IQR = 1,164 - 811.5 = 352.5\]

IQR 是 离散程度(dispersion) 的一种度量:它告诉我们数据点通常相隔多远。常见的离散程度度量有:

  • 标准差(standard deviation)
  • 方差(variance);
  • 四分位距(IQR);
  • 范围(range)。

SPSS 中离散程度的度量 SPSS 的 Frequencies 对话框中离散程度的度量。

潜在异常值(Potential Outliers)

在箱线图中,潜在异常值的定义如下:

  • 低潜在异常值(low potential outlier):分数低于四分位数 1(quartile 1)1.5 倍 IQR(Interquartile Range)以上,但最多低于 3 倍 IQR;
  • 高潜在异常值(high potential outlier):分数高于四分位数 3(quartile 3)1.5 倍 IQR(Interquartile Range)以上,但最多高于 3 倍 IQR。

对于我们手头的数据,四分位数 1 = 811.5,IQR = 352.5。因此,低潜在异常值的阈值为:

  • 上限(upper bound):811.5 - 1.5 * 352.5 = 282.8;
  • 下限(lower bound):811.5 - 3 * 352.5 = -246.0。

小于此下限的分数被认为是低极端值:这些分数甚至低于四分位数 1 3 倍以上的 IQR。

箱线图的潜在异常值和极端值

高潜在异常值的阈值以类似的方式计算,使用四分位数 3 和 IQR。总而言之:对于我们手头的数据,潜在异常值的阈值为:

  • 低潜在异常值(low potential outlier):-246 ≤ 反应时间 < 282.8 (毫秒);
  • 高潜在异常值(high potential outlier):1,692.8 < 反应时间 ≤ 2,221.5 (毫秒)。

如我们的 箱线图示例 中所示,潜在异常值通常显示为 圆圈(circles)。这些圆圈要么低于最小值,要么高于最大值(均不包括异常值)。

最后需要注意的是,这些定义仅适用于箱线图。在其他上下文中,通常使用 Z 分数(z-scores)来定义异常值。

极端值(Extreme Values)

对于箱线图,极端值的定义如下:

  • 低极端值(low extreme value):分数低于四分位数 1(quartile 1)3 倍以上的 IQR(Interquartile Range);
  • 高极端值(high extreme value):分数高于四分位数 3(quartile 3)3 倍以上的 IQR(Interquartile Range)。

对于我们的 233 个反应时间,这意味着:

  • 低极端值(low extreme value):反应时间 < -246 (毫秒);
  • 高极端值(high extreme value):反应时间 > 2,221.5 (毫秒)。

在箱线图中,极端值通常用星号(*)表示。请注意,我们的 示例箱线图 显示了 4 个高极端值,但没有低极端值。

箱线图 - 用途

箱线图的基本用途是:

下图显示了在 1 个变量(反应时间试验 3)上对 3 个样本(年龄组)进行快速箱线图比较。

用于比较组的箱线图示例

最年轻的年龄组有 2 个潜在异常值。但是,它们看起来还不错,因为它们会落在其他年龄组的正常范围内。 年轻年龄组的“箱子”最低。这表明这些受访者的 IQR 最小。由于 IQR 忽略了底部和顶部 25% 的分数,因此该组不一定也具有最小的标准差。 中位数大致位于四分位数 1 和 3 之间。这表明频率分布大致对称。 最年长的年龄组具有最高的中位数反应时间,反之亦然。因此,受访者似乎随着年龄的增长而变慢。 最年长的受访者的反应时间范围最大:就受访者年龄越大而言,分数似乎相距更远。

箱线图还是直方图?

直方图(Histograms)。

下图说明了为什么我总是更喜欢直方图而不是箱线图。它基于与我们最后一个箱线图示例完全相同的数据。

按年龄组拆分的直方图

那么,箱线图告诉我们什么直方图没有告诉我们的呢?嗯,真的什么都没有。是吗?反之,直方图告诉我们:

我们的直方图比箱线图更清楚地说明了这些要点:在箱线图中,我们无法看到分数如何在“箱子”内或“须”之间分布。 但是,直方图允许我们大致重建原始数据值。没有比这更具信息量的图表了。