上下界计算器 - IQR 异常值

使用四分位距(IQR)界限法识别数据集中的统计异常值。输入逗号分隔的数字,即可立即求出 Q1、Q3、IQR 和上下界。

输入用逗号分隔的数据值,点击“计算”,即可查看上界、下界以及数据集中的任何异常值。

上下界计算器 - IQR 异常值
使用四分位距(IQR)界限法识别数据集中的统计异常值。输入逗号分隔的数字,即可立即求出 Q1、Q3、IQR 和上下界。

关于上下界计算器

上下界方法是使用四分位距(IQR)识别数据集中异常值的标准技术。它由 John Tukey 于 1977 年在探索性数据分析框架中提出,提供了一种稳健的非参数方法,可在不假设数据服从任何特定分布的情况下标记异常观测值。该方法在入门统计课程中广泛教授,也是箱线图中默认的异常值检测方法。 计算首先对数据集排序,并找出第一四分位数和第三四分位数。Q1(第 25 百分位)表示有 25% 的数据低于该值,Q3(第 75 百分位)表示有 75% 的数据低于该值。IQR 就是 Q3 减去 Q1,代表数据中间一半的离散范围。由于 IQR 忽略分布两端的极端值,它对它试图检测的异常值本身具有抗干扰性,这使得界限法比基于极差的方法更可靠。 计算出 IQR 后,下界设为 Q1 以下 1.5 × IQR, 上界设为 Q3 以上 1.5 × IQR。任何低于下界或高于上界的数据点都会被归类为异常值。Tukey 通过经验选择 1.5 这个倍数,因为它对近似正态数据效果良好:在正态分布中,该规则会将约 0.7% 的观测值标记为异常值,相当于距离均值超过约 2.7 个标准差的值。 对于更极端的异常值,有些应用会使用 3 而不是 1.5 作为倍数,并将这些点称为远端异常值或极端异常值。位于 1.5 × IQR 界限之外但仍在 3 × IQR 界限之内的点,有时称为轻度异常值。本计算器采用标准的 1.5 × IQR 规则,适用于大多数探索性分析。 异常值检测是数据清洗、质量控制和统计建模中的关键步骤。在制造业中,界限外的过程测量值可能表示缺陷产品或测量误差。在金融领域,极端收益可能提示数据错误、市场异常或需要调查的真实事件。在临床研究中,生理上不可能的数值会被识别并复核。在机器学习中,如果不处理异常值,它们可能会扭曲模型训练。 需要记住,统计异常值并不一定是错误值。异常值只是根据 IQR 规则,相对于数据主体显得异常远的观测值。需要进一步调查,判断该值是真实的极端事件、测量误差,还是数据录入错误。

上下界示例

通过逐步演算示例,展示界限法如何在典型数据集中识别异常值。

数据集界限和异常值解读
10, 12, 14, 16, 18, 20, 100下界:4 | 上界:28 | 异常值:100Q1=13,Q3=19,IQR=6。下界 = 13 − 9 = 4。上界 = 19 + 9 = 28。数值 100 超过上界,因此被标记为异常值。
5, 7, 8, 9, 10, 11, 12, 14下界:2.5 | 上界:16.5 | 无异常值Q1=7.75,Q3=11.25,IQR=3.5。界限为 2.5 和 16.5。所有值(5 到 14)都落在界限内,因此没有异常值。
2, 3, 5, 7, 8, 9, 10, 11, 12, 50下界:−2.375 | 上界:18.625 | 异常值:50Q1=5.5,Q3=10.75,IQR=5.25。上界 = 10.75 + 7.875 = 18.625。数值 50 远高于上界,是明显的异常值。

如何使用界限计算器

  1. 在输入框中输入数据值,用逗号或空格分隔。至少需要 4 个值才能计算有意义的四分位数。
  2. 点击“计算”,求出 Q1、Q3、IQR、下界(Q1 − 1.5 × IQR)和上界(Q3 + 1.5 × IQR)。
  3. 查看突出显示的界限值——任何低于下界或高于上界的数据点都是异常值。
  4. 查看“异常值”部分,明确列出被标记的具体数值。
  5. 点击“重置”清空输入,并使用新的数据集重新开始。

上下界常见问题

什么是上界和下界?
上界是 Q3 + 1.5 × IQR,下界是 Q1 − 1.5 × IQR。任何落在这些界限之外的数据点都被视为异常值。这些界限形成一个范围,用来包含近似钟形分布的预期离散范围。
为什么使用 1.5 倍 IQR?
John Tukey 选择 1.5 这个倍数,是因为它在正态数据中检测异常值时近似最优,同时能保持较低的误报率。在正态分布中,它会标记约 0.7% 的观测值。将倍数加倍到 3 则只会捕捉极端异常值。
什么是 IQR,如何计算?
IQR(四分位距)是 Q3 减去 Q1,表示数据中间 50% 的离散范围。计算方法是先对数据排序,找出第 25 百分位(Q1)和第 75 百分位(Q3),再相减。由于 IQR 忽略最高和最低的 25% 数值,因此对异常值具有抗干扰性。
异常值是否意味着数据有误?
不一定。异常值只是相对于数据主体而言异常极端的观测值。它可能是真实的极端事件、测量误差或数据录入错误。每个被标记的值在删除或更正之前,都应结合上下文进行调查。
界限与箱线图有什么关系?
上下界定义了标准 Tukey 箱线图中的须。箱体覆盖 IQR(Q1 到 Q3),箱内线表示中位数,须延伸到仍在界限内的最极端数据点。超过须的点会作为异常点单独绘制。
界限法适合小数据集吗?
该方法在至少有 10 到 20 个观测值时效果最好。数值较少时,四分位数估计不精确,界限可能不可靠。对于非常小的数据集,建议直观检查所有值,而不要仅依赖自动界限规则。