IQR计算器 - 四分位距、Q1、Q3与离群值
从任意逗号分隔的数据集计算四分位距(IQR)、四分位数Q1和Q3、中位数,并用1.5×IQR规则识别离群值。
将数据以逗号分隔的数字形式输入,然后点击计算,即可获得完整的五数概括、IQR、围栏值以及所有离群值。
IQR计算器 - 四分位距、Q1、Q3与离群值
从任意逗号分隔的数据集计算四分位距(IQR)、四分位数Q1和Q3、中位数,并用1.5×IQR规则识别离群值。
输入用逗号或空格分隔的数字,例如 2, 4, 4, 5, 6, 7, 8, 9
关于IQR计算器
四分位距(IQR)是数据集中间50%的范围,即第25百分位数(Q1)与第75百分位数(Q3)之间的距离。它是统计离散程度中最稳健、最常用的度量之一,因为不同于全距或标准差,它完全不受极端值和离群值影响。无论你分析的是考试成绩、血压读数、房价、制造公差,还是其他真实世界数据集,IQR都能可靠地呈现数据中心部分的离散程度。
计算IQR时,计算器会先将数据从小到大排序,然后对顺序统计量使用线性插值来定位Q1和Q3。Q1是第25百分位数处的值,即有25%的数据低于该点。Q3是第75百分位数处的值,即有75%的数据低于该点。IQR就是Q3 − Q1。计算器还会报告中位数(Q2)、最小值和最大值,形成完整的五数概括,这是箱线图的基础。
由John Tukey提出的1.5×IQR规则,是识别潜在离群值的标准方法。任何低于下围栏(Q1 − 1.5×IQR)或高于上围栏(Q3 + 1.5×IQR)的数据点,都被视为疑似离群值。这些围栏定义了Tukey箱线图中的须。距离最近四分位数超过3×IQR的点(由内围栏延伸到外围栏)被视为极端离群值。本计算器会标记所有落在1.5×IQR围栏之外的值。
需要注意的是,1.5×IQR规则识别的是统计离群值,也就是距离数据主体中心异常远的值,但它们不一定是数据错误。被标记为离群值的点可能是测量误差、数据录入错误、欺诈信号,也可能只是确实罕见但合理的观测值。如何处理被标记的点,始终需要结合领域知识判断。
当数据偏斜或预期存在离群值时,例如收入分布、反应时间或混合市场中的房价,IQR是首选的离散程度度量。对于没有离群值且对称、近似正态分布的数据,标准差的效率略高。但当稳健性很重要时,无论是在探索性数据分析、非参数统计,还是在无法假设正态性的场景中,IQR都是刻画数据中间部分分散程度的首选工具。
IQR示例
四个数据集展示IQR和离群值检测在实践中的工作方式。
| 数据集 | IQR | 说明 |
|---|---|---|
| 2, 4, 4, 5, 6, 7, 8, 9 | IQR = 3.25(Q1=4,Q3=7.25) | 数值个数为偶数。Q1=4,中位数=5.5,Q3=7.25。未检测到离群值。 |
| 10, 20, 30, 40, 50, 60, 70 | IQR = 30(Q1=25,Q3=55) | 奇数个数据:Q1=25,中位数=40,Q3=55,IQR=30。下围栏=−20,上围栏=100。无离群值。 |
| 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49, 78, 108 | IQR = 11(Q1=36,Q3=47) | 下围栏=19.5,上围栏=63.5。值6、7、15、78和108被标记为离群值。 |
| 88, 92, 80, 78, 95, 84, 76, 90, 81, 85, 93 | IQR = 10.5(Q1=80.5,Q3=91) | 考试成绩范围从76到95。无离群值,说明班级表现较为集中。 |
如何使用IQR计算器
- 在输入框中以逗号分隔数字的形式输入数据集。也可以使用空格作为分隔符。数值顺序无关紧要,计算器会自动排序。
- 点击计算IQR。工具会显示n(数量)、最小值、最大值、Q1、中位数、Q3、IQR、下围栏和上围栏,以及所有离群值。
- 查看IQR,了解数据中间50%的分散程度。IQR越大,表示数据中心部分的变异性越高。
- 检查围栏值。任何低于Q1 − 1.5×IQR或高于Q3 + 1.5×IQR的数据点都会列为潜在离群值。请逐一调查被标记的点,以判断它是数据错误还是真实的极端值。
- 使用示例按钮加载预设数据集,观察不同数据分布下IQR和离群值检测的表现。
IQR常见问题
什么是四分位距(IQR)?
四分位距是第三四分位数(Q3,第75百分位数)与第一四分位数(Q1,第25百分位数)之间的差:IQR = Q3 − Q1。它表示数据中间50%的分散范围。由于它忽略最高和最低各25%的数值,IQR不受极端离群值影响,因此当数据偏斜或包含异常值时,它比全距或标准差更稳健。
Q1和Q3是如何计算的?
计算器对排序后的数据使用线性插值。对于Q1,其位置是在零索引排序数组中的0.25 × (n−1)。如果该位置不是整数,就在相邻两个数据点之间插值。Q3使用同样方法,位置为0.75 × (n−1)。这与R(type 7)和Excel的QUARTILE.INC函数所用方法相同。
1.5×IQR规则如何识别离群值?
John Tukey的1.5×IQR规则定义下围栏 = Q1 − 1.5×IQR,上围栏 = Q3 + 1.5×IQR。任何落在这些围栏之外的数据点都是潜在离群值。选择1.5这个倍数,是因为对于完全正态分布,只有约0.7%的值会落在这些围栏之外,因此它们很不可能只是偶然出现。更严格的规则使用3.0倍数,只将最极端的点标记为远端离群值。
衡量离散程度时,IQR比标准差更好吗?
两种度量适用于不同情况。标准差使用所有数据值,对于没有离群值、对称且正态分布的数据最优。IQR只使用中间50%的数值,因此对偏斜和离群值更有抵抗力。如果数据近似正态,标准差能提供更多信息。如果数据偏斜(收入、房价、生存时间)或包含离群值,IQR更适合衡量典型分散程度。
只有两个或三个值的数据集可以使用IQR吗?
技术上可以,但结果用途有限。样本很小时(n < 4或5),四分位数估计非常不稳定,IQR不能可靠代表总体离散程度。1.5×IQR离群值规则在极小样本下表现也很差:即使数据有错误也可能不标记离群值,或生成排除合理值的围栏。通常至少需要5–10个观测值,IQR分析才有意义。