IQR計算器 - 四分位距、Q1、Q3與離群值

從任意逗號分隔資料集計算四分位距(IQR)、四分位數Q1和Q3、中位數,並使用1.5×IQR規則識別離群值。

將資料以逗號分隔數字輸入,然後按一下計算,即可取得完整五數概括、IQR、圍欄值以及所有離群值。

IQR計算器 - 四分位距、Q1、Q3與離群值
從任意逗號分隔資料集計算四分位距(IQR)、四分位數Q1和Q3、中位數,並使用1.5×IQR規則識別離群值。

輸入以逗號或空格分隔的數字,例如 2, 4, 4, 5, 6, 7, 8, 9

關於IQR計算器

四分位距(IQR)是資料集中間50%的範圍,也就是第25百分位數(Q1)與第75百分位數(Q3)之間的距離。它是統計離散程度中最穩健且最常用的指標之一,因為不同於全距或標準差,它完全不受極端值和離群值影響。無論你分析的是考試成績、血壓讀數、房價、製造公差,或任何其他真實世界資料集,IQR都能可靠呈現中心資料的分散情形。 計算IQR時,計算器會先將資料由小到大排序,再對順序統計量使用線性插值定位Q1與Q3。Q1是第25百分位數的值,也就是有25%的資料低於該點。Q3是第75百分位數的值,也就是有75%的資料低於該點。IQR就是Q3 − Q1。計算器也會回報中位數(Q2)、最小值和最大值,提供完整五數概括,這是盒鬚圖的基礎。 John Tukey提出的1.5×IQR規則,是識別潛在離群值的標準方法。任何低於下圍欄(Q1 − 1.5×IQR)或高於上圍欄(Q3 + 1.5×IQR)的資料點,都被視為疑似離群值。這些圍欄定義了Tukey盒鬚圖中的鬚。距離最近四分位數超過3×IQR的點(由內圍欄延伸到外圍欄)被視為極端離群值。本計算器會標記所有位於1.5×IQR圍欄之外的值。 需要注意的是,1.5×IQR規則識別的是統計離群值,也就是距離資料中心主體異常遠的值,但不一定代表資料錯誤。被標記為離群值的點可能是量測誤差、資料輸入錯誤、詐欺訊號,或只是確實罕見但合理的觀測值。如何處理被標記的點,仍必須依賴領域知識判斷。 當資料偏斜或預期存在離群值時,例如收入分布、反應時間,或混合市場中的房價,IQR是首選的離散程度指標。對於沒有離群值且對稱、常態分布的資料,標準差的效率略高。但當穩健性很重要時,無論是在探索性資料分析、無母數統計,或任何不能假設常態性的情境中,IQR都是描述資料中間部分分散程度的首選工具。

IQR範例

四個資料集展示IQR和離群值偵測在實務中的運作方式。

資料集IQR備註
2, 4, 4, 5, 6, 7, 8, 9IQR = 3.25(Q1=4,Q3=7.25)數值個數為偶數。Q1=4,中位數=5.5,Q3=7.25。未偵測到離群值。
10, 20, 30, 40, 50, 60, 70IQR = 30(Q1=25,Q3=55)奇數筆資料:Q1=25,中位數=40,Q3=55,IQR=30。下圍欄=−20,上圍欄=100。無離群值。
6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49, 78, 108IQR = 11(Q1=36,Q3=47)下圍欄=19.5,上圍欄=63.5。值6、7、15、78和108被標記為離群值。
88, 92, 80, 78, 95, 84, 76, 90, 81, 85, 93IQR = 10.5(Q1=80.5,Q3=91)測驗成績介於76到95。無離群值,代表班級表現相當集中。

如何使用IQR計算器

  1. 在輸入欄位中以逗號分隔數字輸入資料集。也可以使用空格作為分隔符。數值順序不重要,計算器會自動排序。
  2. 按一下計算IQR。工具會顯示n(數量)、最小值、最大值、Q1、中位數、Q3、IQR、下圍欄與上圍欄,以及所有離群值。
  3. 查看IQR以了解資料中間50%的分散程度。IQR越大,表示資料中心部分的變異性越高。
  4. 檢查圍欄值。任何低於Q1 − 1.5×IQR或高於Q3 + 1.5×IQR的資料點,都會列為潛在離群值。請逐一檢查被標記的點,以判斷它是資料錯誤還是真實的極端值。
  5. 使用範例按鈕載入預建資料集,觀察不同資料分布下IQR與離群值偵測的表現。

IQR常見問題

什麼是四分位距(IQR)?
四分位距是第三四分位數(Q3,第75百分位數)與第一四分位數(Q1,第25百分位數)之間的差:IQR = Q3 − Q1。它代表資料中間50%的分散範圍。因為它忽略最高和最低各25%的值,所以IQR不受極端離群值影響;當資料偏斜或包含異常值時,它比全距或標準差更穩健。
Q1和Q3如何計算?
計算器對排序後的資料使用線性插值。對Q1而言,其位置是在零索引排序陣列中的0.25 × (n−1)。如果該位置不是整數,就在相鄰兩個資料點之間插值。Q3也使用相同方法,位置為0.75 × (n−1)。這與R(type 7)和Excel的QUARTILE.INC函數所使用的方法相同。
1.5×IQR規則如何識別離群值?
John Tukey的1.5×IQR規則定義下圍欄 = Q1 − 1.5×IQR,上圍欄 = Q3 + 1.5×IQR。任何落在這些圍欄之外的資料點都是潛在離群值。選擇1.5作為倍數,是因為對於完全常態分布,只有約0.7%的值會落在這些圍欄之外,因此很不可能只是偶然發生。更嚴格的規則使用3.0倍數,只將最極端的點標記為遠端離群值。
衡量分散程度時,IQR比標準差更好嗎?
每種指標都適合不同情境。標準差使用所有資料值,最適合沒有離群值、對稱且常態分布的資料。IQR只使用中間50%的值,因此更能抵抗偏斜與離群值。如果資料近似常態,標準差提供更多資訊。如果資料偏斜(收入、房價、生存時間)或包含離群值,IQR是衡量典型分散程度的更佳指標。
只有兩個或三個值的資料集可以使用IQR嗎?
技術上可以,但結果用途有限。在非常小的樣本中(n < 4或5),四分位數估計高度不穩定,IQR無法可靠代表母體分散程度。1.5×IQR離群值規則在極小樣本下也表現不佳:即使資料含有錯誤也可能不標記離群值,或產生排除合理值的圍欄。一般而言,具意義的IQR分析至少需要5–10個觀測值。