上下界計算器 - IQR 離群值
使用四分位距(IQR)界限法識別資料集中的統計離群值。輸入以逗號分隔的數字,即可立即找出 Q1、Q3、IQR 和上下界。
輸入以逗號分隔的資料值,點選「計算」,即可查看上界、下界以及資料集中的任何離群值。
上下界計算器 - IQR 離群值
使用四分位距(IQR)界限法識別資料集中的統計離群值。輸入以逗號分隔的數字,即可立即找出 Q1、Q3、IQR 和上下界。
關於上下界計算器
上下界方法是使用四分位距(IQR)識別資料集中離群值的標準技術。它由 John Tukey 於 1977 年在探索性資料分析框架中提出,提供了一種穩健的非參數方法,可在不假設資料服從任何特定分配的情況下標記異常觀測值。此方法在入門統計課程中廣泛教授,也是盒鬚圖中預設的離群值偵測方法。
計算從排序資料集並找出第一與第三四分位數開始。Q1(第 25 百分位)是有 25% 資料低於該值的數值,而 Q3(第 75 百分位)是有 75% 資料低於該值的數值。IQR 就是 Q3 減去 Q1,代表資料中間一半的分散程度。由於 IQR 忽略分配兩端的極端值,它能抵抗其試圖偵測的離群值影響,這項特性使界限法比基於全距的方法更可靠。
計算出 IQR 後,下界設為 Q1 以下 1.5 × IQR,上界設為 Q3 以上 1.5 × IQR。任何低於下界或高於上界的資料點都會被歸類為離群值。Tukey 以經驗方式選擇 1.5 這個倍數,因為它對近似常態資料效果良好:在常態分配中,這項規則會將約 0.7% 的觀測值標記為離群值,對應到距平均數超過約 2.7 個標準差的值。
對於更極端的離群值,有些應用會使用 3 而不是 1.5 作為倍數,並將這類點標記為遠端離群值或極端離群值。位於 1.5 × IQR 界限之外但仍在 3 × IQR 界限之內的點,有時稱為輕度離群值。本計算器使用標準的 1.5 × IQR 規則,適合大多數探索性分析。
離群值偵測是資料清理、品質管制和統計建模中的關鍵步驟。在製造業中,界限外的製程測量值可能表示瑕疵品或測量錯誤。在金融領域,極端報酬可能代表資料錯誤、市場異常或需要調查的真實事件。在臨床研究中,生理上不可能的數值會被識別並審查。在機器學習中,若未處理離群值,它們可能扭曲模型訓練。
請記住,統計離群值不一定是錯誤值。離群值只是根據 IQR 規則,相對於資料主體異常遙遠的觀測值。需要進一步調查,以判斷該值是真實的極端事件、測量錯誤,還是資料輸入錯誤。
上下界範例
透過逐步演算範例,展示界限法如何在典型資料集中識別離群值。
| 資料集 | 界限與離群值 | 解讀 |
|---|---|---|
| 10, 12, 14, 16, 18, 20, 100 | 下界:4 | 上界:28 | 離群值:100 | Q1=13,Q3=19,IQR=6。下界 = 13 − 9 = 4。上界 = 19 + 9 = 28。數值 100 超過上界,因此被標記為離群值。 |
| 5, 7, 8, 9, 10, 11, 12, 14 | 下界:2.5 | 上界:16.5 | 無離群值 | Q1=7.75,Q3=11.25,IQR=3.5。界限為 2.5 和 16.5。所有值(5 到 14)都落在界限內,因此沒有離群值。 |
| 2, 3, 5, 7, 8, 9, 10, 11, 12, 50 | 下界:−2.375 | 上界:18.625 | 離群值:50 | Q1=5.5,Q3=10.75,IQR=5.25。上界 = 10.75 + 7.875 = 18.625。數值 50 遠高於上界,是明顯的離群值。 |
如何使用界限計算器
- 在輸入欄位中輸入資料值,使用逗號或空格分隔。至少需要 4 個值才能計算有意義的四分位數。
- 點選「計算」,求出 Q1、Q3、IQR、下界(Q1 − 1.5 × IQR)和上界(Q3 + 1.5 × IQR)。
- 檢視醒目顯示的界限值——任何低於下界或高於上界的資料點都是離群值。
- 查看「離群值」區段,明確列出被標記的具體數值。
- 點選「重設」清空輸入,並以新的資料集重新開始。
上下界常見問題
什麼是上界和下界?
上界是 Q3 + 1.5 × IQR,下界是 Q1 − 1.5 × IQR。任何落在這些界限之外的資料點都被視為離群值。這些界限建立了一個範圍,用來包住近似鐘形分配的預期分散範圍。
為什麼使用 1.5 倍 IQR?
John Tukey 選擇 1.5 這個倍數,是因為它在常態資料中偵測離群值時近似最佳,同時能維持較低的偽陽性率。在常態分配中,它會標記約 0.7% 的觀測值。將倍數加倍到 3 則只會捕捉極端離群值。
什麼是 IQR,如何計算?
IQR(四分位距)是 Q3 減去 Q1,代表資料中間 50% 的分散程度。計算方式是先排序資料,找出第 25 百分位(Q1)與第 75 百分位(Q3),再相減。由於 IQR 忽略最高和最低的 25% 數值,因此對離群值具有抗干擾性。
離群值是否代表資料錯誤?
不一定。離群值只是相對於資料主體而言異常極端的觀測值。它可能是真實的極端事件、測量錯誤或資料輸入錯誤。每個被標記的值在刪除或修正之前,都應結合脈絡進行調查。
界限與盒鬚圖有什麼關係?
上下界定義了標準 Tukey 盒鬚圖中的鬚。盒體涵蓋 IQR(Q1 到 Q3),盒內線表示中位數,鬚延伸到仍在界限內的最極端資料點。超過鬚的點會以離群點單獨繪出。
界限法適合小資料集嗎?
此方法在至少有 10 到 20 個觀測值時效果最好。數值較少時,四分位數估計不精確,界限可能不可靠。對於非常小的資料集,建議視覺檢查所有值,而不要只依賴自動界限規則。