四分位距異常值上下界計算器

使用四分位距(IQR)上下界方法找出資料集中的統計異常值。輸入以逗號分隔的數字,立即查看 Q1、Q3、IQR 與兩個界限。

輸入以逗號分隔的資料值,按下計算,即可查看資料集中的上界、下界以及任何異常值。

四分位距異常值上下界計算器
使用四分位距(IQR)上下界方法找出資料集中的統計異常值。輸入以逗號分隔的數字,立即查看 Q1、Q3、IQR 與兩個界限。

關於上下界計算器

上下界方法是使用四分位距(IQR)辨識資料集中異常值的標準技術。它由 John Tukey 於 1977 年作為探索性資料分析架構的一部分提出,提供了一種穩健、非參數的方法來標記異常觀測值,而不必假設資料符合任何特定分布。這種方法廣泛用於入門統計課程,也是箱型圖預設的異常值偵測方式。 計算時,先將資料集排序並找出第一、第三四分位數。Q1(第 25 百分位)是 25% 資料落在其下方的值,而 Q3(第 75 百分位)則是 75% 資料落在其下方的值。IQR 就是 Q3 減去 Q1,代表中間 50% 資料的離散程度。由於 IQR 會忽略分布兩端的極端值,它對自己要偵測的異常值具有抗干擾性,因此這種界限法比基於極差的方法更可靠。 計算出 IQR 後,界限會設為 Q1 下方 1.5 × IQR(下界)以及 Q3 上方 1.5 × IQR(上界)。任何低於下界或高於上界的資料點都會被判定為異常值。Tukey 經驗性地選擇了 1.5 這個倍數,因為它對近似常態的資料表現良好:在常態分布中,這條規則會將約 0.7% 的觀測值標記為異常值,相當於比平均數遠約 2.7 個標準差以上的值。 對於更極端的異常值,有些應用會將倍數從 1.5 提高到 3,並把這類點標記為遠異常值或極端異常值。位於 1.5 × IQR 界限之外但仍在 3 × IQR 界限之內的點,有時稱為輕微異常值。本計算器使用標準的 1.5 × IQR 規則,適合大多數探索性分析。 異常值偵測是資料清理、品質控管與統計建模中的關鍵步驟。在製造業中,落在界限之外的製程測量值可能代表產品有缺陷或量測錯誤。在金融領域,極端報酬可能暗示資料錯誤、市場異常或需要調查的真實事件。在臨床研究中,生理上不可能的數值會被識別並複核。在機器學習中,若不處理異常值,它們會扭曲模型訓練。 需要記住的是,統計異常值不一定就是錯誤值。異常值只是根據 IQR 規則來看,明顯遠離大部分資料的觀測值。是否代表真實極端事件、量測誤差還是輸入錯誤,都需要結合上下文進一步調查。

上下界範例

透過分步範例展示界限方法如何在典型資料集中找出異常值。

資料集界限與異常值解讀
10, 12, 14, 16, 18, 20, 100下界:4 | 上界:28 | 異常值:100Q1=13,Q3=19,IQR=6。下界 = 13 − 9 = 4。上界 = 19 + 9 = 28。數值 100 超過上界,因此被標記為異常值。
5, 7, 8, 9, 10, 11, 12, 14下界:2.5 | 上界:16.5 | 無異常值Q1=7.75,Q3=11.25,IQR=3.5。界限為 2.5 和 16.5。所有數值(5 到 14)都在界限內,因此沒有異常值。
2, 3, 5, 7, 8, 9, 10, 11, 12, 50下界:−2.375 | 上界:18.625 | 異常值:50Q1=5.5,Q3=10.75,IQR=5.25。上界 = 10.75 + 7.875 = 18.625。數值 50 遠高於上界,是明顯的異常值。

如何使用界限計算器

  1. 在輸入欄位中輸入你的資料值,以逗號或空格分隔。至少需要 4 個值才能計算有意義的四分位數。
  2. 按下計算,求出 Q1、Q3、IQR、下界(Q1 − 1.5 × IQR)和上界(Q3 + 1.5 × IQR)。
  3. 查看高亮顯示的界限值——任何低於下界或高於上界的資料點都是異常值。
  4. 查看異常值區塊,明確列出被標記的具體數值。
  5. 按下重設即可清空輸入,並以新的資料集重新開始。

上下界常見問題

什麼是上界和下界?
上界是 Q3 + 1.5 × IQR,下界是 Q1 − 1.5 × IQR。任何落在這些界限之外的資料點都被視為異常值。這些界限構成一個範圍,用來包住大致鐘形分布的預期散布。
為什麼使用 1.5 倍 IQR?
John Tukey 選擇 1.5 這個倍數,是因為它在正常資料中偵測異常值時大致最理想,同時能維持較低的誤報率。在常態分布中,它會標記約 0.7% 的觀測值。把倍數提高到 3 則只會抓到最極端的異常值。
什麼是 IQR,如何計算?
IQR(四分位距)等於 Q3 減去 Q1,代表資料中間 50% 的散布範圍。計算方式是先排序,找出第 25 百分位(Q1)和第 75 百分位(Q3),再相減。由於它忽略了最上與最下 25% 的值,因此對異常值具有抗干擾性。
異常值是否代表資料有誤?
不一定。異常值只是相對於大部分資料來說特別極端的觀測值。它可能是真實的極端事件、量測誤差或輸入錯誤。每個被標記的值都應結合上下文調查後,再決定是否刪除或更正。
界限與箱型圖有什麼關係?
上下界定義了標準 Tukey 箱型圖中的鬚。箱體涵蓋 IQR(Q1 到 Q3),箱內的線是中位數,而鬚延伸到仍在界限內的最極端資料點。超出鬚的點會單獨繪製為異常值點。
界限方法適合小樣本嗎?
這種方法最適合至少有 10 到 20 個觀測值的資料。值太少時,四分位數估計不夠精確,界限也可能不可靠。對於非常小的資料集,最好直接視覺化檢視所有值,而不是只依賴自動界限規則。