離群值計算器 - 使用IQR方法偵測離群值

使用四分位距法在任何資料集中快速找出統計離群值——可立即選擇輕度(1.5×IQR)或極端(3×IQR)偵測。

輸入以逗號分隔的數字清單,選擇離群值偵測方法,即可取得Q1、Q3、IQR、邊界值以及離群值清單。

離群值計算器 - 使用IQR方法偵測離群值
使用四分位距法在任何資料集中快速找出統計離群值——可立即選擇輕度(1.5×IQR)或極端(3×IQR)偵測。

關於離群值計算器

離群值是指與資料集中其他數值相距異常遠的資料點。在統計分析中,離群值會扭曲平均數與標準差等摘要統計,放大變異數估計,並破壞參數檢定的假設。及早辨識離群值,是探索性資料分析、品質控管與機器學習前處理中的關鍵步驟。 最常用的離群值偵測方法是以四分位距(IQR)為基礎,也就是第三四分位數(Q3)與第一四分位數(Q1)之差。這種方法具有穩健性,因為IQR不像平均數與標準差那樣會被極端值本身明顯影響。兩個邊界的公式為:下邊界 = Q1 − k × IQR,上邊界 = Q3 + k × IQR。落在這些邊界之外的任何資料點都會被歸類為離群值。 乘數k決定離群值的標記嚴格程度。最常見的選擇是k = 1.5,這是箱型圖分析中的預設值,用來找出所謂的「輕度」離群值——也就是明顯偏離大多數資料,但仍可能有合理解釋的數值。若k = 3.0,條件會更嚴格;只有「極端」離群值才會被標記——也就是距離主要分布非常遠、幾乎可以確定是錯誤、異常或真正罕見事件的數值。 為了計算四分位數,計算器會先將資料由小到大排序。Q1是排序後資料的第25百分位數,Q3是第75百分位數。當四分位位置落在兩個資料點之間時,計算器會以線性插值產生平滑結果,與Excel預設值以及許多統計套件的慣例一致。 偵測到離群值並不代表應自動刪除。在移除或轉換任何離群值之前,應先調查其成因。離群值可能是輸入錯誤(數字打錯)、測量錯誤(儀器讀值失準)、抽樣錯誤(來自不同母體的值),或是真實且具有科學意義的極端觀測,應予保留。例如在詐欺偵測中,最重要的資料點往往就是離群值;在臨床研究中,反應最極端的病患可能最具資訊性。務必記錄你的決定,並在不確定時同時報告包含與不包含離群值的結果,以呈現敏感度。 IQR方法屬於非參數方法,表示它對底層分布形狀沒有假設。因此,它特別適合偏態分布、小樣本,以及包含多個群集的資料。對於近似常態且樣本量較大的資料,可使用Z分數方法(將距離平均數超過2或3個標準差的值標記出來)作為替代,但Z分數本身也會被其想要偵測的離群值放大,因此IQR方法通常更可靠。

計算範例

三組資料分別說明單一離群值、多個離群值,以及沒有離群值的乾淨資料集。

資料集離群值(1.5×IQR)關鍵值
10, 12, 14, 15, 16, 18, 20, 5050Q1=13.5,Q3=18.5,IQR=5,上邊界=26。數值50超過26,因此被標記為離群值。
1, 25, 28, 30, 32, 35, 38, 1001, 100Q1=27.25,Q3=35.75,IQR=8.5,邊界為14.5到48.5。1與100都落在這個範圍之外。
10, 20, 30, 40, 50, 60, 70, 80None等距分布表示沒有任何點與邊界的距離超過1.5×IQR。所有數值都很乾淨。

如何使用離群值計算器

  1. 在輸入欄位中輸入或貼上以逗號分隔的數字清單。支援整數、小數與負數。
  2. 選擇「輕度離群值(1.5 × IQR)」進行箱型圖常用的標準分析,或選擇「極端離群值(3.0 × IQR)」只標記最嚴重的異常。
  3. 點選「計算」。工具會顯示Q1、Q3、IQR、上下邊界以及離群值數量。
  4. 查看「偵測到的離群值」清單。在決定刪除或保留之前,先檢查每個被標記的值。
  5. 下方會顯示清理後的資料集(已排序並移除離群值),方便快速複製到分析中。

常見問題

IQR離群值偵測法是什麼?
IQR(四分位距)方法會計算兩個邊界:Q1 − 1.5×IQR 與 Q3 + 1.5×IQR。任何落在這兩個邊界之外的資料點都會被標記為離群值。這種方法很穩健,因為與平均數和標準差不同,Q1、Q3與IQR不會受到離群值本身的影響。
我應該總是刪除離群值嗎?
不應該。刪除之前先調查。離群值可能代表真實且重要的資料點——例如詐欺交易、新的科學發現,或值得研究的製造缺陷。只有在有充分理由時才刪除,例如已確認的資料輸入錯誤。報告分析時也要一併註明刪除情況。
輕度離群值和極端離群值有什麼差別?
輕度離群值位於四分位數之外1.5×IQR到3×IQR之間。極端離群值則超過3×IQR。箱型圖通常以空心圓表示輕度離群值,以星號或實心圓表示極端離群值。對大多數探索性分析來說,1.5×IQR是標準門檻。
這個計算器支援負數嗎?
支援。IQR方法與尺度無關,適用於正數、零與負數的任何組合。只要在以逗號分隔的清單中加入負數即可,例如:−20, 5, 8, 9, 10, 12, 15。
最少需要多少個資料點?
計算器至少需要4個資料點才能計算有意義的四分位數與IQR。對於非常小的樣本(少於10到15個值),邊界會變動較大,因此對偵測到的離群值應審慎解讀。
這種方法與Z分數方法相比如何?
Z分數方法會將距離平均數超過2或3個標準差的值標記出來。它假設資料近似常態,而且對自己想偵測的離群值很敏感,因為極端值會抬高平均數和標準差。IQR方法不假設常態性,因此更適合偏態資料、厚尾分布,以及小樣本或中等樣本。