IQR外れ値の上限・下限計算機

四分位範囲(IQR)による上限・下限の方法でデータの統計的外れ値を判定します。カンマ区切りの数値を入力すると、Q1、Q3、IQR、上下の境界をすぐに確認できます。

カンマで区切ったデータ値を入力して計算をクリックすると、データセットの上限・下限と外れ値を表示します。

IQR外れ値の上限・下限計算機
四分位範囲(IQR)による上限・下限の方法でデータの統計的外れ値を判定します。カンマ区切りの数値を入力すると、Q1、Q3、IQR、上下の境界をすぐに確認できます。

上限・下限計算機について

上限・下限の方法は、四分位範囲(IQR)を使ってデータセット内の外れ値を識別する標準的な手法です。1977年に John Tukey が探索的データ解析の枠組みの一部として提唱し、特定の分布を仮定せずに異常な観測値を検出できる、頑健でノンパラメトリックな方法を提供しました。この方法は入門統計の授業で広く教えられており、箱ひげ図での既定の外れ値検出法でもあります。 計算は、まずデータセットを並べ替えて第1四分位数と第3四分位数を求めるところから始まります。Q1(25パーセンタイル)はデータの25%がその下に位置する値、Q3(75パーセンタイル)は75%がその下に位置する値です。IQR は単純に Q3 から Q1 を引いたもので、データの中央50%の広がりを表します。IQR は分布の両端にある極端な値を無視するため、検出対象そのものの外れ値に強く、範囲ベースの手法より信頼性が高い特性があります。 IQR を求めたら、境界は Q1 の下に 1.5 × IQR(下限)、Q3 の上に 1.5 × IQR(上限)として設定します。下限より低い、または上限より高いデータ点は外れ値として分類されます。1.5 という倍率は、ほぼ正規分布のデータに対してよく機能するため Tukey が経験的に選びました。正規分布では、このルールにより観測値の約 0.7% が外れ値としてフラグされ、平均からおよそ 2.7 標準偏差以上離れた値に相当します。 より極端な外れ値には、1.5 ではなく 3 を倍率に使い、そのような点を遠い外れ値または極端外れ値と呼ぶことがあります。1.5 × IQR の境界の外側だが 3 × IQR の境界の内側にある点は、軽度の外れ値と呼ばれることもあります。この計算機は標準的な 1.5 × IQR ルールを使用しており、ほとんどの探索的分析に適しています。 外れ値の検出は、データクレンジング、品質管理、統計モデリングで重要な工程です。製造業では、境界の外にある工程測定値は不良品や測定誤差を示す可能性があります。金融では、極端なリターンがデータエラー、市場の異常、あるいは調査が必要な実際の出来事を示唆することがあります。臨床研究では、生理的にあり得ない値が特定され、確認されます。機械学習では、外れ値を処理しないとモデル学習が歪むことがあります。 統計上の外れ値が必ずしも誤った値とは限らないことを覚えておくことが重要です。外れ値とは、IQR ルールに照らしてデータの大部分から異常に離れた観測値にすぎません。それが本当の極端事象なのか、測定誤差なのか、入力ミスなのかは、文脈を踏まえて調査する必要があります。

上限・下限の例

境界法が典型的なデータセットで外れ値をどう見つけるかを、手順付きの例で示します。

データセット境界と外れ値解釈
10, 12, 14, 16, 18, 20, 100下限: 4 | 上限: 28 | 外れ値: 100Q1=13、Q3=19、IQR=6。下限 = 13 − 9 = 4。上限 = 19 + 9 = 28。値 100 は上限を超えるため外れ値として判定されます。
5, 7, 8, 9, 10, 11, 12, 14下限: 2.5 | 上限: 16.5 | 外れ値なしQ1=7.75、Q3=11.25、IQR=3.5。境界は 2.5 と 16.5 です。すべての値(5 から 14)は境界内に収まるため、外れ値はありません。
2, 3, 5, 7, 8, 9, 10, 11, 12, 50下限: −2.375 | 上限: 18.625 | 外れ値: 50Q1=5.5、Q3=10.75、IQR=5.25。上限 = 10.75 + 7.875 = 18.625。値 50 は上限を大きく超えており、明らかな外れ値です。

使い方

  1. 入力欄にデータ値をカンマまたはスペース区切りで入力します。意味のある四分位数を求めるには、少なくとも4個の値が必要です。
  2. 計算をクリックして、Q1、Q3、IQR、下限(Q1 − 1.5 × IQR)、上限(Q3 + 1.5 × IQR)を算出します。
  3. 強調表示された境界値を確認します。下限より低い、または上限より高いデータ点は外れ値です。
  4. 外れ値セクションで、フラグされた具体的な値を確認します。
  5. リセットをクリックすると入力が消去され、新しいデータセットでやり直せます。

上限・下限のFAQ

上限と下限とは何ですか?
上限は Q3 + 1.5 × IQR、下限は Q1 − 1.5 × IQR です。これらの境界の外にあるデータ点は外れ値と見なされます。境界は、おおむね釣鐘型の分布で想定される広がりを囲む範囲を作ります。
なぜ IQR の1.5倍を使うのですか?
1.5 という倍率は、正規データで外れ値を検出するうえでほぼ最適で、かつ偽陽性率を低く保てるため John Tukey によって選ばれました。正規分布では約 0.7% の観測値がフラグされます。倍率を 3 にすると、極端な外れ値だけが検出されます。
IQR とは何で、どう計算しますか?
IQR(四分位範囲)は Q3 から Q1 を引いたもので、データの中央 50% の広がりを表します。データを並べ替え、25パーセンタイル(Q1)と75パーセンタイル(Q3)を見つけてから差を取ります。上位25% と下位25% を無視するため、外れ値に強い指標です。
外れ値があるとデータは間違っていますか?
必ずしもそうではありません。外れ値は、データの大部分に比べて異常に極端な観測値にすぎません。実際の極端事象、測定誤差、入力ミスのいずれかかもしれません。削除や修正の前に、文脈に照らして各値を確認する必要があります。
境界は箱ひげ図とどう関係しますか?
上限と下限は、標準的な Tukey の箱ひげ図でひげの範囲を定義します。箱は IQR(Q1 から Q3)を表し、箱の中の線は中央値、ひげは境界内にある最も極端なデータ点まで伸びます。ひげの外の点は外れ値として個別に描かれます。
境界法は小さいデータセットにも適していますか?
この方法は、少なくとも10〜20件の観測値がある場合に最も効果的です。値が少ないと四分位数の推定が不正確になり、境界が信頼できなくなることがあります。非常に小さいデータセットでは、自動ルールだけに頼らず、すべての値を目視で確認するのがよいでしょう。