外れ値計算機 - IQR法で外れ値を検出

四分位範囲法で任意のデータセットから統計的外れ値をすばやく見つけます。軽度(1.5×IQR)または極端(3×IQR)の検出をすぐに選べます。

カンマ区切りの数値を入力し、外れ値の検出方法を選ぶと、Q1、Q3、IQR、境界値、外れ値の一覧を取得できます。

外れ値計算機 - IQR法で外れ値を検出
四分位範囲法で任意のデータセットから統計的外れ値をすばやく見つけます。軽度(1.5×IQR)または極端(3×IQR)の検出をすぐに選べます。

外れ値計算機について

外れ値とは、データセット内の他の値から異常に離れたデータ点です。統計分析では、外れ値が平均値や標準偏差などの要約統計をゆがめ、分散推定を大きくし、パラメトリック検定の前提を崩すことがあります。早期に見つけることは、探索的データ分析、品質管理、機械学習の前処理において重要なステップです。 外れ値検出で最も広く使われる方法は四分位範囲(IQR)に基づくものです。IQRは第3四分位数(Q3)と第1四分位数(Q1)の差です。この方法は、平均値や標準偏差とは異なり、極端値自体の影響を受けにくいため堅牢です。2つの境界の式は、下限 = Q1 − k × IQR、上限 = Q3 + k × IQR です。これらの境界の外にあるデータ点は外れ値として分類されます。 乗数kは、外れ値をどれだけ厳しく判定するかを決めます。最も一般的なのはk = 1.5で、箱ひげ図分析の標準値です。これは「軽度」の外れ値、つまり全体の大部分からは明らかに外れるものの、妥当な説明があり得る値を検出します。k = 3.0 にすると基準はより厳しくなり、「極端」な外れ値だけが検出されます。つまり、主分布から非常に離れていて、ほぼ確実にエラー、異常、または本当にまれな事象を示す値です。 四分位数を求めるために、計算機はまずデータを昇順に並べ替えます。Q1は並べ替え後データの25パーセンタイル、Q3は75パーセンタイルです。四分位の位置が2つのデータ点の間にある場合は、計算機が線形補間を行い、Excelの既定値や多くの統計パッケージの慣例に合った滑らかな結果を返します。 外れ値の検出は自動削除を意味しません。検出された外れ値を削除または変換する前に、原因を調べるべきです。入力ミス(数字の打ち間違い)、測定ミス(機器の誤読)、抽出ミス(別の母集団からの値)、あるいは科学的に重要で残すべき真の極端観測である可能性があります。たとえば不正検知では、最も重要なデータ点が外れ値であることがあります。臨床研究では、最も極端な反応を示した患者が最も有益な場合もあります。判断は必ず記録し、迷う場合は外れ値の有無の両方で結果を報告して感度を示してください。 IQR法はノンパラメトリックであり、母集団分布の形状を仮定しません。そのため、歪んだ分布、小標本、複数のクラスタを含むデータに特に適しています。おおむね正規分布で標本数が多い場合は、Zスコア法(平均から2〜3標準偏差を超える値を検出する方法)も代替になりますが、Zスコア自体が検出対象の外れ値の影響を受けて膨らむため、IQR法のほうが一般に信頼性が高いです。

実例

単一の外れ値、複数の外れ値、外れ値のないきれいなデータセットを示す3つの例です。

データセット外れ値(1.5×IQR)主要値
10, 12, 14, 15, 16, 18, 20, 5050Q1=13.5、Q3=18.5、IQR=5、上限=26。値50は26を超えるため外れ値として判定されます。
1, 25, 28, 30, 32, 35, 38, 1001, 100Q1=27.25、Q3=35.75、IQR=8.5、境界は14.5から48.5です。1と100はいずれもこの範囲外です。
10, 20, 30, 40, 50, 60, 70, 80None均等な間隔なので、どの値も境界から1.5×IQR以上離れていません。すべて正常値です。

外れ値計算機の使い方

  1. 入力欄に、カンマ区切りの数値を入力または貼り付けます。整数、小数、負の数に対応しています。
  2. 箱ひげ図で標準的に使う「軽度外れ値(1.5 × IQR)」を選ぶか、最も深刻な異常だけを拾う「極端外れ値(3.0 × IQR)」を選びます。
  3. 「計算」をクリックします。Q1、Q3、IQR、上下の境界、外れ値の数が表示されます。
  4. 「検出された外れ値」の一覧を確認し、削除するか残すかを決める前に各値を調べます。
  5. 下には、外れ値を除去して並び替えたデータセットが表示され、分析へのコピーにすぐ使えます。

よくある質問

IQR法による外れ値検出とは何ですか?
IQR(四分位範囲)法は、Q1 − 1.5×IQR と Q3 + 1.5×IQR の2つの境界を計算します。これらの境界の外にあるデータ点は外れ値として判定されます。Q1、Q3、IQRは外れ値そのものの影響を受けないため、平均値や標準偏差より堅牢です。
外れ値は必ず削除すべきですか?
いいえ。削除する前に調べてください。外れ値は、不正取引、新しい科学的発見、あるいは研究価値のある製造不良など、重要な実データを示していることがあります。確認済みの入力ミスなど、正当な理由がある場合にのみ削除してください。報告時は削除した事実も必ず記載します。
軽度外れ値と極端外れ値の違いは何ですか?
軽度外れ値は、四分位数から1.5×IQR〜3×IQRの範囲にあります。極端外れ値は3×IQRを超えます。箱ひげ図では通常、軽度外れ値は空白の円、極端外れ値は星印または塗りつぶしの円で表示されます。多くの探索的分析では、1.5×IQRが標準です。
この計算機は負の数に対応していますか?
はい。IQR法は尺度に依存せず、正の数、ゼロ、負の数の任意の組み合わせで正しく動作します。カンマ区切りの一覧に負の数をそのまま含めてください。例: −20, 5, 8, 9, 10, 12, 15。
必要なデータ点の最小数は何個ですか?
意味のある四分位数とIQRを求めるには、少なくとも4個のデータ点が必要です。非常に小さい標本(10〜15個未満)では境界が大きく変動するため、検出された外れ値は慎重に解釈してください。
この方法はZスコア法とどう違いますか?
Zスコア法は、平均から2〜3標準偏差を超える値を検出します。正規分布に近いデータを前提とし、検出対象の外れ値の影響を受けやすいです。極端値が平均と標準偏差を押し上げるためです。IQR法は正規性を仮定しないため、歪んだデータ、裾の厚い分布、小規模から中規模の標本に向いています。