IQR計算機 - 四分位範囲、Q1、Q3、外れ値

任意のカンマ区切りデータセットから、四分位範囲(IQR)、四分位数Q1・Q3、中央値を計算し、1.5×IQRルールで外れ値を特定します。

データをカンマ区切りの数値として入力し、計算をクリックすると、五数要約、IQR、フェンス値、外れ値をまとめて確認できます。

IQR計算機 - 四分位範囲、Q1、Q3、外れ値
任意のカンマ区切りデータセットから、四分位範囲(IQR)、四分位数Q1・Q3、中央値を計算し、1.5×IQRルールで外れ値を特定します。

カンマまたはスペースで区切って数値を入力します。例: 2, 4, 4, 5, 6, 7, 8, 9

IQR計算機について

四分位範囲(IQR)は、データセットの中央50%の範囲、つまり第25パーセンタイル(Q1)と第75パーセンタイル(Q3)の間の距離です。全範囲や標準偏差とは異なり、極端な値や外れ値の影響をまったく受けないため、統計的なばらつきを測る指標の中でも特に頑健で広く使われています。試験の点数、血圧測定値、住宅価格、製造公差、その他の現実世界のデータセットを分析する場合でも、IQRは中心部分の広がりを信頼性高く示します。 IQRを計算する際、この計算機はまずデータを小さい順に並べ、順序統計量に線形補間を適用してQ1とQ3を求めます。Q1は第25パーセンタイルの値で、データの25%がその値を下回る点です。Q3は第75パーセンタイルの値で、データの75%がその値を下回る点です。IQRは単純にQ3 − Q1です。中央値(Q2)、最小値、最大値も表示されるため、箱ひげ図の基礎となる完全な五数要約が得られます。 John Tukeyによって導入された1.5×IQRルールは、潜在的な外れ値を特定する標準的な方法です。下側フェンス(Q1 − 1.5×IQR)より小さい、または上側フェンス(Q3 + 1.5×IQR)より大きいデータ点は、疑わしい外れ値と見なされます。これらのフェンスはTukeyの箱ひげ図におけるひげを定義します。最も近い四分位数から3×IQRを超えて離れた点(内側フェンスを外側フェンスまで拡張したもの)は、極端な外れ値と見なされます。この計算機は1.5×IQRフェンスの外側にあるすべての値をフラグ付けします。 重要なのは、1.5×IQRルールが特定するのは統計的外れ値、つまりデータの中心的なまとまりから異常に遠い値であり、必ずしもデータ誤りではないという点です。外れ値としてフラグ付けされた点は、測定誤差、入力ミス、不正の兆候、または単に本当にまれだが正当な観測値である可能性があります。フラグ付けされた点をどう扱うかは、常に分野固有の知識に基づいて判断する必要があります。 IQRは、所得分布、反応時間、混在した市場における住宅価格など、データが歪んでいる場合や外れ値が想定される場合に適したばらつきの指標です。外れ値がなく対称な正規分布データでは、標準偏差の方がやや効率的です。しかし、探索的データ分析、ノンパラメトリック統計、正規性を仮定できない場面など、頑健性が重要な場合には、IQRがデータ中央部の広がりを表す定番のツールです。

IQRの例

IQRと外れ値検出が実際にどのように機能するかを、4つのデータセットで示します。

データセットIQRメモ
2, 4, 4, 5, 6, 7, 8, 9IQR = 3.25(Q1=4、Q3=7.25)値の個数は偶数です。Q1=4、中央値=5.5、Q3=7.25。外れ値は検出されません。
10, 20, 30, 40, 50, 60, 70IQR = 30(Q1=25、Q3=55)奇数個のデータ: Q1=25、中央値=40、Q3=55、IQR=30。下側フェンス=−20、上側フェンス=100。外れ値はありません。
6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49, 78, 108IQR = 11(Q1=36、Q3=47)下側フェンス=19.5、上側フェンス=63.5。値6、7、15、78、108が外れ値としてフラグ付けされます。
88, 92, 80, 78, 95, 84, 76, 90, 81, 85, 93IQR = 10.5(Q1=80.5、Q3=91)テスト点数は76から95の範囲です。外れ値はなく、クラスの成績が密にまとまっています。

IQR計算機の使い方

  1. 入力欄にデータセットをカンマ区切りの数値として入力します。スペースを区切り文字として使うこともできます。値の順序は関係ありません。計算機が自動的に並べ替えます。
  2. IQRを計算をクリックします。ツールはn(件数)、最小値、最大値、Q1、中央値、Q3、IQR、下側・上側フェンス、外れ値を表示します。
  3. IQRを確認して、データ中央50%がどの程度広がっているかを理解します。IQRが大きいほど、データの中心部分のばらつきが大きいことを意味します。
  4. フェンス値を確認します。Q1 − 1.5×IQRより小さい、またはQ3 + 1.5×IQRより大きいデータ点は、潜在的な外れ値として表示されます。フラグ付けされた各点がデータ誤りなのか、本当に極端な値なのかを調べてください。
  5. 例ボタンを使ってあらかじめ用意されたデータセットを読み込み、異なるデータ分布でIQRと外れ値検出がどう振る舞うかを確認します。

IQR FAQ

四分位範囲(IQR)とは何ですか?
四分位範囲は、第3四分位数(Q3、第75パーセンタイル)と第1四分位数(Q1、第25パーセンタイル)の差です: IQR = Q3 − Q1。データ中央50%の広がりを表します。上位25%と下位25%の値を無視するため、IQRは極端な外れ値の影響を受けず、データが歪んでいる場合や異常値を含む場合には、全範囲や標準偏差よりも頑健なばらつきの指標になります。
Q1とQ3はどのように計算されますか?
計算機は並べ替え済みデータに線形補間を使用します。Q1の位置は、ゼロ始まりのソート済み配列で0.25 × (n−1)です。その位置が整数でない場合、隣接する2つのデータ点の間で補間します。Q3も同じ方法で、位置は0.75 × (n−1)です。これはR(type 7)やExcelのQUARTILE.INC関数で使われる方法と同じです。
1.5×IQRルールはどのように外れ値を特定しますか?
John Tukeyの1.5×IQRルールでは、下側フェンス = Q1 − 1.5×IQR、上側フェンス = Q3 + 1.5×IQRと定義します。これらのフェンスの外側にあるデータ点は潜在的な外れ値です。1.5という倍率が選ばれたのは、完全な正規分布ではこれらのフェンス外に出る値が約0.7%しかなく、偶然起こる可能性が非常に低いためです。より厳しいルールでは倍率3.0を使い、最も極端な点だけを遠い外れ値としてフラグ付けします。
ばらつきの測定ではIQRは標準偏差より優れていますか?
それぞれ適した状況が異なります。標準偏差はすべてのデータ値を使い、外れ値のない対称な正規分布データに最適です。IQRは中央50%の値だけを使うため、歪みや外れ値に対してはるかに強い指標です。データがほぼ正規分布なら、標準偏差の方が多くの情報を与えます。データが歪んでいる(所得、住宅価格、生存時間)または外れ値を含む場合は、IQRの方が典型的な広がりを測るのに適しています。
2つまたは3つだけの値を持つデータセットにIQRを使えますか?
技術的には使えますが、結果の有用性は限られます。非常に小さいサンプル(n < 4または5)では四分位数の推定が非常に不安定で、IQRは母集団の広がりを信頼性高く表しません。1.5×IQR外れ値ルールも小さすぎるサンプルではうまく機能せず、データに誤りがあっても外れ値を検出しなかったり、正当な値を除外するフェンスを生成したりすることがあります。意味のあるIQR分析には通常、少なくとも5〜10個の観測値が必要です。