散布度計算機 - 分散、標準偏差、IQR
あらゆる数値データセットから、範囲、分散、標準偏差、IQR、変動係数、MAD まで、散布度の全指標を計算します。
数値をカンマ区切りで入力して「計算」をクリックすると、散布度と中心傾向の統計量をすぐに確認できます。
散布度計算機 - 分散、標準偏差、IQR
あらゆる数値データセットから、範囲、分散、標準偏差、IQR、変動係数、MAD まで、散布度の全指標を計算します。
散布度計算機について
統計的な散布度とは、データセット内の値がどれだけ広がっているかを表します。中心傾向の指標である平均、中央値、最頻値は分布の中心がどこにあるかを示し、散布度の指標は各データ点がその中心からどれだけずれているかを示します。2 つのデータセットが同じ平均を持っていても、分布は大きく異なることがあります。その違いを明らかにするのが散布度です。
範囲は最も単純な散布度の指標で、最大値と最小値の差です。計算しやすく解釈も容易ですが、両端の値だけに依存するため外れ値に敏感で、中間の情報は反映されません。
分散は平均からの二乗偏差の平均を表します。標本分散は二乗偏差の合計を (n−1) で割り、ベッセル補正を用いて標本から母集団分散の不偏推定を行います。母集団分散は n で割り、対象が母集団全体である場合にのみ適しています。標準偏差は分散の平方根で、元のデータと同じ単位で表されます。
四分位範囲(IQR)はデータの中央 50% の広がりを表し、Q3 − Q1 として計算します。Q1 は 25 パーセンタイル、Q3 は 75 パーセンタイルです。下位 25% と上位 25% を無視するため外れ値に強く、歪んだ分布で広がりを表すのに適しています。
変動係数(CV)は標本標準偏差を平均の百分率で表したもので、異なる単位や尺度のデータセットの相対的なばらつきを比較できる無次元の指標です。CV が 10% なら、標準偏差は平均の 10% に相当します。実験の測定精度を比較する際の有用な目安です。
中央値絶対偏差(MAD)は、中位数からの絶対偏差の中位数です。IQR よりも外れ値に強く、ロバスト統計や異常検知で使われます。IQR と同様に極端値の影響を受けにくく、裾の重い分布や歪んだ分布でも信頼できる散布度の指標になります。
散布度計算機の例
異なる散布パターンを示す 3 つの実データセットです。
| データセット | 主要指標 | 解釈 |
|---|---|---|
| 85, 92, 78, 88, 76, 95, 89, 72 | 平均=84.375、SD≈8.19、IQR=12.25 | クラスのテスト得点。CV≈9.71% は、相対的なばらつきが中程度であることを示します。IQR 12.25 は、中央 50% の得点が 12 点の範囲に収まっていることを示します。 |
| 1.2, -0.5, 2.1, 0.8, -1.9, 1.5, 2.5, -0.2, 0.3, 1.7, -1.1, 2.3 | 平均=0.725、SD≈1.40、IQR=2.075 | 月次の株式リターン(%)。高い CV(>100%)は、小さなプラスの平均リターンに対して大きな変動があることを示します。 |
| 502, 499, 505, 498, 501, 503, 497, 500 | 平均=500.625、SD≈2.67、CV≈0.53% | 品質管理ロットの製品重量(g)。非常に低い CV は、500 g の目標値に対して製造が非常に安定していることを示します。 |
散布度計算機の使い方
- テキストエリアにデータを入力または貼り付けます。カンマ、スペース、改行で区切れます。
- 「計算」をクリックします。計算機は数値を解析し、数値でないトークンは無視します。
- 中心傾向の指標(件数、平均、中央値)を確認して、データの中心を把握します。
- 散布度の指標を確認します。範囲は全体の広がり、標準偏差は平均からの平均的なずれ、IQR は中央 50% の広がりを示します。
- 変動係数でデータセット間の相対的なばらつきを比較し、MAD で外れ値に強い散布度を確認します。
散布度計算機 FAQ
標準偏差ではなく IQR を使うべきなのはいつですか?
データが歪んでいる、外れ値を含む、または正規分布ではない場合は IQR を使います。IQR は中央 50% のデータだけを見るため、極端値の影響を受けません。標準偏差はすべての値を考慮するため、1 つの外れ値で大きく膨らむことがあります。外れ値のない正規分布では、どちらも有用です。
標本分散と母集団分散の違いは何ですか?
母集団分散は二乗偏差の合計を n(総数)で割り、母集団全体のデータがある場合に適しています。標本分散は n−1(ベッセル補正)で割り、標本から母集団分散を推定する際の偏りを補正します。大きな標本では差はほとんどありませんが、小さな標本(n < 30)ではより重要です。
変動係数は何を示しますか?
変動係数(CV)は標準偏差を平均の百分率で表し、尺度に依存しない相対的なばらつきの指標になります。CV が 5% なら比較的安定、50% なら平均に対して非常に変動が大きいことを意味します。異なる単位の測定値、たとえば 2 つの製造工程の安定性を比べるのに特に便利です。
中央値絶対偏差(MAD)はどう計算しますか?
MAD は、中央値からの絶対偏差の中央値です。MAD = median(|xi − median(x)|)。平均ではなく偏差の中央値を使うため、標準偏差より外れ値に強い指標です。一般的なロバスト標準偏差推定は 1.4826 × MAD で、正規分布では標準偏差と一致します。
平均と中央値が大きく異なるのはなぜですか?
平均と中央値が大きく異なる場合、分布は歪んでいます。平均が中央値よりかなり大きい場合は右に歪んでおり、少数の非常に大きい値が平均を押し上げています。平均が中央値よりかなり小さい場合は左に歪んでいます。歪んだ分布では、中心傾向は平均より中央値、散布度は標準偏差より IQR のほうが適しています。
この計算機は非常に大きなデータセットにも使えますか?
入力できる規模のデータセットなら処理できますが、非常に大きい入力は解析に時間がかかる場合があります。最適な性能のため、カンマ区切りを 1 行で入力するか、複数行に分けてください。計算は数値的に安定したアルゴリズムを使うため、通常のデータ範囲ではオーバーフローやアンダーフローを避けられます。何百万件もの値を分析するなら、R や Python pandas のような専用統計パッケージのほうが効率的です。