Question 1

什么是频率分布表？

Accepted Answer

频率分布表会把原始数值数据整理成称为组区间（或 bins）的分组，并统计每组中有多少个值。它把无序列表转化为结构化摘要，展示数据点聚集的位置、分散程度以及分布的大致形状。

Question 2

如何选择组数？

Accepted Answer

常见方法是使用 Sturges 公式：k = 1 + 3.322 × log₁₀(n)，其中 n 是样本量。这样 20 个数据点大约对应 5 组，100 个数据点大约对应 7 组。你也可以直接试验：先从 5 组开始，逐步增加，直到分布显示出清晰模式且不过于杂乱。多数教材建议使用 5–15 组。

Question 3

什么是相对频数，为什么它有用？

Accepted Answer

相对频数是某一组中观测值占总观测数的比例：相对频数 = 该组频数 / 总 n。它把计数转换为百分比，便于比较不同规模的数据集。例如，在比较两个不同规模的班级时，知道 35% 的考试成绩落在 70–80 区间，比只知道人数更有参考价值。

Question 4

什么是累计频数？

Accepted Answer

累计频数是从第一组到当前组的频数累加。它告诉你有多少数据点位于每组上界及以下。例如，如果第三组结束时的累计频数是 15/20，那么 75% 的观测值落在前三组。累计频数是 ogive（累计频率曲线）的基础。

Question 5

为什么均值和标准差标注为“分组”？

Accepted Answer

当数据被分到各个组区间时，原始单个数值会丢失。分组均值和标准差是用每组的组中点作为代表值计算的，因此会带来轻微近似。当组距相对于范围较小时，这些估计非常准确，但与基于原始数据计算的统计量可能略有差异。

Question 6

频数直方图和相对频数直方图有什么区别？

Accepted Answer

频数直方图在 y 轴上绘制原始计数，而相对频数直方图绘制比例（或百分比）。相对频数直方图可以直接比较不同规模的数据集，也可作为底层概率分布的经验近似。两者的形状相同，只是 y 轴刻度不同。

数据集	结构	背景
82,90,75,68,88,75,95,100,72,85,91,78,84,88,77,95,65,80,73,86 — 5 个组	组区间：[65,72), [72,79), [79,86) …；均值 ≈ 82.85	某班 20 名学生的考试成绩。组距 = 7。多数成绩集中在 72–93 区间，略带左尾。
150,220,180,190,250,160,200,210,170,240,195,175,215,185,230 — 6 个组	组区间：[150,170), [170,190), [190,210) …；均值 ≈ 202.7	每日销售额数据。组距 = 20。分布显示大多数日期集中在 170–230 美元区间。
35,42,38,50,45,48,36,39,47,41,43,46,40,37,44,49,38,42,45,36 — 5 个组	组区间：[35,38), [38,41), [41,44) …；均值 ≈ 42.1	植物高度（厘米）的植物学研究数据。钟形分布表明生长模式大致符合正态分布。

频率分布计算器 - 创建表格

关于频率分布计算器