大量のデータを眺めるだけでは、何もわかりません。
度数分布表とヒストグラムは、データの全体像を「形」として把握する最初の道具です。
なぜこのように整理するのか、その原理から理解しましょう。
ある学校で 40 人の生徒に 100 点満点のテストを実施したとします。 40 個の点数がバラバラに並んだ生データを見ても、「この集団の成績はどうなのか」はすぐにわかりません。
たとえば、次のような数列を一目見て「だいたい何点くらいが多いか」を判断できるでしょうか。
72, 58, 45, 83, 67, 91, 54, 76, 62, 88, 49, 73, 65, 80, 57, 70, 68, 85, 42, 77, 63, 71, 56, 79, 66, 82, 51, 74, 60, 87, 48, 75, 69, 81, 55, 78, 64, 86, 53, 71
人間の脳は、40 個以上の数値を同時に処理するのが得意ではありません。 そこで、データを区間ごとにまとめて、各区間に何個のデータが入るかを数えるという方法で整理します。 これが度数分布表です。
40 個の生データを、たとえば 10 点刻みの区間に分ければ、わずか数行の表にまとまります。 個々のデータの正確な値は失われますが、代わりに「全体の傾向」が見えるようになります。
これは情報の圧縮です。すべてのデータを記憶する代わりに、 「どの範囲に多く集まっているか」「どのくらい散らばっているか」という構造的な情報を取り出します。
度数分布表を作る目的は、個々の値を犠牲にして、全体の形を手に入れることです。
度数分布表の話に入る前に、基本用語を確認しましょう。
テストの得点や気温のように、ある集団の特性を数量的に表すものを変量といいます。 調査や実験で得られた変量の測定値の集まりをデータといい、 データを構成する値の個数をデータの大きさ(サイズ)といいます。
先ほどの例では、変量は「テストの得点」、データの大きさは 40 です。
✕ 誤:「データの大きさが大きい」= 値が大きい
○ 正:「データの大きさ」とはデータの個数のこと。 「大きさ 40 のデータ」は「40 個の値からなるデータ」という意味です。
英語では size や sample size に相当します。値の大小とは無関係です。
統計学は大きく2つに分かれます。手元のデータの特徴をまとめる記述統計と、 手元のデータ(標本)から全体(母集団)の性質を推定する推測統計です。
度数分布表やヒストグラムは記述統計の最も基本的な道具です。 大学の統計学ではこの先、推測統計として「仮説検定」「信頼区間」などを学びますが、 そのすべてはデータを正しく整理・視覚化する力が土台になります。
度数分布表を作るには、データの値の範囲を等間隔の区間に区切り、 各区間に入るデータの個数を数えます。この手順を具体的に見ていきましょう。
データの値の範囲を区切った各区間を階級といい、 区間の幅を階級の幅(階級幅)といいます。 また、各階級の中央の値を階級値といいます。
たとえば「40 点以上 50 点未満」という階級の場合、階級の幅は $50 - 40 = 10$(点)で、 階級値は $\dfrac{40 + 50}{2} = 45$(点)です。
各階級に含まれるデータの値の個数を度数といいます。 そして、各階級と度数を対応させた表が度数分布表です。
階級:データの値の範囲を区切った区間(例:40 以上 50 未満)
階級の幅:区間の幅(例:$50 - 40 = 10$)
階級値:各階級の両端の平均値 $= \dfrac{\text{下限} + \text{上限}}{2}$
度数:各階級に含まれるデータの個数
度数だけでは、データの大きさ(個数)が異なる2つの集団を比較しにくい場合があります。 たとえば「A校(40 人)で 60 点台が 8 人」と「B校(100 人)で 60 点台が 15 人」では、 人数の比較だけでは正しい判断ができません。
そこで、各階級の度数の全体に対する割合を計算します。これが相対度数です。
$$\text{相対度数} = \frac{\text{その階級の度数}}{\text{度数の合計}}$$A校の 60 点台の相対度数は $\dfrac{8}{40} = 0.20$、B校は $\dfrac{15}{100} = 0.15$。 割合で見ると、A校のほうが 60 点台の割合が高いことがわかります。
相対度数を求めることは、データの個数の違いを打ち消して、 割合という共通の尺度で比較できるようにする操作です。
すべての相対度数の合計は必ず $1$(= 100%)になります。 これは、全体を $1$ として各部分の「持ち分」を表していることを意味します。
$$\sum_{i=1}^{k} (\text{第 } i \text{ 階級の相対度数}) = 1$$
✕ 誤:「A校は 60 点台が 8 人、B校は 15 人だから、B校のほうが 60 点台が多い」
○ 正:データの大きさが異なるので、相対度数で比較すべき。 A校 $0.20$(20%)、B校 $0.15$(15%)なので、60 点台の割合はA校のほうが高い。
度数の大小で比較してよいのは、データの大きさが同じ場合だけです。 大きさの異なるデータを比べるときは、必ず相対度数を使いましょう。
先ほどの 40 人のテスト結果を、階級の幅 10 点で整理してみましょう。
| 階級(点) | 度数(人) | 相対度数 |
|---|---|---|
| 40 以上 50 未満 | 4 | 0.10 |
| 50 以上 60 未満 | 7 | 0.175 |
| 60 以上 70 未満 | 9 | 0.225 |
| 70 以上 80 未満 | 11 | 0.275 |
| 80 以上 90 未満 | 7 | 0.175 |
| 90 以上 100 未満 | 2 | 0.05 |
| 合計 | 40 | 1.00 |
40 個の生データが 7 行の表に圧縮されました。 この表から「70 点台が最も多い」「60〜80 点の範囲に半数以上が集中している」といった傾向がすぐに読み取れます。
✕ 危険:階級幅を極端に広く(例:50 点刻み)または狭く(例:1 点刻み)取る
○ 適切:データの大きさが 30〜500 程度なら、階級の数を 6〜10 個程度にすると、 データの傾向をつかみやすくなります。
階級幅が広すぎると、細かい傾向がつぶれてしまいます。 逆に狭すぎると、各階級の度数が小さくなりすぎて、ノイズに惑わされます。 「ちょうどよい粗さ」を選ぶことが大切です。
相対度数を小数第 3 位で四捨五入すると、合計がちょうど 1.00 にならない場合があります。
○ 対処法:合計欄には $1.00$ と書きます。 誤差が気になる場合は、度数が最も大きい階級の相対度数で調整するのが慣例です。
これは四捨五入による誤差の問題であり、計算ミスではありません。
Step 1:データの最小値と最大値を確認する。
Step 2:階級の幅を決める(階級数が 6〜10 になるように)。
Step 3:最初の階級の下限を決める(最小値以下にする)。
Step 4:各階級に入るデータの個数(度数)を数える。
Step 5:度数の合計がデータの大きさと一致するか確認する。
Step 6:必要に応じて相対度数を計算する(各度数 $\div$ 合計)。
度数分布表は数値の表ですが、人間は数値よりも図形のほうが直感的に理解しやすいものです。 度数分布表をグラフにしたものがヒストグラムです。
ヒストグラムは、横軸に変量の値、縦軸に度数をとり、 各階級の幅を底辺、度数を高さとする長方形をすき間なく並べたグラフです。
すき間なく並べるのがポイントです。 棒グラフ(バーチャート)では棒と棒の間にすき間がありますが、 ヒストグラムでは隣り合う長方形がくっついています。 これは、データの値が連続的であり、階級と階級の間に空白がないことを表しています。
ヒストグラムの各長方形の面積が、その階級の度数に比例します。 階級幅が等しければ、高さがそのまま度数を表しますが、 本質的には「面積で度数を表す」のがヒストグラムの原理です。
この原理は非常に重要です。なぜなら、ヒストグラム全体の面積はデータの総数に比例するので、 ある範囲の面積 ÷ 全体の面積 = その範囲に含まれるデータの割合 という関係が成り立つからです。
ヒストグラムの全体的な形を見ると、データの性質がわかります。 代表的な形状パターンを整理しましょう。
| 形状パターン | 特徴 | 具体例 |
|---|---|---|
| 左右対称型(釣鐘型) | 中央付近にデータが集中し、左右に対称に広がる | 身長、テストの得点(標準的な場合) |
| 右に裾が長い(右に歪んだ) | 左に山があり、右に長く裾を引く | 所得の分布、待ち時間 |
| 左に裾が長い(左に歪んだ) | 右に山があり、左に長く裾を引く | 寿命(高齢化社会の場合) |
| 一様型(平坦型) | 各階級の度数がほぼ均等 | サイコロの出目(理論上) |
| 双峰型(ふたこぶ型) | 山が2つある | 男女混合の身長データ |
特に双峰型が現れたら注意が必要です。 性質の異なる2つのグループが混在している可能性があり、 グループごとに分けて分析するべきかもしれません。
✕ 誤:ヒストグラムの長方形の間にすき間を空けて描く
○ 正:ヒストグラムはすき間なく長方形を並べます。 これはデータが連続量であることを表しています。
棒グラフは「好きな教科」などのカテゴリー(質的データ)に使い、 ヒストグラムは「点数」「身長」などの連続的な量(量的データ)に使います。 この違いを意識しましょう。
ヒストグラムを見たら、次の3点を順に読み取りましょう。
1. 中心の位置:データが集中している場所はどこか(山の頂上)
2. 散らばりの幅:データがどの程度広がっているか(山の裾野の広さ)
3. 形の対称性:左右対称か、どちらかに偏っているか
この3点を押さえるだけで、データの特徴を的確に説明できるようになります。
ヒストグラムの縦軸を「相対度数 $\div$ 階級幅」に変え、階級幅を限りなく小さくしていくと、 なめらかな曲線に近づいていきます。この曲線が大学数学で学ぶ確率密度関数です。
確率密度関数 $f(x)$ のグラフと $x$ 軸で囲まれた面積は $1$ です。 これは「相対度数の合計が $1$」というヒストグラムの性質が、 連続の世界で「面積の合計が $1$」に対応していることを意味します。
特に、左右対称の釣鐘型ヒストグラムの極限は正規分布(ガウス分布) と呼ばれ、自然界で最も頻繁に現れる確率分布です。 高校数学の「データの分析」は、大学の確率・統計の入口に立っています。
度数分布表は「各階級に何個あるか」を教えてくれますが、 「60 点未満は全体の何割か」のようにある値以下(または以上)の割合を知りたい場面もあります。 そこで登場するのが、累積度数と累積相対度数です。
累積度数とは、最初の階級からその階級までの度数を合計したものです。 同様に、累積相対度数とは、最初の階級からその階級までの相対度数を合計したものです。
先ほどのテストの例で累積度数と累積相対度数を追加してみましょう。
| 階級(点) | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
|---|---|---|---|---|
| 40 以上 50 未満 | 4 | 0.10 | 4 | 0.10 |
| 50 以上 60 未満 | 7 | 0.175 | 11 | 0.275 |
| 60 以上 70 未満 | 9 | 0.225 | 20 | 0.50 |
| 70 以上 80 未満 | 11 | 0.275 | 31 | 0.775 |
| 80 以上 90 未満 | 7 | 0.175 | 38 | 0.95 |
| 90 以上 100 未満 | 2 | 0.05 | 40 | 1.00 |
この表から、たとえば「70 点未満は 20 人(累積度数)、全体の 50%(累積相対度数 0.50)」 とすぐに読み取れます。
第 $k$ 階級までの累積相対度数を $F_k$ とすると、
$$F_k = \sum_{i=1}^{k} (\text{第 } i \text{ 階級の相対度数})$$
たとえば、第3階級(60〜70 点)までの累積相対度数は、
$$F_3 = 0.10 + 0.175 + 0.225 = 0.50$$
最後の階級の累積相対度数は必ず $F_k = 1.00$ になります。
累積相対度数を視覚化するには、横軸に各階級の上端、縦軸に累積相対度数をとり、 点を直線でつないだ累積相対度数折れ線グラフを描きます。
このグラフは左下から右上へ向かう単調増加の曲線(折れ線)になります。 傾きが急な部分はデータが密集している区間、 傾きが緩やかな部分はデータが少ない区間を表します。
問題によっては、累積度数が与えられて各階級の度数を求めることがあります。
✕ 誤:「累積度数がそのまま度数」と勘違いする
○ 正:第 $k$ 階級の度数 = 第 $k$ 階級の累積度数 $-$ 第 $(k-1)$ 階級の累積度数
つまり、累積度数の「差」が各階級の度数です。 最初の階級だけは、累積度数がそのまま度数になります。
累積相対度数折れ線グラフは、大学数学で学ぶ累積分布関数 (CDF:Cumulative Distribution Function)の離散版です。
確率密度関数 $f(x)$ を $-\infty$ から $x$ まで積分したもの $F(x) = \int_{-\infty}^{x} f(t)\,dt$ が累積分布関数です。 ヒストグラムが確率密度関数の離散版であるように、 累積相対度数グラフは累積分布関数の離散版なのです。
$F(x)$ は「$x$ 以下の値が現れる確率」を表します。 高校で学ぶ「累積相対度数」はまさにこれと同じ発想です。
ここまで学んだ「データの整理」の全体像を整理しましょう。 度数分布表とヒストグラムは、データ分析の最初の一歩です。
| 読み取りパターン | 着目する量 | わかること |
|---|---|---|
| A:最頻階級 | 度数が最大の階級 | 最もデータが集中する範囲。その階級値が最頻値 |
| B:相対度数比較 | 相対度数 | 大きさの異なるデータ間の公平な比較 |
| C:累積度数 | 累積度数・累積相対度数 | 「○○未満が何割か」「中央値がどの階級にあるか」 |
| D:ヒストグラムの形状 | 全体的な形 | 対称性、偏り、外れ値の有無 |
| E:階級幅の変更 | 異なる階級幅で再整理 | 詳細な傾向 vs 大まかな傾向の切り替え |
Q1. 「60 以上 70 未満」という階級の階級値はいくつですか。
Q2. 度数が 12、度数の合計が 40 のとき、相対度数はいくつですか。
Q3. 相対度数の合計は必ずいくつになりますか。その理由も答えてください。
Q4. ヒストグラムと棒グラフの最大の違いは何ですか。
Q5. ある階級までの累積度数が 25、その階級の度数が 8 のとき、1つ前の階級までの累積度数はいくつですか。
この記事で学んだ内容を、入試形式の問題で確認しましょう。
20 人の生徒の通学時間(分)を調べ、階級の幅を 10 分として次の度数分布表を作った。表の空欄を埋めよ。
| 階級(分) | 度数(人) | 相対度数 |
|---|---|---|
| 0 以上 10 未満 | 2 | ア |
| 10 以上 20 未満 | 5 | イ |
| 20 以上 30 未満 | ウ | 0.35 |
| 30 以上 40 未満 | 4 | エ |
| 40 以上 50 未満 | 2 | オ |
| 合計 | 20 | 1.00 |
ア $= 0.10$、イ $= 0.25$、ウ $= 7$、エ $= 0.20$、オ $= 0.10$
方針:度数から相対度数を求めるには度数 $\div$ 合計。相対度数から度数を求めるにはその逆。
ウ:$0.35 \times 20 = 7$(人)。検算:$2 + 5 + 7 + 4 + 2 = 20$ ✓
ア:$\dfrac{2}{20} = 0.10$、イ:$\dfrac{5}{20} = 0.25$、エ:$\dfrac{4}{20} = 0.20$、オ:$\dfrac{2}{20} = 0.10$
検算:$0.10 + 0.25 + 0.35 + 0.20 + 0.10 = 1.00$ ✓
ある中学校の生徒 30 人について、1 日のスマートフォン使用時間(分)を調べ、次の度数分布表を得た。
| 階級(分) | 度数(人) |
|---|---|
| 0 以上 30 未満 | 3 |
| 30 以上 60 未満 | 7 |
| 60 以上 90 未満 | 10 |
| 90 以上 120 未満 | 6 |
| 120 以上 150 未満 | 3 |
| 150 以上 180 未満 | 1 |
(1) 最も度数の多い階級の階級値を求めよ。
(2) 90 分未満の生徒は全体の何 % か。
(3) このデータの度数分布はどのような形状といえるか。
(1) $\dfrac{60 + 90}{2} = 75$(分)
(2) $\dfrac{3 + 7 + 10}{30} = \dfrac{20}{30} \approx 0.667$ よって約 $66.7$%
(3) 右に裾が長い(右に歪んだ)分布
(1) 最も度数が多い階級は「60 以上 90 未満」(度数 10)。 階級値は両端の平均値 $\dfrac{60+90}{2} = 75$。
(2) 90 分未満の累積度数は $3 + 7 + 10 = 20$。 累積相対度数は $\dfrac{20}{30} \approx 0.667$、つまり約 66.7%。
(3) 60〜90 分に山があり、150 分以上にも少数のデータが存在する。 データが右に長く裾を引いているので「右に歪んだ分布」。
A 校(40 人)と B 校(50 人)で同じテストを行い、次の度数分布表を得た。
| 階級(点) | A校 度数 | A校 相対度数 | B校 度数 | B校 相対度数 |
|---|---|---|---|---|
| 30 以上 50 未満 | 4 | 0.10 | 10 | 0.20 |
| 50 以上 70 未満 | 12 | 0.30 | 20 | 0.40 |
| 70 以上 90 未満 | 18 | 0.45 | 15 | 0.30 |
| 90 以上 100 未満 | 6 | 0.15 | 5 | 0.10 |
(1) 「70 点以上の生徒数は A 校が 24 人、B 校が 20 人であるから、A 校の方が成績がよい」という主張は正しいといえるか。理由とともに答えよ。
(2) 70 点以上の相対度数に着目して、A 校と B 校の成績を比較せよ。
(1) 正しいとはいえない。データの大きさが異なるので、度数の比較だけでは判断できない。
(2) A 校の 70 点以上の相対度数 $= 0.45 + 0.15 = 0.60$(60%)、B 校 $= 0.30 + 0.10 = 0.40$(40%)。よって A 校の方が 70 点以上の割合が高い。
方針:データの大きさが異なる場合、度数ではなく相対度数で比較する。
(1) A 校は 40 人中 24 人、B 校は 50 人中 20 人が 70 点以上。 単純な人数比較は不公平。A 校と B 校ではそもそもデータの大きさ(人数)が異なるため、 度数の大小だけで「どちらが成績がよいか」を判断することはできない。
(2) 相対度数で比較する。 A 校の 70 点以上の累積相対度数 $= 0.45 + 0.15 = 0.60$、 B 校 $= 0.30 + 0.10 = 0.40$。 よって、70 点以上の生徒の割合は A 校(60%)が B 校(40%)より高い。
50 人の生徒に 10 点満点のテストを行い、次の度数分布表を得た(得点はすべて整数値)。
| 階級(点) | 度数(人) | 累積度数(人) |
|---|---|---|
| 0 以上 3 未満 | 3 | 3 |
| 3 以上 5 未満 | 8 | 11 |
| 5 以上 7 未満 | $a$ | $b$ |
| 7 以上 9 未満 | 12 | 42 |
| 9 以上 11 未満 | 8 | 50 |
(1) $a$ と $b$ の値を求めよ。
(2) 中央値がどの階級に含まれるか答えよ。
(3) 最頻値を求めよ。
(1) $b = 42 - 12 = 30$、$a = 30 - 11 = 19$
(2) 中央値は「5 以上 7 未満」の階級に含まれる
(3) 最頻値は $6$(点)
方針:累積度数の差から度数を求め、中央値の位置を累積度数から判断する。
(1) 「7 以上 9 未満」までの累積度数が 42。 $b + 12 = 42$ より $b = 30$。 $a = b - 11 = 30 - 11 = 19$。 検算:$3 + 8 + 19 + 12 + 8 = 50$ ✓
(2) 50 人のデータなので、中央値は小さい方から 25 番目と 26 番目の平均。 累積度数より、11 番目まで「5 未満」、30 番目まで「7 未満」。 25 番目・26 番目はいずれも「5 以上 7 未満」の階級に含まれる。
(3) 度数が最も大きい階級は「5 以上 7 未満」(度数 19)。 最頻値はこの階級の階級値 $= \dfrac{5 + 7}{2} = 6$(点)。