第5章 データの分析

度数分布表とヒストグラム
─ データの「形」を見える化する技術

大量のデータを眺めるだけでは、何もわかりません。
度数分布表とヒストグラムは、データの全体像を「形」として把握する最初の道具です。
なぜこのように整理するのか、その原理から理解しましょう。

1データの整理 ─ なぜ度数分布表が必要なのか

ある学校で 40 人の生徒に 100 点満点のテストを実施したとします。 40 個の点数がバラバラに並んだ生データを見ても、「この集団の成績はどうなのか」はすぐにわかりません。

たとえば、次のような数列を一目見て「だいたい何点くらいが多いか」を判断できるでしょうか。

72, 58, 45, 83, 67, 91, 54, 76, 62, 88, 49, 73, 65, 80, 57, 70, 68, 85, 42, 77, 63, 71, 56, 79, 66, 82, 51, 74, 60, 87, 48, 75, 69, 81, 55, 78, 64, 86, 53, 71

人間の脳は、40 個以上の数値を同時に処理するのが得意ではありません。 そこで、データを区間ごとにまとめて、各区間に何個のデータが入るかを数えるという方法で整理します。 これが度数分布表です。

💡 ここが本質:度数分布表は「情報の圧縮」

40 個の生データを、たとえば 10 点刻みの区間に分ければ、わずか数行の表にまとまります。 個々のデータの正確な値は失われますが、代わりに「全体の傾向」が見えるようになります。

これは情報の圧縮です。すべてのデータを記憶する代わりに、 「どの範囲に多く集まっているか」「どのくらい散らばっているか」という構造的な情報を取り出します。

度数分布表を作る目的は、個々の値を犠牲にして、全体の形を手に入れることです。

データ分析の基本用語

度数分布表の話に入る前に、基本用語を確認しましょう。

テストの得点や気温のように、ある集団の特性を数量的に表すものを変量といいます。 調査や実験で得られた変量の測定値の集まりをデータといい、 データを構成する値の個数をデータの大きさ(サイズ)といいます。

先ほどの例では、変量は「テストの得点」、データの大きさは 40 です。

⚠️ 落とし穴:「データの大きさ」は値の大きさではない

✕ 誤:「データの大きさが大きい」= 値が大きい

○ 正:「データの大きさ」とはデータの個数のこと。 「大きさ 40 のデータ」は「40 個の値からなるデータ」という意味です。

英語では size や sample size に相当します。値の大小とは無関係です。

🔬 深掘り:統計学の「記述統計」と「推測統計」

統計学は大きく2つに分かれます。手元のデータの特徴をまとめる記述統計と、 手元のデータ(標本)から全体(母集団)の性質を推定する推測統計です。

度数分布表やヒストグラムは記述統計の最も基本的な道具です。 大学の統計学ではこの先、推測統計として「仮説検定」「信頼区間」などを学びますが、 そのすべてはデータを正しく整理・視覚化する力が土台になります。

2度数分布表の作り方 ─ 階級・度数・相対度数

度数分布表を作るには、データの値の範囲を等間隔の区間に区切り、 各区間に入るデータの個数を数えます。この手順を具体的に見ていきましょう。

階級と階級幅

データの値の範囲を区切った各区間を階級といい、 区間の幅を階級の幅(階級幅)といいます。 また、各階級の中央の値を階級値といいます。

たとえば「40 点以上 50 点未満」という階級の場合、階級の幅は $50 - 40 = 10$(点)で、 階級値は $\dfrac{40 + 50}{2} = 45$(点)です。

各階級に含まれるデータの値の個数を度数といいます。 そして、各階級と度数を対応させた表が度数分布表です。

📐 度数分布表の基本用語

階級:データの値の範囲を区切った区間(例:40 以上 50 未満)

階級の幅:区間の幅(例:$50 - 40 = 10$)

階級値:各階級の両端の平均値 $= \dfrac{\text{下限} + \text{上限}}{2}$

度数:各階級に含まれるデータの個数

※ 階級は原則として等間隔で設定します。「40 以上 50 未満」のように、下限は含み上限は含みません。

相対度数 ─ 割合で見る

度数だけでは、データの大きさ(個数)が異なる2つの集団を比較しにくい場合があります。 たとえば「A校(40 人)で 60 点台が 8 人」と「B校(100 人)で 60 点台が 15 人」では、 人数の比較だけでは正しい判断ができません。

そこで、各階級の度数の全体に対する割合を計算します。これが相対度数です。

$$\text{相対度数} = \frac{\text{その階級の度数}}{\text{度数の合計}}$$

A校の 60 点台の相対度数は $\dfrac{8}{40} = 0.20$、B校は $\dfrac{15}{100} = 0.15$。 割合で見ると、A校のほうが 60 点台の割合が高いことがわかります。

💡 ここが本質:相対度数は「比較のための正規化」

相対度数を求めることは、データの個数の違いを打ち消して、 割合という共通の尺度で比較できるようにする操作です。

すべての相対度数の合計は必ず $1$(= 100%)になります。 これは、全体を $1$ として各部分の「持ち分」を表していることを意味します。

$$\sum_{i=1}^{k} (\text{第 } i \text{ 階級の相対度数}) = 1$$

⚠️ 落とし穴:度数と相対度数を混同する

✕ 誤:「A校は 60 点台が 8 人、B校は 15 人だから、B校のほうが 60 点台が多い」

○ 正:データの大きさが異なるので、相対度数で比較すべき。 A校 $0.20$(20%)、B校 $0.15$(15%)なので、60 点台の割合はA校のほうが高い。

度数の大小で比較してよいのは、データの大きさが同じ場合だけです。 大きさの異なるデータを比べるときは、必ず相対度数を使いましょう。

度数分布表の具体例

先ほどの 40 人のテスト結果を、階級の幅 10 点で整理してみましょう。

階級(点)度数(人)相対度数
40 以上 50 未満40.10
50 以上 60 未満70.175
60 以上 70 未満90.225
70 以上 80 未満110.275
80 以上 90 未満70.175
90 以上 100 未満20.05
合計401.00

40 個の生データが 7 行の表に圧縮されました。 この表から「70 点台が最も多い」「60〜80 点の範囲に半数以上が集中している」といった傾向がすぐに読み取れます。

⚠️ 落とし穴:階級幅の選び方で印象が変わる

✕ 危険:階級幅を極端に広く(例:50 点刻み)または狭く(例:1 点刻み)取る

○ 適切:データの大きさが 30〜500 程度なら、階級の数を 6〜10 個程度にすると、 データの傾向をつかみやすくなります。

階級幅が広すぎると、細かい傾向がつぶれてしまいます。 逆に狭すぎると、各階級の度数が小さくなりすぎて、ノイズに惑わされます。 「ちょうどよい粗さ」を選ぶことが大切です。

⚠️ 落とし穴:相対度数の四捨五入で合計が 1.00 にならない

相対度数を小数第 3 位で四捨五入すると、合計がちょうど 1.00 にならない場合があります。

○ 対処法:合計欄には $1.00$ と書きます。 誤差が気になる場合は、度数が最も大きい階級の相対度数で調整するのが慣例です。

これは四捨五入による誤差の問題であり、計算ミスではありません。

▷ 度数分布表の作成手順

Step 1:データの最小値と最大値を確認する。

Step 2:階級の幅を決める(階級数が 6〜10 になるように)。

Step 3:最初の階級の下限を決める(最小値以下にする)。

Step 4:各階級に入るデータの個数(度数)を数える。

Step 5:度数の合計がデータの大きさと一致するか確認する。

Step 6:必要に応じて相対度数を計算する(各度数 $\div$ 合計)。

3ヒストグラム ─ データの「形」を読む

度数分布表は数値の表ですが、人間は数値よりも図形のほうが直感的に理解しやすいものです。 度数分布表をグラフにしたものがヒストグラムです。

ヒストグラムの仕組み

ヒストグラムは、横軸に変量の値、縦軸に度数をとり、 各階級の幅を底辺度数を高さとする長方形をすき間なく並べたグラフです。

すき間なく並べるのがポイントです。 棒グラフ(バーチャート)では棒と棒の間にすき間がありますが、 ヒストグラムでは隣り合う長方形がくっついています。 これは、データの値が連続的であり、階級と階級の間に空白がないことを表しています。

💡 ここが本質:ヒストグラムの面積 = 度数

ヒストグラムの各長方形の面積が、その階級の度数に比例します。 階級幅が等しければ、高さがそのまま度数を表しますが、 本質的には「面積で度数を表す」のがヒストグラムの原理です。

この原理は非常に重要です。なぜなら、ヒストグラム全体の面積はデータの総数に比例するので、 ある範囲の面積 ÷ 全体の面積 = その範囲に含まれるデータの割合 という関係が成り立つからです。

ヒストグラムの形状パターン

ヒストグラムの全体的な形を見ると、データの性質がわかります。 代表的な形状パターンを整理しましょう。

形状パターン特徴具体例
左右対称型(釣鐘型)中央付近にデータが集中し、左右に対称に広がる身長、テストの得点(標準的な場合)
右に裾が長い(右に歪んだ)左に山があり、右に長く裾を引く所得の分布、待ち時間
左に裾が長い(左に歪んだ)右に山があり、左に長く裾を引く寿命(高齢化社会の場合)
一様型(平坦型)各階級の度数がほぼ均等サイコロの出目(理論上)
双峰型(ふたこぶ型)山が2つある男女混合の身長データ

特に双峰型が現れたら注意が必要です。 性質の異なる2つのグループが混在している可能性があり、 グループごとに分けて分析するべきかもしれません。

⚠️ 落とし穴:ヒストグラムと棒グラフを混同する

✕ 誤:ヒストグラムの長方形の間にすき間を空けて描く

○ 正:ヒストグラムはすき間なく長方形を並べます。 これはデータが連続量であることを表しています。

棒グラフは「好きな教科」などのカテゴリー(質的データ)に使い、 ヒストグラムは「点数」「身長」などの連続的な量(量的データ)に使います。 この違いを意識しましょう。

💡 ここが本質:ヒストグラムの読み取り3ステップ

ヒストグラムを見たら、次の3点を順に読み取りましょう。

1. 中心の位置:データが集中している場所はどこか(山の頂上)

2. 散らばりの幅:データがどの程度広がっているか(山の裾野の広さ)

3. 形の対称性:左右対称か、どちらかに偏っているか

この3点を押さえるだけで、データの特徴を的確に説明できるようになります。

🔬 深掘り:ヒストグラムから確率密度関数へ

ヒストグラムの縦軸を「相対度数 $\div$ 階級幅」に変え、階級幅を限りなく小さくしていくと、 なめらかな曲線に近づいていきます。この曲線が大学数学で学ぶ確率密度関数です。

確率密度関数 $f(x)$ のグラフと $x$ 軸で囲まれた面積は $1$ です。 これは「相対度数の合計が $1$」というヒストグラムの性質が、 連続の世界で「面積の合計が $1$」に対応していることを意味します。

特に、左右対称の釣鐘型ヒストグラムの極限は正規分布(ガウス分布) と呼ばれ、自然界で最も頻繁に現れる確率分布です。 高校数学の「データの分析」は、大学の確率・統計の入口に立っています。

4累積度数と累積相対度数 ─ 「何割が○○以下か」を知る

度数分布表は「各階級に何個あるか」を教えてくれますが、 「60 点未満は全体の何割か」のようにある値以下(または以上)の割合を知りたい場面もあります。 そこで登場するのが、累積度数と累積相対度数です。

累積度数と累積相対度数

累積度数とは、最初の階級からその階級までの度数を合計したものです。 同様に、累積相対度数とは、最初の階級からその階級までの相対度数を合計したものです。

先ほどのテストの例で累積度数と累積相対度数を追加してみましょう。

階級(点)度数相対度数累積度数累積相対度数
40 以上 50 未満40.1040.10
50 以上 60 未満70.175110.275
60 以上 70 未満90.225200.50
70 以上 80 未満110.275310.775
80 以上 90 未満70.175380.95
90 以上 100 未満20.05401.00

この表から、たとえば「70 点未満は 20 人(累積度数)、全体の 50%(累積相対度数 0.50)」 とすぐに読み取れます。

▷ 累積相対度数の計算

第 $k$ 階級までの累積相対度数を $F_k$ とすると、

$$F_k = \sum_{i=1}^{k} (\text{第 } i \text{ 階級の相対度数})$$

たとえば、第3階級(60〜70 点)までの累積相対度数は、

$$F_3 = 0.10 + 0.175 + 0.225 = 0.50$$

最後の階級の累積相対度数は必ず $F_k = 1.00$ になります。

累積相対度数折れ線グラフ

累積相対度数を視覚化するには、横軸に各階級の上端、縦軸に累積相対度数をとり、 点を直線でつないだ累積相対度数折れ線グラフを描きます。

このグラフは左下から右上へ向かう単調増加の曲線(折れ線)になります。 傾きが急な部分はデータが密集している区間、 傾きが緩やかな部分はデータが少ない区間を表します。

⚠️ 落とし穴:累積度数から各階級の度数を逆算するとき

問題によっては、累積度数が与えられて各階級の度数を求めることがあります。

✕ 誤:「累積度数がそのまま度数」と勘違いする

○ 正:第 $k$ 階級の度数 = 第 $k$ 階級の累積度数 $-$ 第 $(k-1)$ 階級の累積度数

つまり、累積度数の「差」が各階級の度数です。 最初の階級だけは、累積度数がそのまま度数になります。

🔬 深掘り:累積分布関数(CDF)へのつながり

累積相対度数折れ線グラフは、大学数学で学ぶ累積分布関数 (CDF:Cumulative Distribution Function)の離散版です。

確率密度関数 $f(x)$ を $-\infty$ から $x$ まで積分したもの $F(x) = \int_{-\infty}^{x} f(t)\,dt$ が累積分布関数です。 ヒストグラムが確率密度関数の離散版であるように、 累積相対度数グラフは累積分布関数の離散版なのです。

$F(x)$ は「$x$ 以下の値が現れる確率」を表します。 高校で学ぶ「累積相対度数」はまさにこれと同じ発想です。

5俯瞰マップ ─ データ整理の全体像と読み取りパターン

ここまで学んだ「データの整理」の全体像を整理しましょう。 度数分布表とヒストグラムは、データ分析の最初の一歩です。

パターン分類表:度数分布表の読み取り

読み取りパターン着目する量わかること
A:最頻階級度数が最大の階級最もデータが集中する範囲。その階級値が最頻値
B:相対度数比較相対度数大きさの異なるデータ間の公平な比較
C:累積度数累積度数・累積相対度数「○○未満が何割か」「中央値がどの階級にあるか」
D:ヒストグラムの形状全体的な形対称性、偏り、外れ値の有無
E:階級幅の変更異なる階級幅で再整理詳細な傾向 vs 大まかな傾向の切り替え

つながりマップ

  • → 5-2 データの代表値:度数分布表から平均値・中央値・最頻値を求める方法を学ぶ。階級値を使った平均値の近似計算が重要。
  • → 5-3 分散と標準偏差:ヒストグラムの「散らばりの幅」を数値化するのが分散と標準偏差。度数分布表から計算する方法も扱う。
  • → 5-4 データの相関:2つの変量の関係を「散布図」で視覚化する。ヒストグラムが1変量のグラフなら、散布図は2変量のグラフ。
  • → 数学B 確率分布:ヒストグラムの「面積 = 度数の割合」という考え方は、確率密度関数へ直結する。
  • ← 中学校 データの活用:中学校で学んだ度数分布表・ヒストグラムを、高校ではより定量的に(相対度数・累積度数を用いて)分析する。

📋まとめ

  • 度数分布表は、データを階級(等間隔の区間)に分け、各階級の度数をまとめた表。個々の値を犠牲にして全体の傾向を把握する「情報の圧縮」
  • 階級値は各階級の中央の値:$\dfrac{\text{下限} + \text{上限}}{2}$。代表値の計算で使用する
  • 相対度数$= \dfrac{\text{度数}}{\text{度数の合計}}$。大きさの異なるデータを比較するための正規化。合計は必ず $1$
  • ヒストグラムは度数分布表を柱状グラフにしたもの。面積が度数に比例するのが本質。すき間なく並べるのがルール
  • 累積度数は最初の階級からその階級までの度数の合計。「○○未満が何人か」を知るのに使う
  • ヒストグラムの形状(対称型・右に歪んだ型・双峰型など)から、データの特徴を読み取ることができる

確認テスト

Q1. 「60 以上 70 未満」という階級の階級値はいくつですか。

▶ クリックして解答を表示$\dfrac{60 + 70}{2} = 65$

Q2. 度数が 12、度数の合計が 40 のとき、相対度数はいくつですか。

▶ クリックして解答を表示$\dfrac{12}{40} = 0.30$

Q3. 相対度数の合計は必ずいくつになりますか。その理由も答えてください。

▶ クリックして解答を表示合計は $1$(= 1.00)。すべてのデータがいずれかの階級に含まれるため、各階級の度数の合計はデータの総数に等しく、割合の合計は $\dfrac{\text{総数}}{\text{総数}} = 1$ になる。

Q4. ヒストグラムと棒グラフの最大の違いは何ですか。

▶ クリックして解答を表示ヒストグラムは長方形をすき間なく並べるが、棒グラフはすき間がある。ヒストグラムは連続的な量的データに使い、面積が度数に比例する。棒グラフはカテゴリー(質的データ)に使う。

Q5. ある階級までの累積度数が 25、その階級の度数が 8 のとき、1つ前の階級までの累積度数はいくつですか。

▶ クリックして解答を表示$25 - 8 = 17$。累積度数の差が各階級の度数になるので、1つ前の階級までの累積度数は $25 - 8 = 17$。

8入試問題演習

この記事で学んだ内容を、入試形式の問題で確認しましょう。

A 基礎レベル

5-1-1 A 基礎 度数分布表 相対度数

20 人の生徒の通学時間(分)を調べ、階級の幅を 10 分として次の度数分布表を作った。表の空欄を埋めよ。

階級(分)度数(人)相対度数
0 以上 10 未満2
10 以上 20 未満5
20 以上 30 未満0.35
30 以上 40 未満4
40 以上 50 未満2
合計201.00
▶ クリックして解答・解説を表示
解答

ア $= 0.10$、イ $= 0.25$、ウ $= 7$、エ $= 0.20$、オ $= 0.10$

解説

方針:度数から相対度数を求めるには度数 $\div$ 合計。相対度数から度数を求めるにはその逆。

ウ:$0.35 \times 20 = 7$(人)。検算:$2 + 5 + 7 + 4 + 2 = 20$ ✓

ア:$\dfrac{2}{20} = 0.10$、イ:$\dfrac{5}{20} = 0.25$、エ:$\dfrac{4}{20} = 0.20$、オ:$\dfrac{2}{20} = 0.10$

検算:$0.10 + 0.25 + 0.35 + 0.20 + 0.10 = 1.00$ ✓

5-1-2 A 基礎 ヒストグラム 読み取り

ある中学校の生徒 30 人について、1 日のスマートフォン使用時間(分)を調べ、次の度数分布表を得た。

階級(分)度数(人)
0 以上 30 未満3
30 以上 60 未満7
60 以上 90 未満10
90 以上 120 未満6
120 以上 150 未満3
150 以上 180 未満1

(1) 最も度数の多い階級の階級値を求めよ。

(2) 90 分未満の生徒は全体の何 % か。

(3) このデータの度数分布はどのような形状といえるか。

▶ クリックして解答・解説を表示
解答

(1) $\dfrac{60 + 90}{2} = 75$(分)

(2) $\dfrac{3 + 7 + 10}{30} = \dfrac{20}{30} \approx 0.667$ よって約 $66.7$%

(3) 右に裾が長い(右に歪んだ)分布

解説

(1) 最も度数が多い階級は「60 以上 90 未満」(度数 10)。 階級値は両端の平均値 $\dfrac{60+90}{2} = 75$。

(2) 90 分未満の累積度数は $3 + 7 + 10 = 20$。 累積相対度数は $\dfrac{20}{30} \approx 0.667$、つまり約 66.7%。

(3) 60〜90 分に山があり、150 分以上にも少数のデータが存在する。 データが右に長く裾を引いているので「右に歪んだ分布」。

B 発展レベル

5-1-3 B 発展 相対度数 データ比較

A 校(40 人)と B 校(50 人)で同じテストを行い、次の度数分布表を得た。

階級(点)A校 度数A校 相対度数B校 度数B校 相対度数
30 以上 50 未満40.10100.20
50 以上 70 未満120.30200.40
70 以上 90 未満180.45150.30
90 以上 100 未満60.1550.10

(1) 「70 点以上の生徒数は A 校が 24 人、B 校が 20 人であるから、A 校の方が成績がよい」という主張は正しいといえるか。理由とともに答えよ。

(2) 70 点以上の相対度数に着目して、A 校と B 校の成績を比較せよ。

▶ クリックして解答・解説を表示
解答

(1) 正しいとはいえない。データの大きさが異なるので、度数の比較だけでは判断できない。

(2) A 校の 70 点以上の相対度数 $= 0.45 + 0.15 = 0.60$(60%)、B 校 $= 0.30 + 0.10 = 0.40$(40%)。よって A 校の方が 70 点以上の割合が高い。

解説

方針:データの大きさが異なる場合、度数ではなく相対度数で比較する。

(1) A 校は 40 人中 24 人、B 校は 50 人中 20 人が 70 点以上。 単純な人数比較は不公平。A 校と B 校ではそもそもデータの大きさ(人数)が異なるため、 度数の大小だけで「どちらが成績がよいか」を判断することはできない。

(2) 相対度数で比較する。 A 校の 70 点以上の累積相対度数 $= 0.45 + 0.15 = 0.60$、 B 校 $= 0.30 + 0.10 = 0.40$。 よって、70 点以上の生徒の割合は A 校(60%)が B 校(40%)より高い。

採点ポイント
  • データの大きさが異なることへの言及(2点)
  • 相対度数を用いて比較すべきと指摘(3点)
  • 相対度数の正しい計算と結論(5点)
5-1-4 B 発展 累積度数 中央値 論述

50 人の生徒に 10 点満点のテストを行い、次の度数分布表を得た(得点はすべて整数値)。

階級(点)度数(人)累積度数(人)
0 以上 3 未満33
3 以上 5 未満811
5 以上 7 未満$a$$b$
7 以上 9 未満1242
9 以上 11 未満850

(1) $a$ と $b$ の値を求めよ。

(2) 中央値がどの階級に含まれるか答えよ。

(3) 最頻値を求めよ。

▶ クリックして解答・解説を表示
解答

(1) $b = 42 - 12 = 30$、$a = 30 - 11 = 19$

(2) 中央値は「5 以上 7 未満」の階級に含まれる

(3) 最頻値は $6$(点)

解説

方針:累積度数の差から度数を求め、中央値の位置を累積度数から判断する。

(1) 「7 以上 9 未満」までの累積度数が 42。 $b + 12 = 42$ より $b = 30$。 $a = b - 11 = 30 - 11 = 19$。 検算:$3 + 8 + 19 + 12 + 8 = 50$ ✓

(2) 50 人のデータなので、中央値は小さい方から 25 番目と 26 番目の平均。 累積度数より、11 番目まで「5 未満」、30 番目まで「7 未満」。 25 番目・26 番目はいずれも「5 以上 7 未満」の階級に含まれる。

(3) 度数が最も大きい階級は「5 以上 7 未満」(度数 19)。 最頻値はこの階級の階級値 $= \dfrac{5 + 7}{2} = 6$(点)。

採点ポイント
  • 累積度数の差から度数を正しく逆算(3点)
  • 50 人のデータの中央値の位置(25, 26 番目)の特定(3点)
  • 累積度数を使った中央値の階級の判断(2点)
  • 最頻値の定義に基づく正しい計算(2点)