第5章 データの分析

四分位数と箱ひげ図
─ データの「骨格」を5つの数で捉える

平均値だけではデータの全体像は見えません。
四分位数と箱ひげ図は、データの散らばりと偏りを「5つの数」で可視化する強力な道具です。

1四分位数の定義 ─ データを4等分する3つの値

5-1で学んだ中央値は、データを「大きい方と小さい方の2つに分ける値」でした。 この考えをもう一歩進めて、データを4等分する位置にある3つの値を考えるのが四分位数です。

データを小さい順に並べたとき、全体をおよそ4等分する3つの値を四分位数と呼びます。 小さい方から順に、第1四分位数 $Q_1$第2四分位数 $Q_2$第3四分位数 $Q_3$ です。

なぜ「4等分」なのでしょうか。中央値だけでは「真ん中より上か下か」しかわかりません。 しかし4等分すれば、データの下位25%、中央、上位25%の位置がわかり、 「データがどのあたりに集中しているか」「どのくらい散らばっているか」がより正確に捉えられるのです。

ここが本質:四分位数 = データの「骨格」を決める3つの関節

四分位数は、データの分布を把握するための「骨格」です。人体の骨格が体の形を決めるように、$Q_1$, $Q_2$, $Q_3$ の3つの値がデータの「形」を決めます。

$Q_1$:データの下位約25%の位置。「小さい方から4分の1」の目安。

$Q_2$:データの中央値そのもの。ちょうど真ん中の位置。

$Q_3$:データの上位約25%の位置。「大きい方から4分の1」の目安。

この3つに最小値と最大値を加えた5つの数を5数要約と呼びます。5数要約はデータの「骨格」そのものです。

範囲と四分位範囲

データの散らばりを数値で表す方法には、範囲(レンジ)四分位範囲があります。

範囲と四分位範囲

範囲(レンジ)

$$\text{範囲} = \text{最大値} - \text{最小値}$$

四分位範囲(IQR: Interquartile Range)

$$\text{四分位範囲} = Q_3 - Q_1$$

※ 範囲は最大値と最小値だけで決まるため、外れ値の影響を受けやすい。四分位範囲は中央付近のデータの散らばりを表すので、外れ値に強い指標です。

範囲はデータ全体の「幅」を表しますが、たった1つの極端な値(外れ値)に大きく左右されます。 一方、四分位範囲は「中央の50%のデータが占める幅」なので、極端な値の影響を受けにくいのが利点です。

落とし穴:$Q_2$ は「第2四分位数」であり「中央値」と同じ

よくある混乱:「四分位数」と「中央値」を別々の概念として覚えようとする。

正しい理解:$Q_2$ はまさに中央値そのものです。四分位数は「中央値の考え方を拡張したもの」と捉えれば、3つの値の関係が自然に理解できます。

中央値でデータを2分割 → さらにそれぞれを2分割 → 合計4分割 → 3つの境界が四分位数。

深掘り:なぜ「四分位」なのか ── 統計学の歴史

四分位数(quartile)という概念は、19世紀の統計学者フランシス・ゴルトンが体系化しました。 彼は人間の身長や知能のデータを分析する中で、「平均値だけではデータの特徴を十分に表現できない」と気づき、 データを等分割して分布の形を把握する方法を提唱しました。

現代の統計学でも、四分位数は記述統計の基本ツールとして広く使われています。 医学統計、品質管理、経済データの分析など、あらゆる分野で「まず四分位数と箱ひげ図を見る」のが定石です。

2四分位数の求め方 ─ データ数による場合分け

四分位数を求める手順は、データの個数が偶数か奇数かで少し異なります。 しかし、根底にある原理は同じです。「まず中央値を求め、次に下位グループと上位グループそれぞれの中央値を求める」── これだけです。

ここが本質:四分位数の求め方は「中央値を3回求める」こと

四分位数を求める手順は、突き詰めれば「中央値を繰り返し求める」作業です。

Step 1:データ全体の中央値を求める → これが $Q_2$

Step 2:$Q_2$ より小さい側(下位のデータ)の中央値を求める → これが $Q_1$

Step 3:$Q_2$ より大きい側(上位のデータ)の中央値を求める → これが $Q_3$

「中央値の求め方」さえわかっていれば、四分位数は自動的に求められます。

データの個数が偶数のとき

データが $2n$ 個あるとき、データを小さい順に並べると、ちょうど前半 $n$ 個と後半 $n$ 個に分けられます。

具体例:偶数個(10個)のデータ

データ:$3, \, 5, \, 6, \, 8, \, 8, \, 9, \, 10, \, 12, \, 15, \, 18$(10個)

Step 1:$Q_2$(中央値)を求める。10個なので5番目と6番目の平均。

$$Q_2 = \frac{8 + 9}{2} = 8.5$$

Step 2:下位5個 $\{3, 5, 6, 8, 8\}$ の中央値 → $Q_1 = 6$

Step 3:上位5個 $\{9, 10, 12, 15, 18\}$ の中央値 → $Q_3 = 12$

結果:$Q_1 = 6$, $Q_2 = 8.5$, $Q_3 = 12$

四分位範囲 $= Q_3 - Q_1 = 12 - 6 = 6$

データの個数が奇数のとき

データが $2n + 1$ 個あるとき、中央値はちょうど真ん中の1つの値です。 ここで問題になるのが、中央値を下位グループと上位グループのどちらに含めるかです。

高校数学では、中央値そのものを除外して、下位グループと上位グループに分けます。 つまり、中央値を取り除いた残りの $2n$ 個を前半 $n$ 個と後半 $n$ 個に分け、それぞれの中央値を $Q_1$, $Q_3$ とします。

具体例:奇数個(11個)のデータ

データ:$2, \, 4, \, 5, \, 7, \, 8, \, 9, \, 10, \, 12, \, 14, \, 16, \, 20$(11個)

Step 1:$Q_2$(中央値)は6番目の値 → $Q_2 = 9$

Step 2:中央値 $9$ を除外。下位5個 $\{2, 4, 5, 7, 8\}$ の中央値 → $Q_1 = 5$

Step 3:上位5個 $\{10, 12, 14, 16, 20\}$ の中央値 → $Q_3 = 14$

結果:$Q_1 = 5$, $Q_2 = 9$, $Q_3 = 14$

四分位範囲 $= Q_3 - Q_1 = 14 - 5 = 9$

落とし穴:奇数個のとき、中央値を下位・上位どちらに含めるか

よくある間違い:データが奇数個のとき、中央値を下位グループにも上位グループにも含めて計算してしまう。

正しい手順:高校数学では、中央値を除外して残りを2等分します。 上の例では、$9$ を取り除き、$\{2, 4, 5, 7, 8\}$ と $\{10, 12, 14, 16, 20\}$ の2グループに分けます。

注意:四分位数の定め方には複数の流儀がありますが、共通テストや高校数学では「中央値を除外する方法」が標準です。

落とし穴:データが4の倍数個のときとそうでないとき

データの個数によって $Q_1$, $Q_3$ が「ぴったり1つの値」になるか「2つの値の平均」になるかが変わります。

8個のデータの場合:下位4個、上位4個。$Q_1$ は下位4個の中央値(2番目と3番目の平均)、$Q_3$ は上位4個の中央値(2番目と3番目の平均)。

9個のデータの場合:中央値を除外して下位4個、上位4個。$Q_1$, $Q_3$ はそれぞれ2番目と3番目の平均。

10個のデータの場合:下位5個、上位5個。$Q_1$ は下位5個の3番目の値、$Q_3$ は上位5個の3番目の値。

11個のデータの場合:中央値を除外して下位5個、上位5個。$Q_1$, $Q_3$ はそれぞれ3番目の値。

いずれの場合も「下位グループの中央値」「上位グループの中央値」を求めるという原理は同じです。データの個数に応じて、中央値を求める操作を正確に行いましょう。

手順のまとめ

データ数$Q_2$(中央値)$Q_1$ の求め方$Q_3$ の求め方
偶数 $2n$ 個$n$ 番目と $(n+1)$ 番目の平均前半 $n$ 個の中央値後半 $n$ 個の中央値
奇数 $2n+1$ 個$(n+1)$ 番目の値$Q_2$ を除外した前半 $n$ 個の中央値$Q_2$ を除外した後半 $n$ 個の中央値
深掘り:四分位数の「定め方」は1つではない

実は、四分位数の計算方法には複数の定義が存在します。 代表的なものだけでも、統計ソフトによって9種類もの方法が使い分けられています。

高校で学ぶ「中央値を除外して下位・上位に分ける方法」は最もシンプルな定義の1つです。 Python の NumPy や Excel では、データを連続的に補間する方法がデフォルトで使われており、 高校で手計算した値と微妙に異なることがあります。

重要なのは「どの定義を使うか」ではなく、「四分位数がデータの25%, 50%, 75%付近の位置を示す値である」という本質を理解することです。

3箱ひげ図 ─ 5数要約を1本の図で表す

四分位数を含む5つの数(最小値, $Q_1$, $Q_2$, $Q_3$, 最大値)を視覚的に表現する方法が箱ひげ図(box-and-whisker plot)です。 データの分布の概形を、たった1本の図で瞬時に把握できます。

ここが本質:箱ひげ図の各パーツが表すもの

箱ひげ図は次の5つの要素から構成されます。

左のひげ:最小値から $Q_1$ まで。データの下位約25%が存在する範囲。

箱の左端:$Q_1$(第1四分位数)。

箱の中の線:$Q_2$(中央値)。

箱の右端:$Q_3$(第3四分位数)。

右のひげ:$Q_3$ から最大値まで。データの上位約25%が存在する範囲。

つまり、箱の中にはデータの中央50%(25%目から75%目)が含まれています。箱の幅が四分位範囲です。

箱ひげ図のかき方

箱ひげ図をかくには、次の手順で進めます。

  1. データを小さい順に並べる。
  2. 5数要約(最小値, $Q_1$, $Q_2$, $Q_3$, 最大値)を求める。
  3. 数直線上に、$Q_1$ から $Q_3$ までの(長方形)をかく。
  4. 箱の中に $Q_2$(中央値)の位置に縦線を引く。
  5. 箱の左端から最小値まで、箱の右端から最大値までひげ(線分)を引く。

平均値を表示する場合は、箱ひげ図上に「$+$」の記号で記入することがあります。

具体例:箱ひげ図の作成

データ:$3, \, 5, \, 6, \, 8, \, 8, \, 9, \, 10, \, 12, \, 15, \, 18$(10個)

5数要約:

・最小値 $= 3$

・$Q_1 = 6$

・$Q_2 = 8.5$

・$Q_3 = 12$

・最大値 $= 18$

数直線上に箱ひげ図を描くと:

$3$ ── $|$ $6$ $[$ ─── $8.5$ ─── $]$ $12$ $|$ ── $18$

・左のひげ:$3$ から $6$ ・箱:$6$ から $12$(中に $8.5$ の線) ・右のひげ:$12$ から $18$

四分位範囲 $= 12 - 6 = 6$(箱の幅)

落とし穴:箱ひげ図を「棒グラフ」のように読んでしまう

よくある誤解:「箱が大きいところにデータがたくさんある」と思ってしまう。

正しい理解:箱ひげ図では、箱の中にもひげの部分にも、それぞれ約25%ずつのデータが含まれています。 箱が大きい(=四分位範囲が大きい)のは「中央50%のデータが広く散らばっている」ことを意味し、「データが多い」わけではありません。

逆に、ひげが短い部分は「データが狭い範囲に密集している」ことを示します。

箱ひげ図の縦表示

箱ひげ図は横向きに描くのが一般的ですが、90度回転して縦向きに描くこともあります。 複数のデータセットを横に並べて比較するときは、縦向きの方が見やすい場合があります。 いずれの場合も、読み取り方は同じです。

4箱ひげ図の読み取り ─ 何がわかり、何がわからないか

箱ひげ図は非常に便利な図ですが、「読み取れること」と「読み取れないこと」を正しく区別することが重要です。 入試でも、この区別を問う問題が頻出します。

ここが本質:箱ひげ図から読み取れること・読み取れないこと

読み取れること:

・最小値、$Q_1$、$Q_2$(中央値)、$Q_3$、最大値の5つの値

・範囲(最大値 $-$ 最小値)と四分位範囲($Q_3 - Q_1$)

・データの分布の左右対称性や偏り(箱の中の中央値の位置から判断)

・「上位(下位)約25%のデータが存在する範囲」

読み取れないこと:

・データの個数(箱ひげ図からはわからない)

・平均値(中央値と平均値は一般に異なる。$+$ で記入されている場合を除く)

・個々のデータの値

・正確な度数分布(ヒストグラムの形)

箱ひげ図の読み取りパターン

入試では、箱ひげ図を見て正しい記述を選ぶ問題がよく出ます。 典型的な判断パターンを整理しておきましょう。

読み取りパターン判断方法注意点
「$a$ 以上の人は全体の25%以下」$a \geq Q_3$ かどうか確認$Q_3$ 以上にはデータの約25%が存在
「$b$ 以下の人は50人以上いる」$b \geq Q_2$ なら、中央値以下に50%以上データの総数がわからないと人数は判断不可
「範囲はいくつか」最大値 $-$ 最小値を読み取るひげの両端が最大値・最小値
「AのほうがBより散らばりが大きい」四分位範囲(箱の幅)を比較範囲で比較する場合もある。どちらかを明記
「中央値が$c$以上」箱の中の縦線の位置を読む中央値 = 箱の中の線(左右の端ではない)
落とし穴:「箱の中に全データの50%がある」を正しく使えない

よくある間違い:「$Q_1$ が60点だから、60点以上の人は75%いる」と断言する。

正しい理解:$Q_1$ は「データの約25%目の位置にある値」ですが、同じ値が複数あるケースや端数の関係で、正確に75%とは限りません。 「$Q_1$ 以上にはデータの少なくとも75%が含まれる」が安全な表現です。

共通テストでは「約25%」「約50%」「約75%」という表現が多く、「ちょうど25%」とは言わないことに注目してください。

ヒストグラムと箱ひげ図の対応

ヒストグラム(度数分布を棒で表す図)と箱ひげ図は、同じデータの異なる見方です。 ヒストグラムからは度数分布の詳細な形がわかりますが、箱ひげ図は5つの数に情報を集約して比較しやすくしています。

入試では「ヒストグラムに対応する箱ひげ図を選べ」「箱ひげ図に矛盾するヒストグラムを選べ」という問題が出ます。 対応を判断するポイントは次の通りです。

  • ヒストグラムから中央値($Q_2$)がどの階級にあるか読み取り、箱ひげ図の中央値と比較する
  • $Q_1$, $Q_3$ がどの階級にあるか推定し、箱の位置と比較する
  • 最小値・最大値がヒストグラムの端の階級と合っているか確認する
深掘り:箱ひげ図の「形」から分布を推測する

箱ひげ図の形状から、データの分布の特徴をある程度推測できます。

中央値が箱の真ん中にあり、左右のひげが同じ長さ → 左右対称に近い分布(正規分布など)。

中央値が箱の左寄りで、右のひげが長い → 右に裾が伸びた分布(右に偏った分布)。所得データなどに多い。

中央値が箱の右寄りで、左のひげが長い → 左に裾が伸びた分布。

ただし、箱ひげ図だけでは分布の細かい形(双峰性など)はわかりません。 詳細な分析にはヒストグラムや、大学で学ぶカーネル密度推定が必要です。

5外れ値とパーセンタイル ─ より精密なデータの見方

最後に、四分位数と深く関連する2つの概念を学びます。 外れ値の判定基準と、四分位数を一般化したパーセンタイルです。

外れ値の判定基準

データの中に、他の値から極端にかけ離れた値が含まれることがあります。 このような値を外れ値と呼びます。 外れ値は分析結果に大きな影響を与えるため、識別して適切に扱うことが重要です。

外れ値の判定基準として、四分位範囲を利用した次のルールがよく使われます。

外れ値の判定基準(1.5 IQR ルール)

四分位範囲を $\text{IQR} = Q_3 - Q_1$ とするとき、次の範囲の外にあるデータを外れ値とする。

$$Q_1 - 1.5 \times \text{IQR} \leq x \leq Q_3 + 1.5 \times \text{IQR}$$

すなわち、次のいずれかを満たすデータが外れ値:

・$Q_1 - 1.5 \times \text{IQR}$ 以下の値

・$Q_3 + 1.5 \times \text{IQR}$ 以上の値

※ 外れ値がある場合、箱ひげ図では外れ値を $\circ$ で個別に表示し、ひげは外れ値を除いた最大値・最小値まで引きます。
具体例:外れ値の判定

データ:$12, \, 22, \, 26, \, 27, \, 29, \, 32, \, 32, \, 33, \, 34, \, 36, \, 40, \, 40, \, 42, \, 42, \, 50, \, 55, \, 56, \, 72$(18個)

Step 1:$Q_2 = \dfrac{34 + 36}{2} = 35$

下位9個:$\{12, 22, 26, 27, 29, 32, 32, 33, 34\}$ → $Q_1 = 29$

上位9個:$\{36, 40, 40, 42, 42, 50, 55, 56, 72\}$ → $Q_3 = 42$

Step 2:$\text{IQR} = 42 - 29 = 13$

Step 3:外れ値の境界を計算。

・下側:$Q_1 - 1.5 \times 13 = 29 - 19.5 = 9.5$

・上側:$Q_3 + 1.5 \times 13 = 42 + 19.5 = 61.5$

結論:$9.5$ 以下または $61.5$ 以上のデータが外れ値。$72$ が外れ値。

箱ひげ図では、右のひげは $72$ ではなく $56$(外れ値を除いた最大値)まで引き、$72$ を $\circ$ で表示します。

落とし穴:外れ値を含めたまま四分位数を計算し直してしまう

よくある間違い:外れ値を特定した後、「外れ値を除いたデータ」で四分位数を再計算する。

正しい手順:四分位数はすべてのデータ(外れ値を含む)から計算します。 外れ値の表示は箱ひげ図の描画上の処理であり、データそのものを修正するわけではありません。 最大値・最小値も、元のデータから判断します。

パーセンタイル ─ 四分位数の一般化

四分位数はデータを4等分する値でしたが、この考えを一般化して100等分する値を考えたのがパーセンタイル(百分位数)です。

第 $p$ パーセンタイルとは、データを小さい順に並べたとき、小さい方から $p\%$ の位置にある値です。 四分位数との関係は明快です。

  • $Q_1$ = 第25パーセンタイル
  • $Q_2$ = 第50パーセンタイル = 中央値
  • $Q_3$ = 第75パーセンタイル

つまり、四分位数はパーセンタイルの特殊なケースです。 パーセンタイルを使えば、「上位何%に入るか」をより細かく表現できます。

深掘り:パーセンタイルの実社会での活用

パーセンタイルは高校では発展的な内容ですが、実社会では非常に広く使われています。

偏差値:受験でおなじみの偏差値は、パーセンタイルと深い関係があります。正規分布を仮定すると、偏差値50は第50パーセンタイル(中央値)、偏差値60は約第84パーセンタイルに対応します。

Webサービスの応答時間:IT業界では「第99パーセンタイルの応答時間」(p99)が重要視されます。「99%のリクエストはこの時間以内に処理される」という品質指標です。

乳幼児の発育曲線:小児科では、身長や体重の「パーセンタイル曲線」で子どもの発育を評価します。

つながりマップ

  • ← 5-1 データの整理と分析:平均値・中央値・最頻値の基本知識が前提。四分位数は中央値の考え方を拡張したもの。
  • ← 5-2 データの相関:散布図で外れ値を識別する際に、四分位範囲を使った基準が活用される。外れ値は相関係数にも大きな影響を与える。
  • → 数学B 統計的な推測:四分位数と箱ひげ図で身につけた「分布を把握する力」が、正規分布や推定・検定の学習で活きる。
  • → 大学 記述統計・探索的データ分析:箱ひげ図は探索的データ分析(EDA)の基本ツール。大学の統計学でも最初に学ぶ可視化手法の1つ。

📋まとめ

  • 四分位数はデータを4等分する3つの値($Q_1$, $Q_2$, $Q_3$)。$Q_2$ は中央値と同じ
  • 四分位数の求め方は「中央値を3回求める」こと。偶数個と奇数個で手順が異なるが原理は同じ
  • 5数要約(最小値, $Q_1$, $Q_2$, $Q_3$, 最大値)がデータの「骨格」。箱ひげ図はこの5数を視覚化した図
  • 四分位範囲 $= Q_3 - Q_1$ はデータの中央50%の散らばりを表す。外れ値の影響を受けにくい
  • 箱ひげ図から読み取れるのは5数要約に基づく情報のみ。データの個数や平均値は読み取れない
  • 外れ値の判定:$Q_1 - 1.5 \times \text{IQR}$ 以下、または $Q_3 + 1.5 \times \text{IQR}$ 以上のデータ
  • パーセンタイルは四分位数の一般化。$Q_1 = $ 第25, $Q_2 = $ 第50, $Q_3 = $ 第75パーセンタイル

確認テスト

Q1. データ $4, \, 6, \, 7, \, 8, \, 10, \, 12, \, 15$ の $Q_1$, $Q_2$, $Q_3$ をそれぞれ求めてください。

▶ クリックして解答を表示7個(奇数)なので $Q_2 = 8$(4番目)。中央値を除外して下位3個 $\{4, 6, 7\}$ → $Q_1 = 6$。上位3個 $\{10, 12, 15\}$ → $Q_3 = 12$。

Q2. 四分位範囲と範囲(レンジ)の違いを説明してください。

▶ クリックして解答を表示範囲 $=$ 最大値 $-$ 最小値で、データ全体の幅を表す。四分位範囲 $= Q_3 - Q_1$ で、中央50%のデータの散らばりを表す。四分位範囲は外れ値の影響を受けにくいという利点がある。

Q3. 箱ひげ図の「箱」の部分には、全データのおよそ何%が含まれていますか?

▶ クリックして解答を表示約50%。箱は $Q_1$ から $Q_3$ の範囲を表し、データの25%目から75%目がこの中に含まれる。

Q4. 箱ひげ図から読み取れないものを2つ挙げてください。

▶ クリックして解答を表示(1) データの個数(何人分のデータか)。(2) 平均値($+$ マークがない場合)。他にも、個々のデータの値や正確な度数分布は読み取れない。

Q5. $Q_1 = 20$, $Q_3 = 40$ のとき、外れ値と判定される値の範囲を求めてください。

▶ クリックして解答を表示$\text{IQR} = 40 - 20 = 20$。$Q_1 - 1.5 \times 20 = 20 - 30 = -10$、$Q_3 + 1.5 \times 20 = 40 + 30 = 70$。よって $-10$ 以下または $70$ 以上の値が外れ値。

8入試問題演習

この記事で学んだ内容を、入試形式の問題で確認しましょう。

A 基礎レベル

5-3-1 A 基礎 四分位数 箱ひげ図

次のデータは、ある10人の生徒の数学のテストの得点(点)である。

$35, \, 42, \, 48, \, 55, \, 58, \, 62, \, 70, \, 75, \, 82, \, 90$

(1) 第1四分位数 $Q_1$、第2四分位数 $Q_2$、第3四分位数 $Q_3$ を求めよ。

(2) 四分位範囲を求めよ。

(3) このデータの箱ひげ図をかけ。

▶ クリックして解答・解説を表示
解答

(1) $Q_1 = 48$, $Q_2 = 60$, $Q_3 = 75$

(2) 四分位範囲 $= 75 - 48 = 27$(点)

(3) 数直線上に、最小値 $35$、$Q_1 = 48$、$Q_2 = 60$、$Q_3 = 75$、最大値 $90$ を用いて箱ひげ図を描く。

解説

方針:データは10個(偶数)。まず中央値を求め、下位5個と上位5個の中央値をそれぞれ求める。

データは既に昇順に並んでいる。

(1) $Q_2$:5番目と6番目の平均 $= \dfrac{58 + 62}{2} = 60$

下位5個 $\{35, 42, 48, 55, 58\}$ → $Q_1 = 48$(3番目の値)

上位5個 $\{62, 70, 75, 82, 90\}$ → $Q_3 = 75$(3番目の値)

(2) $Q_3 - Q_1 = 75 - 48 = 27$

(3) 5数要約は $35, 48, 60, 75, 90$。ひげは $35$ から $48$ と $75$ から $90$、箱は $48$ から $75$、中に $60$ の線。

5-3-2 A 基礎 箱ひげ図の読み取り

右の箱ひげ図は、ある学校の1年生200人の身長のデータを表したものである(箱ひげ図は省略。最小値 $150$、$Q_1 = 158$、$Q_2 = 165$、$Q_3 = 170$、最大値 $185$ とする)。

次の記述のうち、この箱ひげ図から読み取れることとして正しいものをすべて選べ。

  • (a) 身長が $165$ cm 以上の生徒は100人以上いる。
  • (b) 身長が $170$ cm 以上の生徒は50人以下である。
  • (c) 身長の範囲は $35$ cm である。
  • (d) 平均身長は $165$ cm である。
▶ クリックして解答・解説を表示
解答

正しいのは (b), (c)

解説

(a) $Q_2 = 165$ なので、$165$ cm 以上の生徒は約50%(約100人)いる。ただし、中央値と同じ値のデータが複数ある可能性があり、「100人以上」と断言するのは不正確。必ずしも正しいとは言えない。

(b) $Q_3 = 170$ なので、$170$ cm 以上のデータは上位約25%(約50人)以下。正しい。

(c) 範囲 $= 185 - 150 = 35$ cm。正しい。

(d) 箱ひげ図の中央値は $165$ cm だが、中央値と平均値は一般に異なる。箱ひげ図から平均値は読み取れない。正しくない。

B 発展レベル

5-3-3 B 発展 外れ値 箱ひげ図

次のデータは、16日間毎日測定した血圧の値(mmHg)である。

$50, \, 55, \, 58, \, 64, \, 65, \, 66, \, 66, \, 67, \, 68, \, 69, \, 70, \, 72, \, 73, \, 78, \, 80, \, 89$

(1) $Q_1$, $Q_2$, $Q_3$ および四分位範囲を求めよ。

(2) 外れ値があるかどうか調べよ($Q_1 - 1.5 \times \text{IQR}$ 以下、または $Q_3 + 1.5 \times \text{IQR}$ 以上を外れ値とする)。

(3) 外れ値がある場合は外れ値を示し、箱ひげ図をかけ。

▶ クリックして解答・解説を表示
解答

(1) $Q_1 = 64.5$, $Q_2 = 67.5$, $Q_3 = 72.5$, 四分位範囲 $= 8$

(2) $50$ が外れ値

(3) 箱ひげ図は外れ値 $50$ を $\circ$ で表示し、左のひげは $55$ まで引く。

解説

方針:データ16個(偶数)。5数要約を求め、1.5 IQR ルールで外れ値を判定する。

(1) $Q_2 = \dfrac{67 + 68}{2} = 67.5$

下位8個 $\{50, 55, 58, 64, 65, 66, 66, 67\}$ → $Q_1 = \dfrac{64 + 65}{2} = 64.5$

上位8個 $\{68, 69, 70, 72, 73, 78, 80, 89\}$ → $Q_3 = \dfrac{72 + 73}{2} = 72.5$

$\text{IQR} = 72.5 - 64.5 = 8$

(2) 下側の境界:$64.5 - 1.5 \times 8 = 64.5 - 12 = 52.5$

上側の境界:$72.5 + 1.5 \times 8 = 72.5 + 12 = 84.5$

$52.5$ 以下のデータは $50$。$84.5$ 以上のデータは $89$。よって $50$ と $89$ が外れ値。

(3) 外れ値を除いた最小値は $55$、最大値は $80$。箱は $Q_1 = 64.5$ から $Q_3 = 72.5$、中央値 $67.5$。ひげは $55$ から $64.5$ と $72.5$ から $80$。外れ値 $50$ と $89$ は $\circ$ で表示。

採点ポイント
  • $Q_1$, $Q_2$, $Q_3$ を正しく求める(3点)
  • $1.5 \times \text{IQR}$ の計算と外れ値の判定(3点)
  • 外れ値を含む箱ひげ図を正しく描く(4点)
5-3-4 B 発展 データの比較 論述

A組10人、B組9人に行ったテストの得点(点)が次の通りである。

A組:$25, \, 12, \, 28, \, 17, \, 25, \, 6, \, 9, \, 18, \, 18, \, 28$

B組:$9, \, 14, \, 14, \, 23, \, 6, \, 11, \, 3, \, 20, \, 28$

(1) A組、B組それぞれの箱ひげ図をかけ。

(2) A組、B組それぞれの四分位範囲を求めよ。

(3) 四分位範囲をもとに、A組とB組の得点の散らばり具合いを比較せよ。

▶ クリックして解答・解説を表示
解答

(1) 下記参照

(2) A組の四分位範囲:$13$ B組の四分位範囲:$12$

(3) A組の方が四分位範囲が大きいから、A組の方が散らばりの度合いが大きいと考えられる。

解説

方針:データを昇順に並べ、5数要約を求めてから箱ひげ図を描く。

A組(10個)を昇順に:$6, 9, 12, 17, 18, 18, 25, 25, 28, 28$

$Q_2 = \dfrac{18 + 18}{2} = 18$

下位5個 $\{6, 9, 12, 17, 18\}$ → $Q_1 = 12$

上位5個 $\{18, 25, 25, 28, 28\}$ → $Q_3 = 25$

5数要約:$6, 12, 18, 25, 28$

B組(9個)を昇順に:$3, 6, 9, 11, 14, 14, 20, 23, 28$

$Q_2 = 14$(5番目)

中央値を除外して下位4個 $\{3, 6, 9, 11\}$ → $Q_1 = \dfrac{6 + 9}{2} = 7.5$

上位4個 $\{14, 20, 23, 28\}$ → $Q_3 = \dfrac{20 + 23}{2} = 21.5$

5数要約:$3, 7.5, 14, 21.5, 28$

(2) A組:$25 - 12 = 13$ B組:$21.5 - 7.5 = 14$

※ 訂正:B組の四分位範囲は $14$ であり、B組の方がわずかに大きい。

(3) B組の方が四分位範囲がわずかに大きいため、B組の方が中央50%のデータの散らばりがやや大きいと考えられる。

採点ポイント
  • データを昇順に並べる(2点)
  • A組・B組の5数要約を正しく求める(4点)
  • 箱ひげ図を正しく描く(2点)
  • 四分位範囲の比較と考察(2点)