5-3 四分位数と箱ひげ図 | 高校数学デジタル教科書

1四分位数の定義 ─ データを4等分する3つの値

5-1で学んだ中央値は、データを「大きい方と小さい方の2つに分ける値」でした。この考えをもう一歩進めて、データを4等分する位置にある3つの値を考えるのが四分位数です。

データを小さい順に並べたとき、全体をおよそ4等分する3つの値を四分位数と呼びます。小さい方から順に、第1四分位数 $Q_1$、第2四分位数 $Q_2$、第3四分位数 $Q_3$ です。

なぜ「4等分」なのでしょうか。中央値だけでは「真ん中より上か下か」しかわかりません。しかし4等分すれば、データの下位25%、中央、上位25%の位置がわかり、「データがどのあたりに集中しているか」「どのくらい散らばっているか」がより正確に捉えられるのです。

ここが本質：四分位数＝データの「骨格」を決める3つの関節

四分位数は、データの分布を把握するための「骨格」です。人体の骨格が体の形を決めるように、$Q_1$, $Q_2$, $Q_3$ の3つの値がデータの「形」を決めます。

$Q_1$：データの下位約25%の位置。「小さい方から4分の1」の目安。

$Q_2$：データの中央値そのもの。ちょうど真ん中の位置。

$Q_3$：データの上位約25%の位置。「大きい方から4分の1」の目安。

この3つに最小値と最大値を加えた5つの数を5数要約と呼びます。5数要約はデータの「骨格」そのものです。

範囲と四分位範囲

データの散らばりを数値で表す方法には、範囲（レンジ）と四分位範囲があります。

範囲と四分位範囲

範囲（レンジ）

$$\text{範囲} = \text{最大値} - \text{最小値}$$

四分位範囲（IQR: Interquartile Range）

$$\text{四分位範囲} = Q_3 - Q_1$$

※ 範囲は最大値と最小値だけで決まるため、外れ値の影響を受けやすい。四分位範囲は中央付近のデータの散らばりを表すので、外れ値に強い指標です。

範囲はデータ全体の「幅」を表しますが、たった1つの極端な値（外れ値）に大きく左右されます。一方、四分位範囲は「中央の50%のデータが占める幅」なので、極端な値の影響を受けにくいのが利点です。

落とし穴：$Q_2$ は「第2四分位数」であり「中央値」と同じ

よくある混乱：「四分位数」と「中央値」を別々の概念として覚えようとする。

正しい理解：$Q_2$ はまさに中央値そのものです。四分位数は「中央値の考え方を拡張したもの」と捉えれば、3つの値の関係が自然に理解できます。

中央値でデータを2分割 → さらにそれぞれを2分割 → 合計4分割 → 3つの境界が四分位数。

深掘り：なぜ「四分位」なのか ── 統計学の歴史

四分位数（quartile）という概念は、19世紀の統計学者フランシス・ゴルトンが体系化しました。彼は人間の身長や知能のデータを分析する中で、「平均値だけではデータの特徴を十分に表現できない」と気づき、データを等分割して分布の形を把握する方法を提唱しました。

現代の統計学でも、四分位数は記述統計の基本ツールとして広く使われています。医学統計、品質管理、経済データの分析など、あらゆる分野で「まず四分位数と箱ひげ図を見る」のが定石です。

2四分位数の求め方 ─ データ数による場合分け

四分位数を求める手順は、データの個数が偶数か奇数かで少し異なります。しかし、根底にある原理は同じです。「まず中央値を求め、次に下位グループと上位グループそれぞれの中央値を求める」── これだけです。

ここが本質：四分位数の求め方は「中央値を3回求める」こと

四分位数を求める手順は、突き詰めれば「中央値を繰り返し求める」作業です。

Step 1：データ全体の中央値を求める → これが $Q_2$

Step 2：$Q_2$ より小さい側（下位のデータ）の中央値を求める → これが $Q_1$

Step 3：$Q_2$ より大きい側（上位のデータ）の中央値を求める → これが $Q_3$

「中央値の求め方」さえわかっていれば、四分位数は自動的に求められます。

データの個数が偶数のとき

データが $2n$ 個あるとき、データを小さい順に並べると、ちょうど前半 $n$ 個と後半 $n$ 個に分けられます。

具体例：偶数個（10個）のデータ

データ：$3, \, 5, \, 6, \, 8, \, 8, \, 9, \, 10, \, 12, \, 15, \, 18$（10個）

Step 1：$Q_2$（中央値）を求める。10個なので5番目と6番目の平均。

$$Q_2 = \frac{8 + 9}{2} = 8.5$$

Step 2：下位5個 $\{3, 5, 6, 8, 8\}$ の中央値 → $Q_1 = 6$

Step 3：上位5個 $\{9, 10, 12, 15, 18\}$ の中央値 → $Q_3 = 12$

結果：$Q_1 = 6$, $Q_2 = 8.5$, $Q_3 = 12$

四分位範囲 $= Q_3 - Q_1 = 12 - 6 = 6$

データの個数が奇数のとき

データが $2n + 1$ 個あるとき、中央値はちょうど真ん中の1つの値です。ここで問題になるのが、中央値を下位グループと上位グループのどちらに含めるかです。

高校数学では、中央値そのものを除外して、下位グループと上位グループに分けます。つまり、中央値を取り除いた残りの $2n$ 個を前半 $n$ 個と後半 $n$ 個に分け、それぞれの中央値を $Q_1$, $Q_3$ とします。

具体例：奇数個（11個）のデータ

データ：$2, \, 4, \, 5, \, 7, \, 8, \, 9, \, 10, \, 12, \, 14, \, 16, \, 20$（11個）

Step 1：$Q_2$（中央値）は6番目の値 → $Q_2 = 9$

Step 2：中央値 $9$ を除外。下位5個 $\{2, 4, 5, 7, 8\}$ の中央値 → $Q_1 = 5$

Step 3：上位5個 $\{10, 12, 14, 16, 20\}$ の中央値 → $Q_3 = 14$

結果：$Q_1 = 5$, $Q_2 = 9$, $Q_3 = 14$

四分位範囲 $= Q_3 - Q_1 = 14 - 5 = 9$

落とし穴：奇数個のとき、中央値を下位・上位どちらに含めるか

よくある間違い：データが奇数個のとき、中央値を下位グループにも上位グループにも含めて計算してしまう。

正しい手順：高校数学では、中央値を除外して残りを2等分します。上の例では、$9$ を取り除き、$\{2, 4, 5, 7, 8\}$ と $\{10, 12, 14, 16, 20\}$ の2グループに分けます。

注意：四分位数の定め方には複数の流儀がありますが、共通テストや高校数学では「中央値を除外する方法」が標準です。

落とし穴：データが4の倍数個のときとそうでないとき

データの個数によって $Q_1$, $Q_3$ が「ぴったり1つの値」になるか「2つの値の平均」になるかが変わります。

8個のデータの場合：下位4個、上位4個。$Q_1$ は下位4個の中央値（2番目と3番目の平均）、$Q_3$ は上位4個の中央値（2番目と3番目の平均）。

9個のデータの場合：中央値を除外して下位4個、上位4個。$Q_1$, $Q_3$ はそれぞれ2番目と3番目の平均。

10個のデータの場合：下位5個、上位5個。$Q_1$ は下位5個の3番目の値、$Q_3$ は上位5個の3番目の値。

11個のデータの場合：中央値を除外して下位5個、上位5個。$Q_1$, $Q_3$ はそれぞれ3番目の値。

いずれの場合も「下位グループの中央値」「上位グループの中央値」を求めるという原理は同じです。データの個数に応じて、中央値を求める操作を正確に行いましょう。

手順のまとめ

データ数	$Q_2$（中央値）	$Q_1$ の求め方	$Q_3$ の求め方
偶数 $2n$ 個	$n$ 番目と $(n+1)$ 番目の平均	前半 $n$ 個の中央値	後半 $n$ 個の中央値
奇数 $2n+1$ 個	$(n+1)$ 番目の値	$Q_2$ を除外した前半 $n$ 個の中央値	$Q_2$ を除外した後半 $n$ 個の中央値

深掘り：四分位数の「定め方」は1つではない

実は、四分位数の計算方法には複数の定義が存在します。代表的なものだけでも、統計ソフトによって9種類もの方法が使い分けられています。

高校で学ぶ「中央値を除外して下位・上位に分ける方法」は最もシンプルな定義の1つです。 Python の NumPy や Excel では、データを連続的に補間する方法がデフォルトで使われており、高校で手計算した値と微妙に異なることがあります。

重要なのは「どの定義を使うか」ではなく、「四分位数がデータの25%, 50%, 75%付近の位置を示す値である」という本質を理解することです。

3箱ひげ図 ─ 5数要約を1本の図で表す

四分位数を含む5つの数（最小値, $Q_1$, $Q_2$, $Q_3$, 最大値）を視覚的に表現する方法が箱ひげ図（box-and-whisker plot）です。データの分布の概形を、たった1本の図で瞬時に把握できます。

ここが本質：箱ひげ図の各パーツが表すもの

箱ひげ図は次の5つの要素から構成されます。

左のひげ：最小値から $Q_1$ まで。データの下位約25%が存在する範囲。

箱の左端：$Q_1$（第1四分位数）。

箱の中の線：$Q_2$（中央値）。

箱の右端：$Q_3$（第3四分位数）。

右のひげ：$Q_3$ から最大値まで。データの上位約25%が存在する範囲。

つまり、箱の中にはデータの中央50%（25%目から75%目）が含まれています。箱の幅が四分位範囲です。

箱ひげ図のかき方

箱ひげ図をかくには、次の手順で進めます。

データを小さい順に並べる。
5数要約（最小値, $Q_1$, $Q_2$, $Q_3$, 最大値）を求める。
数直線上に、$Q_1$ から $Q_3$ までの箱（長方形）をかく。
箱の中に $Q_2$（中央値）の位置に縦線を引く。
箱の左端から最小値まで、箱の右端から最大値までひげ（線分）を引く。

平均値を表示する場合は、箱ひげ図上に「$+$」の記号で記入することがあります。

具体例：箱ひげ図の作成

データ：$3, \, 5, \, 6, \, 8, \, 8, \, 9, \, 10, \, 12, \, 15, \, 18$（10個）

5数要約：

・最小値 $= 3$

・$Q_1 = 6$

・$Q_2 = 8.5$

・$Q_3 = 12$

・最大値 $= 18$

数直線上に箱ひげ図を描くと：

$3$ ── $|$ $6$ $[$ ─── $8.5$ ─── $]$ $12$ $|$ ── $18$

・左のひげ：$3$ から $6$　・箱：$6$ から $12$（中に $8.5$ の線）　・右のひげ：$12$ から $18$

四分位範囲 $= 12 - 6 = 6$（箱の幅）

落とし穴：箱ひげ図を「棒グラフ」のように読んでしまう

よくある誤解：「箱が大きいところにデータがたくさんある」と思ってしまう。

正しい理解：箱ひげ図では、箱の中にもひげの部分にも、それぞれ約25%ずつのデータが含まれています。箱が大きい（＝四分位範囲が大きい）のは「中央50%のデータが広く散らばっている」ことを意味し、「データが多い」わけではありません。

逆に、ひげが短い部分は「データが狭い範囲に密集している」ことを示します。

箱ひげ図の縦表示

箱ひげ図は横向きに描くのが一般的ですが、90度回転して縦向きに描くこともあります。複数のデータセットを横に並べて比較するときは、縦向きの方が見やすい場合があります。いずれの場合も、読み取り方は同じです。

4箱ひげ図の読み取り ─ 何がわかり、何がわからないか

箱ひげ図は非常に便利な図ですが、「読み取れること」と「読み取れないこと」を正しく区別することが重要です。入試でも、この区別を問う問題が頻出します。

ここが本質：箱ひげ図から読み取れること・読み取れないこと

読み取れること：

・最小値、$Q_1$、$Q_2$（中央値）、$Q_3$、最大値の5つの値

・範囲（最大値 $-$ 最小値）と四分位範囲（$Q_3 - Q_1$）

・データの分布の左右対称性や偏り（箱の中の中央値の位置から判断）

・「上位（下位）約25%のデータが存在する範囲」

読み取れないこと：

・データの個数（箱ひげ図からはわからない）

・平均値（中央値と平均値は一般に異なる。$+$ で記入されている場合を除く）

・個々のデータの値

・正確な度数分布（ヒストグラムの形）

箱ひげ図の読み取りパターン

入試では、箱ひげ図を見て正しい記述を選ぶ問題がよく出ます。典型的な判断パターンを整理しておきましょう。

読み取りパターン	判断方法	注意点
「$a$ 以上の人は全体の25%以下」	$a \geq Q_3$ かどうか確認	$Q_3$ 以上にはデータの約25%が存在
「$b$ 以下の人は50人以上いる」	$b \geq Q_2$ なら、中央値以下に50%以上	データの総数がわからないと人数は判断不可
「範囲はいくつか」	最大値 $-$ 最小値を読み取る	ひげの両端が最大値・最小値
「AのほうがBより散らばりが大きい」	四分位範囲（箱の幅）を比較	範囲で比較する場合もある。どちらかを明記
「中央値が$c$以上」	箱の中の縦線の位置を読む	中央値＝箱の中の線（左右の端ではない）

落とし穴：「箱の中に全データの50%がある」を正しく使えない

よくある間違い：「$Q_1$ が60点だから、60点以上の人は75%いる」と断言する。

正しい理解：$Q_1$ は「データの約25%目の位置にある値」ですが、同じ値が複数あるケースや端数の関係で、正確に75%とは限りません。「$Q_1$ 以上にはデータの少なくとも75%が含まれる」が安全な表現です。

共通テストでは「約25%」「約50%」「約75%」という表現が多く、「ちょうど25%」とは言わないことに注目してください。

ヒストグラムと箱ひげ図の対応

ヒストグラム（度数分布を棒で表す図）と箱ひげ図は、同じデータの異なる見方です。ヒストグラムからは度数分布の詳細な形がわかりますが、箱ひげ図は5つの数に情報を集約して比較しやすくしています。

入試では「ヒストグラムに対応する箱ひげ図を選べ」「箱ひげ図に矛盾するヒストグラムを選べ」という問題が出ます。対応を判断するポイントは次の通りです。

ヒストグラムから中央値（$Q_2$）がどの階級にあるか読み取り、箱ひげ図の中央値と比較する
$Q_1$, $Q_3$ がどの階級にあるか推定し、箱の位置と比較する
最小値・最大値がヒストグラムの端の階級と合っているか確認する

深掘り：箱ひげ図の「形」から分布を推測する

箱ひげ図の形状から、データの分布の特徴をある程度推測できます。

中央値が箱の真ん中にあり、左右のひげが同じ長さ → 左右対称に近い分布（正規分布など）。

中央値が箱の左寄りで、右のひげが長い → 右に裾が伸びた分布（右に偏った分布）。所得データなどに多い。

中央値が箱の右寄りで、左のひげが長い → 左に裾が伸びた分布。

ただし、箱ひげ図だけでは分布の細かい形（双峰性など）はわかりません。詳細な分析にはヒストグラムや、大学で学ぶカーネル密度推定が必要です。

5外れ値とパーセンタイル ─ より精密なデータの見方

最後に、四分位数と深く関連する2つの概念を学びます。外れ値の判定基準と、四分位数を一般化したパーセンタイルです。

外れ値の判定基準

データの中に、他の値から極端にかけ離れた値が含まれることがあります。このような値を外れ値と呼びます。外れ値は分析結果に大きな影響を与えるため、識別して適切に扱うことが重要です。

外れ値の判定基準として、四分位範囲を利用した次のルールがよく使われます。

外れ値の判定基準（1.5 IQR ルール）

四分位範囲を $\text{IQR} = Q_3 - Q_1$ とするとき、次の範囲の外にあるデータを外れ値とする。

$$Q_1 - 1.5 \times \text{IQR} \leq x \leq Q_3 + 1.5 \times \text{IQR}$$

すなわち、次のいずれかを満たすデータが外れ値：

・$Q_1 - 1.5 \times \text{IQR}$ 以下の値

・$Q_3 + 1.5 \times \text{IQR}$ 以上の値

※ 外れ値がある場合、箱ひげ図では外れ値を $\circ$ で個別に表示し、ひげは外れ値を除いた最大値・最小値まで引きます。

具体例：外れ値の判定

データ：$12, \, 22, \, 26, \, 27, \, 29, \, 32, \, 32, \, 33, \, 34, \, 36, \, 40, \, 40, \, 42, \, 42, \, 50, \, 55, \, 56, \, 72$（18個）

Step 1：$Q_2 = \dfrac{34 + 36}{2} = 35$

下位9個：$\{12, 22, 26, 27, 29, 32, 32, 33, 34\}$ → $Q_1 = 29$

上位9個：$\{36, 40, 40, 42, 42, 50, 55, 56, 72\}$ → $Q_3 = 42$

Step 2：$\text{IQR} = 42 - 29 = 13$

Step 3：外れ値の境界を計算。

・下側：$Q_1 - 1.5 \times 13 = 29 - 19.5 = 9.5$

・上側：$Q_3 + 1.5 \times 13 = 42 + 19.5 = 61.5$

結論：$9.5$ 以下または $61.5$ 以上のデータが外れ値。$72$ が外れ値。

箱ひげ図では、右のひげは $72$ ではなく $56$（外れ値を除いた最大値）まで引き、$72$ を $\circ$ で表示します。

落とし穴：外れ値を含めたまま四分位数を計算し直してしまう

よくある間違い：外れ値を特定した後、「外れ値を除いたデータ」で四分位数を再計算する。

正しい手順：四分位数はすべてのデータ（外れ値を含む）から計算します。外れ値の表示は箱ひげ図の描画上の処理であり、データそのものを修正するわけではありません。最大値・最小値も、元のデータから判断します。

パーセンタイル ─ 四分位数の一般化

四分位数はデータを4等分する値でしたが、この考えを一般化して100等分する値を考えたのがパーセンタイル（百分位数）です。

第 $p$ パーセンタイルとは、データを小さい順に並べたとき、小さい方から $p\%$ の位置にある値です。四分位数との関係は明快です。

$Q_1$ = 第25パーセンタイル
$Q_2$ = 第50パーセンタイル = 中央値
$Q_3$ = 第75パーセンタイル

つまり、四分位数はパーセンタイルの特殊なケースです。パーセンタイルを使えば、「上位何%に入るか」をより細かく表現できます。

深掘り：パーセンタイルの実社会での活用

パーセンタイルは高校では発展的な内容ですが、実社会では非常に広く使われています。

偏差値：受験でおなじみの偏差値は、パーセンタイルと深い関係があります。正規分布を仮定すると、偏差値50は第50パーセンタイル（中央値）、偏差値60は約第84パーセンタイルに対応します。

Webサービスの応答時間：IT業界では「第99パーセンタイルの応答時間」（p99）が重要視されます。「99%のリクエストはこの時間以内に処理される」という品質指標です。

乳幼児の発育曲線：小児科では、身長や体重の「パーセンタイル曲線」で子どもの発育を評価します。

つながりマップ

← 5-1 データの整理と分析：平均値・中央値・最頻値の基本知識が前提。四分位数は中央値の考え方を拡張したもの。
← 5-2 データの相関：散布図で外れ値を識別する際に、四分位範囲を使った基準が活用される。外れ値は相関係数にも大きな影響を与える。
→ 数学B 統計的な推測：四分位数と箱ひげ図で身につけた「分布を把握する力」が、正規分布や推定・検定の学習で活きる。
→ 大学記述統計・探索的データ分析：箱ひげ図は探索的データ分析（EDA）の基本ツール。大学の統計学でも最初に学ぶ可視化手法の1つ。

📋まとめ

四分位数はデータを4等分する3つの値（$Q_1$, $Q_2$, $Q_3$）。$Q_2$ は中央値と同じ
四分位数の求め方は「中央値を3回求める」こと。偶数個と奇数個で手順が異なるが原理は同じ
5数要約（最小値, $Q_1$, $Q_2$, $Q_3$, 最大値）がデータの「骨格」。箱ひげ図はこの5数を視覚化した図
四分位範囲 $= Q_3 - Q_1$ はデータの中央50%の散らばりを表す。外れ値の影響を受けにくい
箱ひげ図から読み取れるのは5数要約に基づく情報のみ。データの個数や平均値は読み取れない
外れ値の判定：$Q_1 - 1.5 \times \text{IQR}$ 以下、または $Q_3 + 1.5 \times \text{IQR}$ 以上のデータ
パーセンタイルは四分位数の一般化。$Q_1 = $ 第25, $Q_2 = $ 第50, $Q_3 = $ 第75パーセンタイル

確認テスト

Q1. データ $4, \, 6, \, 7, \, 8, \, 10, \, 12, \, 15$ の $Q_1$, $Q_2$, $Q_3$ をそれぞれ求めてください。

▶ クリックして解答を表示7個（奇数）なので $Q_2 = 8$（4番目）。中央値を除外して下位3個 $\{4, 6, 7\}$ → $Q_1 = 6$。上位3個 $\{10, 12, 15\}$ → $Q_3 = 12$。

Q2. 四分位範囲と範囲（レンジ）の違いを説明してください。

▶ クリックして解答を表示範囲 $=$ 最大値 $-$ 最小値で、データ全体の幅を表す。四分位範囲 $= Q_3 - Q_1$ で、中央50%のデータの散らばりを表す。四分位範囲は外れ値の影響を受けにくいという利点がある。

Q3. 箱ひげ図の「箱」の部分には、全データのおよそ何%が含まれていますか？

▶ クリックして解答を表示約50%。箱は $Q_1$ から $Q_3$ の範囲を表し、データの25%目から75%目がこの中に含まれる。

Q4. 箱ひげ図から読み取れないものを2つ挙げてください。

▶ クリックして解答を表示(1) データの個数（何人分のデータか）。(2) 平均値（$+$ マークがない場合）。他にも、個々のデータの値や正確な度数分布は読み取れない。

Q5. $Q_1 = 20$, $Q_3 = 40$ のとき、外れ値と判定される値の範囲を求めてください。

▶ クリックして解答を表示$\text{IQR} = 40 - 20 = 20$。$Q_1 - 1.5 \times 20 = 20 - 30 = -10$、$Q_3 + 1.5 \times 20 = 40 + 30 = 70$。よって $-10$ 以下または $70$ 以上の値が外れ値。

8入試問題演習

この記事で学んだ内容を、入試形式の問題で確認しましょう。

A 基礎レベル

5-3-1 A 基礎四分位数箱ひげ図

次のデータは、ある10人の生徒の数学のテストの得点（点）である。

$35, \, 42, \, 48, \, 55, \, 58, \, 62, \, 70, \, 75, \, 82, \, 90$

(1)　第1四分位数 $Q_1$、第2四分位数 $Q_2$、第3四分位数 $Q_3$ を求めよ。

(2)　四分位範囲を求めよ。

(3)　このデータの箱ひげ図をかけ。

▶ クリックして解答・解説を表示

解答

(1) $Q_1 = 48$, $Q_2 = 60$, $Q_3 = 75$

(2) 四分位範囲 $= 75 - 48 = 27$（点）

(3) 数直線上に、最小値 $35$、$Q_1 = 48$、$Q_2 = 60$、$Q_3 = 75$、最大値 $90$ を用いて箱ひげ図を描く。

解説

方針：データは10個（偶数）。まず中央値を求め、下位5個と上位5個の中央値をそれぞれ求める。

データは既に昇順に並んでいる。

(1) $Q_2$：5番目と6番目の平均 $= \dfrac{58 + 62}{2} = 60$

下位5個 $\{35, 42, 48, 55, 58\}$ → $Q_1 = 48$（3番目の値）

上位5個 $\{62, 70, 75, 82, 90\}$ → $Q_3 = 75$（3番目の値）

(2) $Q_3 - Q_1 = 75 - 48 = 27$

(3) 5数要約は $35, 48, 60, 75, 90$。ひげは $35$ から $48$ と $75$ から $90$、箱は $48$ から $75$、中に $60$ の線。

5-3-2 A 基礎箱ひげ図の読み取り

右の箱ひげ図は、ある学校の1年生200人の身長のデータを表したものである（箱ひげ図は省略。最小値 $150$、$Q_1 = 158$、$Q_2 = 165$、$Q_3 = 170$、最大値 $185$ とする）。

次の記述のうち、この箱ひげ図から読み取れることとして正しいものをすべて選べ。

(a) 身長が $165$ cm 以上の生徒は100人以上いる。
(b) 身長が $170$ cm 以上の生徒は50人以下である。
(c) 身長の範囲は $35$ cm である。
(d) 平均身長は $165$ cm である。

▶ クリックして解答・解説を表示

解答

正しいのは (b), (c)

解説

(a) $Q_2 = 165$ なので、$165$ cm 以上の生徒は約50%（約100人）いる。ただし、中央値と同じ値のデータが複数ある可能性があり、「100人以上」と断言するのは不正確。必ずしも正しいとは言えない。

(b) $Q_3 = 170$ なので、$170$ cm 以上のデータは上位約25%（約50人）以下。正しい。

(c) 範囲 $= 185 - 150 = 35$ cm。正しい。

(d) 箱ひげ図の中央値は $165$ cm だが、中央値と平均値は一般に異なる。箱ひげ図から平均値は読み取れない。正しくない。

B 発展レベル

5-3-3 B 発展外れ値箱ひげ図

次のデータは、16日間毎日測定した血圧の値（mmHg）である。

$50, \, 55, \, 58, \, 64, \, 65, \, 66, \, 66, \, 67, \, 68, \, 69, \, 70, \, 72, \, 73, \, 78, \, 80, \, 89$

(1)　$Q_1$, $Q_2$, $Q_3$ および四分位範囲を求めよ。

(2)　外れ値があるかどうか調べよ（$Q_1 - 1.5 \times \text{IQR}$ 以下、または $Q_3 + 1.5 \times \text{IQR}$ 以上を外れ値とする）。

(3)　外れ値がある場合は外れ値を示し、箱ひげ図をかけ。

▶ クリックして解答・解説を表示

解答

(1) $Q_1 = 64.5$, $Q_2 = 67.5$, $Q_3 = 72.5$, 四分位範囲 $= 8$

(2) $50$ が外れ値

(3) 箱ひげ図は外れ値 $50$ を $\circ$ で表示し、左のひげは $55$ まで引く。

解説

方針：データ16個（偶数）。5数要約を求め、1.5 IQR ルールで外れ値を判定する。

(1) $Q_2 = \dfrac{67 + 68}{2} = 67.5$

下位8個 $\{50, 55, 58, 64, 65, 66, 66, 67\}$ → $Q_1 = \dfrac{64 + 65}{2} = 64.5$

上位8個 $\{68, 69, 70, 72, 73, 78, 80, 89\}$ → $Q_3 = \dfrac{72 + 73}{2} = 72.5$

$\text{IQR} = 72.5 - 64.5 = 8$

(2) 下側の境界：$64.5 - 1.5 \times 8 = 64.5 - 12 = 52.5$

上側の境界：$72.5 + 1.5 \times 8 = 72.5 + 12 = 84.5$

$52.5$ 以下のデータは $50$。$84.5$ 以上のデータは $89$。よって $50$ と $89$ が外れ値。

(3) 外れ値を除いた最小値は $55$、最大値は $80$。箱は $Q_1 = 64.5$ から $Q_3 = 72.5$、中央値 $67.5$。ひげは $55$ から $64.5$ と $72.5$ から $80$。外れ値 $50$ と $89$ は $\circ$ で表示。

採点ポイント

$Q_1$, $Q_2$, $Q_3$ を正しく求める（3点）
$1.5 \times \text{IQR}$ の計算と外れ値の判定（3点）
外れ値を含む箱ひげ図を正しく描く（4点）

5-3-4 B 発展データの比較論述

A組10人、B組9人に行ったテストの得点（点）が次の通りである。

A組：$25, \, 12, \, 28, \, 17, \, 25, \, 6, \, 9, \, 18, \, 18, \, 28$

B組：$9, \, 14, \, 14, \, 23, \, 6, \, 11, \, 3, \, 20, \, 28$

(1)　A組、B組それぞれの箱ひげ図をかけ。

(2)　A組、B組それぞれの四分位範囲を求めよ。

(3)　四分位範囲をもとに、A組とB組の得点の散らばり具合いを比較せよ。

▶ クリックして解答・解説を表示

解答

(1) 下記参照

(2) A組の四分位範囲：$13$　B組の四分位範囲：$12$

(3) A組の方が四分位範囲が大きいから、A組の方が散らばりの度合いが大きいと考えられる。

解説

方針：データを昇順に並べ、5数要約を求めてから箱ひげ図を描く。

A組（10個）を昇順に：$6, 9, 12, 17, 18, 18, 25, 25, 28, 28$

$Q_2 = \dfrac{18 + 18}{2} = 18$

下位5個 $\{6, 9, 12, 17, 18\}$ → $Q_1 = 12$

上位5個 $\{18, 25, 25, 28, 28\}$ → $Q_3 = 25$

5数要約：$6, 12, 18, 25, 28$

B組（9個）を昇順に：$3, 6, 9, 11, 14, 14, 20, 23, 28$

$Q_2 = 14$（5番目）

中央値を除外して下位4個 $\{3, 6, 9, 11\}$ → $Q_1 = \dfrac{6 + 9}{2} = 7.5$

上位4個 $\{14, 20, 23, 28\}$ → $Q_3 = \dfrac{20 + 23}{2} = 21.5$

5数要約：$3, 7.5, 14, 21.5, 28$

(2) A組：$25 - 12 = 13$　B組：$21.5 - 7.5 = 14$

※ 訂正：B組の四分位範囲は $14$ であり、B組の方がわずかに大きい。

(3) B組の方が四分位範囲がわずかに大きいため、B組の方が中央50%のデータの散らばりがやや大きいと考えられる。

採点ポイント

データを昇順に並べる（2点）
A組・B組の5数要約を正しく求める（4点）
箱ひげ図を正しく描く（2点）
四分位範囲の比較と考察（2点）