平均値だけではデータの全体像は見えません。
四分位数と箱ひげ図は、データの散らばりと偏りを「5つの数」で可視化する強力な道具です。
5-1で学んだ中央値は、データを「大きい方と小さい方の2つに分ける値」でした。 この考えをもう一歩進めて、データを4等分する位置にある3つの値を考えるのが四分位数です。
データを小さい順に並べたとき、全体をおよそ4等分する3つの値を四分位数と呼びます。 小さい方から順に、第1四分位数 $Q_1$、第2四分位数 $Q_2$、第3四分位数 $Q_3$ です。
なぜ「4等分」なのでしょうか。中央値だけでは「真ん中より上か下か」しかわかりません。 しかし4等分すれば、データの下位25%、中央、上位25%の位置がわかり、 「データがどのあたりに集中しているか」「どのくらい散らばっているか」がより正確に捉えられるのです。
四分位数は、データの分布を把握するための「骨格」です。人体の骨格が体の形を決めるように、$Q_1$, $Q_2$, $Q_3$ の3つの値がデータの「形」を決めます。
$Q_1$:データの下位約25%の位置。「小さい方から4分の1」の目安。
$Q_2$:データの中央値そのもの。ちょうど真ん中の位置。
$Q_3$:データの上位約25%の位置。「大きい方から4分の1」の目安。
この3つに最小値と最大値を加えた5つの数を5数要約と呼びます。5数要約はデータの「骨格」そのものです。
データの散らばりを数値で表す方法には、範囲(レンジ)と四分位範囲があります。
範囲(レンジ)
$$\text{範囲} = \text{最大値} - \text{最小値}$$
四分位範囲(IQR: Interquartile Range)
$$\text{四分位範囲} = Q_3 - Q_1$$
範囲はデータ全体の「幅」を表しますが、たった1つの極端な値(外れ値)に大きく左右されます。 一方、四分位範囲は「中央の50%のデータが占める幅」なので、極端な値の影響を受けにくいのが利点です。
よくある混乱:「四分位数」と「中央値」を別々の概念として覚えようとする。
正しい理解:$Q_2$ はまさに中央値そのものです。四分位数は「中央値の考え方を拡張したもの」と捉えれば、3つの値の関係が自然に理解できます。
中央値でデータを2分割 → さらにそれぞれを2分割 → 合計4分割 → 3つの境界が四分位数。
四分位数(quartile)という概念は、19世紀の統計学者フランシス・ゴルトンが体系化しました。 彼は人間の身長や知能のデータを分析する中で、「平均値だけではデータの特徴を十分に表現できない」と気づき、 データを等分割して分布の形を把握する方法を提唱しました。
現代の統計学でも、四分位数は記述統計の基本ツールとして広く使われています。 医学統計、品質管理、経済データの分析など、あらゆる分野で「まず四分位数と箱ひげ図を見る」のが定石です。
四分位数を求める手順は、データの個数が偶数か奇数かで少し異なります。 しかし、根底にある原理は同じです。「まず中央値を求め、次に下位グループと上位グループそれぞれの中央値を求める」── これだけです。
四分位数を求める手順は、突き詰めれば「中央値を繰り返し求める」作業です。
Step 1:データ全体の中央値を求める → これが $Q_2$
Step 2:$Q_2$ より小さい側(下位のデータ)の中央値を求める → これが $Q_1$
Step 3:$Q_2$ より大きい側(上位のデータ)の中央値を求める → これが $Q_3$
「中央値の求め方」さえわかっていれば、四分位数は自動的に求められます。
データが $2n$ 個あるとき、データを小さい順に並べると、ちょうど前半 $n$ 個と後半 $n$ 個に分けられます。
データ:$3, \, 5, \, 6, \, 8, \, 8, \, 9, \, 10, \, 12, \, 15, \, 18$(10個)
Step 1:$Q_2$(中央値)を求める。10個なので5番目と6番目の平均。
$$Q_2 = \frac{8 + 9}{2} = 8.5$$
Step 2:下位5個 $\{3, 5, 6, 8, 8\}$ の中央値 → $Q_1 = 6$
Step 3:上位5個 $\{9, 10, 12, 15, 18\}$ の中央値 → $Q_3 = 12$
結果:$Q_1 = 6$, $Q_2 = 8.5$, $Q_3 = 12$
四分位範囲 $= Q_3 - Q_1 = 12 - 6 = 6$
データが $2n + 1$ 個あるとき、中央値はちょうど真ん中の1つの値です。 ここで問題になるのが、中央値を下位グループと上位グループのどちらに含めるかです。
高校数学では、中央値そのものを除外して、下位グループと上位グループに分けます。 つまり、中央値を取り除いた残りの $2n$ 個を前半 $n$ 個と後半 $n$ 個に分け、それぞれの中央値を $Q_1$, $Q_3$ とします。
データ:$2, \, 4, \, 5, \, 7, \, 8, \, 9, \, 10, \, 12, \, 14, \, 16, \, 20$(11個)
Step 1:$Q_2$(中央値)は6番目の値 → $Q_2 = 9$
Step 2:中央値 $9$ を除外。下位5個 $\{2, 4, 5, 7, 8\}$ の中央値 → $Q_1 = 5$
Step 3:上位5個 $\{10, 12, 14, 16, 20\}$ の中央値 → $Q_3 = 14$
結果:$Q_1 = 5$, $Q_2 = 9$, $Q_3 = 14$
四分位範囲 $= Q_3 - Q_1 = 14 - 5 = 9$
よくある間違い:データが奇数個のとき、中央値を下位グループにも上位グループにも含めて計算してしまう。
正しい手順:高校数学では、中央値を除外して残りを2等分します。 上の例では、$9$ を取り除き、$\{2, 4, 5, 7, 8\}$ と $\{10, 12, 14, 16, 20\}$ の2グループに分けます。
注意:四分位数の定め方には複数の流儀がありますが、共通テストや高校数学では「中央値を除外する方法」が標準です。
データの個数によって $Q_1$, $Q_3$ が「ぴったり1つの値」になるか「2つの値の平均」になるかが変わります。
8個のデータの場合:下位4個、上位4個。$Q_1$ は下位4個の中央値(2番目と3番目の平均)、$Q_3$ は上位4個の中央値(2番目と3番目の平均)。
9個のデータの場合:中央値を除外して下位4個、上位4個。$Q_1$, $Q_3$ はそれぞれ2番目と3番目の平均。
10個のデータの場合:下位5個、上位5個。$Q_1$ は下位5個の3番目の値、$Q_3$ は上位5個の3番目の値。
11個のデータの場合:中央値を除外して下位5個、上位5個。$Q_1$, $Q_3$ はそれぞれ3番目の値。
いずれの場合も「下位グループの中央値」「上位グループの中央値」を求めるという原理は同じです。データの個数に応じて、中央値を求める操作を正確に行いましょう。
| データ数 | $Q_2$(中央値) | $Q_1$ の求め方 | $Q_3$ の求め方 |
|---|---|---|---|
| 偶数 $2n$ 個 | $n$ 番目と $(n+1)$ 番目の平均 | 前半 $n$ 個の中央値 | 後半 $n$ 個の中央値 |
| 奇数 $2n+1$ 個 | $(n+1)$ 番目の値 | $Q_2$ を除外した前半 $n$ 個の中央値 | $Q_2$ を除外した後半 $n$ 個の中央値 |
実は、四分位数の計算方法には複数の定義が存在します。 代表的なものだけでも、統計ソフトによって9種類もの方法が使い分けられています。
高校で学ぶ「中央値を除外して下位・上位に分ける方法」は最もシンプルな定義の1つです。 Python の NumPy や Excel では、データを連続的に補間する方法がデフォルトで使われており、 高校で手計算した値と微妙に異なることがあります。
重要なのは「どの定義を使うか」ではなく、「四分位数がデータの25%, 50%, 75%付近の位置を示す値である」という本質を理解することです。
四分位数を含む5つの数(最小値, $Q_1$, $Q_2$, $Q_3$, 最大値)を視覚的に表現する方法が箱ひげ図(box-and-whisker plot)です。 データの分布の概形を、たった1本の図で瞬時に把握できます。
箱ひげ図は次の5つの要素から構成されます。
左のひげ:最小値から $Q_1$ まで。データの下位約25%が存在する範囲。
箱の左端:$Q_1$(第1四分位数)。
箱の中の線:$Q_2$(中央値)。
箱の右端:$Q_3$(第3四分位数)。
右のひげ:$Q_3$ から最大値まで。データの上位約25%が存在する範囲。
つまり、箱の中にはデータの中央50%(25%目から75%目)が含まれています。箱の幅が四分位範囲です。
箱ひげ図をかくには、次の手順で進めます。
平均値を表示する場合は、箱ひげ図上に「$+$」の記号で記入することがあります。
データ:$3, \, 5, \, 6, \, 8, \, 8, \, 9, \, 10, \, 12, \, 15, \, 18$(10個)
5数要約:
・最小値 $= 3$
・$Q_1 = 6$
・$Q_2 = 8.5$
・$Q_3 = 12$
・最大値 $= 18$
数直線上に箱ひげ図を描くと:
$3$ ── $|$ $6$ $[$ ─── $8.5$ ─── $]$ $12$ $|$ ── $18$
・左のひげ:$3$ から $6$ ・箱:$6$ から $12$(中に $8.5$ の線) ・右のひげ:$12$ から $18$
四分位範囲 $= 12 - 6 = 6$(箱の幅)
よくある誤解:「箱が大きいところにデータがたくさんある」と思ってしまう。
正しい理解:箱ひげ図では、箱の中にもひげの部分にも、それぞれ約25%ずつのデータが含まれています。 箱が大きい(=四分位範囲が大きい)のは「中央50%のデータが広く散らばっている」ことを意味し、「データが多い」わけではありません。
逆に、ひげが短い部分は「データが狭い範囲に密集している」ことを示します。
箱ひげ図は横向きに描くのが一般的ですが、90度回転して縦向きに描くこともあります。 複数のデータセットを横に並べて比較するときは、縦向きの方が見やすい場合があります。 いずれの場合も、読み取り方は同じです。
箱ひげ図は非常に便利な図ですが、「読み取れること」と「読み取れないこと」を正しく区別することが重要です。 入試でも、この区別を問う問題が頻出します。
読み取れること:
・最小値、$Q_1$、$Q_2$(中央値)、$Q_3$、最大値の5つの値
・範囲(最大値 $-$ 最小値)と四分位範囲($Q_3 - Q_1$)
・データの分布の左右対称性や偏り(箱の中の中央値の位置から判断)
・「上位(下位)約25%のデータが存在する範囲」
読み取れないこと:
・データの個数(箱ひげ図からはわからない)
・平均値(中央値と平均値は一般に異なる。$+$ で記入されている場合を除く)
・個々のデータの値
・正確な度数分布(ヒストグラムの形)
入試では、箱ひげ図を見て正しい記述を選ぶ問題がよく出ます。 典型的な判断パターンを整理しておきましょう。
| 読み取りパターン | 判断方法 | 注意点 |
|---|---|---|
| 「$a$ 以上の人は全体の25%以下」 | $a \geq Q_3$ かどうか確認 | $Q_3$ 以上にはデータの約25%が存在 |
| 「$b$ 以下の人は50人以上いる」 | $b \geq Q_2$ なら、中央値以下に50%以上 | データの総数がわからないと人数は判断不可 |
| 「範囲はいくつか」 | 最大値 $-$ 最小値を読み取る | ひげの両端が最大値・最小値 |
| 「AのほうがBより散らばりが大きい」 | 四分位範囲(箱の幅)を比較 | 範囲で比較する場合もある。どちらかを明記 |
| 「中央値が$c$以上」 | 箱の中の縦線の位置を読む | 中央値 = 箱の中の線(左右の端ではない) |
よくある間違い:「$Q_1$ が60点だから、60点以上の人は75%いる」と断言する。
正しい理解:$Q_1$ は「データの約25%目の位置にある値」ですが、同じ値が複数あるケースや端数の関係で、正確に75%とは限りません。 「$Q_1$ 以上にはデータの少なくとも75%が含まれる」が安全な表現です。
共通テストでは「約25%」「約50%」「約75%」という表現が多く、「ちょうど25%」とは言わないことに注目してください。
ヒストグラム(度数分布を棒で表す図)と箱ひげ図は、同じデータの異なる見方です。 ヒストグラムからは度数分布の詳細な形がわかりますが、箱ひげ図は5つの数に情報を集約して比較しやすくしています。
入試では「ヒストグラムに対応する箱ひげ図を選べ」「箱ひげ図に矛盾するヒストグラムを選べ」という問題が出ます。 対応を判断するポイントは次の通りです。
箱ひげ図の形状から、データの分布の特徴をある程度推測できます。
中央値が箱の真ん中にあり、左右のひげが同じ長さ → 左右対称に近い分布(正規分布など)。
中央値が箱の左寄りで、右のひげが長い → 右に裾が伸びた分布(右に偏った分布)。所得データなどに多い。
中央値が箱の右寄りで、左のひげが長い → 左に裾が伸びた分布。
ただし、箱ひげ図だけでは分布の細かい形(双峰性など)はわかりません。 詳細な分析にはヒストグラムや、大学で学ぶカーネル密度推定が必要です。
最後に、四分位数と深く関連する2つの概念を学びます。 外れ値の判定基準と、四分位数を一般化したパーセンタイルです。
データの中に、他の値から極端にかけ離れた値が含まれることがあります。 このような値を外れ値と呼びます。 外れ値は分析結果に大きな影響を与えるため、識別して適切に扱うことが重要です。
外れ値の判定基準として、四分位範囲を利用した次のルールがよく使われます。
四分位範囲を $\text{IQR} = Q_3 - Q_1$ とするとき、次の範囲の外にあるデータを外れ値とする。
$$Q_1 - 1.5 \times \text{IQR} \leq x \leq Q_3 + 1.5 \times \text{IQR}$$
すなわち、次のいずれかを満たすデータが外れ値:
・$Q_1 - 1.5 \times \text{IQR}$ 以下の値
・$Q_3 + 1.5 \times \text{IQR}$ 以上の値
データ:$12, \, 22, \, 26, \, 27, \, 29, \, 32, \, 32, \, 33, \, 34, \, 36, \, 40, \, 40, \, 42, \, 42, \, 50, \, 55, \, 56, \, 72$(18個)
Step 1:$Q_2 = \dfrac{34 + 36}{2} = 35$
下位9個:$\{12, 22, 26, 27, 29, 32, 32, 33, 34\}$ → $Q_1 = 29$
上位9個:$\{36, 40, 40, 42, 42, 50, 55, 56, 72\}$ → $Q_3 = 42$
Step 2:$\text{IQR} = 42 - 29 = 13$
Step 3:外れ値の境界を計算。
・下側:$Q_1 - 1.5 \times 13 = 29 - 19.5 = 9.5$
・上側:$Q_3 + 1.5 \times 13 = 42 + 19.5 = 61.5$
結論:$9.5$ 以下または $61.5$ 以上のデータが外れ値。$72$ が外れ値。
箱ひげ図では、右のひげは $72$ ではなく $56$(外れ値を除いた最大値)まで引き、$72$ を $\circ$ で表示します。
よくある間違い:外れ値を特定した後、「外れ値を除いたデータ」で四分位数を再計算する。
正しい手順:四分位数はすべてのデータ(外れ値を含む)から計算します。 外れ値の表示は箱ひげ図の描画上の処理であり、データそのものを修正するわけではありません。 最大値・最小値も、元のデータから判断します。
四分位数はデータを4等分する値でしたが、この考えを一般化して100等分する値を考えたのがパーセンタイル(百分位数)です。
第 $p$ パーセンタイルとは、データを小さい順に並べたとき、小さい方から $p\%$ の位置にある値です。 四分位数との関係は明快です。
つまり、四分位数はパーセンタイルの特殊なケースです。 パーセンタイルを使えば、「上位何%に入るか」をより細かく表現できます。
パーセンタイルは高校では発展的な内容ですが、実社会では非常に広く使われています。
偏差値:受験でおなじみの偏差値は、パーセンタイルと深い関係があります。正規分布を仮定すると、偏差値50は第50パーセンタイル(中央値)、偏差値60は約第84パーセンタイルに対応します。
Webサービスの応答時間:IT業界では「第99パーセンタイルの応答時間」(p99)が重要視されます。「99%のリクエストはこの時間以内に処理される」という品質指標です。
乳幼児の発育曲線:小児科では、身長や体重の「パーセンタイル曲線」で子どもの発育を評価します。
Q1. データ $4, \, 6, \, 7, \, 8, \, 10, \, 12, \, 15$ の $Q_1$, $Q_2$, $Q_3$ をそれぞれ求めてください。
Q2. 四分位範囲と範囲(レンジ)の違いを説明してください。
Q3. 箱ひげ図の「箱」の部分には、全データのおよそ何%が含まれていますか?
Q4. 箱ひげ図から読み取れないものを2つ挙げてください。
Q5. $Q_1 = 20$, $Q_3 = 40$ のとき、外れ値と判定される値の範囲を求めてください。
この記事で学んだ内容を、入試形式の問題で確認しましょう。
次のデータは、ある10人の生徒の数学のテストの得点(点)である。
$35, \, 42, \, 48, \, 55, \, 58, \, 62, \, 70, \, 75, \, 82, \, 90$
(1) 第1四分位数 $Q_1$、第2四分位数 $Q_2$、第3四分位数 $Q_3$ を求めよ。
(2) 四分位範囲を求めよ。
(3) このデータの箱ひげ図をかけ。
(1) $Q_1 = 48$, $Q_2 = 60$, $Q_3 = 75$
(2) 四分位範囲 $= 75 - 48 = 27$(点)
(3) 数直線上に、最小値 $35$、$Q_1 = 48$、$Q_2 = 60$、$Q_3 = 75$、最大値 $90$ を用いて箱ひげ図を描く。
方針:データは10個(偶数)。まず中央値を求め、下位5個と上位5個の中央値をそれぞれ求める。
データは既に昇順に並んでいる。
(1) $Q_2$:5番目と6番目の平均 $= \dfrac{58 + 62}{2} = 60$
下位5個 $\{35, 42, 48, 55, 58\}$ → $Q_1 = 48$(3番目の値)
上位5個 $\{62, 70, 75, 82, 90\}$ → $Q_3 = 75$(3番目の値)
(2) $Q_3 - Q_1 = 75 - 48 = 27$
(3) 5数要約は $35, 48, 60, 75, 90$。ひげは $35$ から $48$ と $75$ から $90$、箱は $48$ から $75$、中に $60$ の線。
右の箱ひげ図は、ある学校の1年生200人の身長のデータを表したものである(箱ひげ図は省略。最小値 $150$、$Q_1 = 158$、$Q_2 = 165$、$Q_3 = 170$、最大値 $185$ とする)。
次の記述のうち、この箱ひげ図から読み取れることとして正しいものをすべて選べ。
正しいのは (b), (c)
(a) $Q_2 = 165$ なので、$165$ cm 以上の生徒は約50%(約100人)いる。ただし、中央値と同じ値のデータが複数ある可能性があり、「100人以上」と断言するのは不正確。必ずしも正しいとは言えない。
(b) $Q_3 = 170$ なので、$170$ cm 以上のデータは上位約25%(約50人)以下。正しい。
(c) 範囲 $= 185 - 150 = 35$ cm。正しい。
(d) 箱ひげ図の中央値は $165$ cm だが、中央値と平均値は一般に異なる。箱ひげ図から平均値は読み取れない。正しくない。
次のデータは、16日間毎日測定した血圧の値(mmHg)である。
$50, \, 55, \, 58, \, 64, \, 65, \, 66, \, 66, \, 67, \, 68, \, 69, \, 70, \, 72, \, 73, \, 78, \, 80, \, 89$
(1) $Q_1$, $Q_2$, $Q_3$ および四分位範囲を求めよ。
(2) 外れ値があるかどうか調べよ($Q_1 - 1.5 \times \text{IQR}$ 以下、または $Q_3 + 1.5 \times \text{IQR}$ 以上を外れ値とする)。
(3) 外れ値がある場合は外れ値を示し、箱ひげ図をかけ。
(1) $Q_1 = 64.5$, $Q_2 = 67.5$, $Q_3 = 72.5$, 四分位範囲 $= 8$
(2) $50$ が外れ値
(3) 箱ひげ図は外れ値 $50$ を $\circ$ で表示し、左のひげは $55$ まで引く。
方針:データ16個(偶数)。5数要約を求め、1.5 IQR ルールで外れ値を判定する。
(1) $Q_2 = \dfrac{67 + 68}{2} = 67.5$
下位8個 $\{50, 55, 58, 64, 65, 66, 66, 67\}$ → $Q_1 = \dfrac{64 + 65}{2} = 64.5$
上位8個 $\{68, 69, 70, 72, 73, 78, 80, 89\}$ → $Q_3 = \dfrac{72 + 73}{2} = 72.5$
$\text{IQR} = 72.5 - 64.5 = 8$
(2) 下側の境界:$64.5 - 1.5 \times 8 = 64.5 - 12 = 52.5$
上側の境界:$72.5 + 1.5 \times 8 = 72.5 + 12 = 84.5$
$52.5$ 以下のデータは $50$。$84.5$ 以上のデータは $89$。よって $50$ と $89$ が外れ値。
(3) 外れ値を除いた最小値は $55$、最大値は $80$。箱は $Q_1 = 64.5$ から $Q_3 = 72.5$、中央値 $67.5$。ひげは $55$ から $64.5$ と $72.5$ から $80$。外れ値 $50$ と $89$ は $\circ$ で表示。
A組10人、B組9人に行ったテストの得点(点)が次の通りである。
A組:$25, \, 12, \, 28, \, 17, \, 25, \, 6, \, 9, \, 18, \, 18, \, 28$
B組:$9, \, 14, \, 14, \, 23, \, 6, \, 11, \, 3, \, 20, \, 28$
(1) A組、B組それぞれの箱ひげ図をかけ。
(2) A組、B組それぞれの四分位範囲を求めよ。
(3) 四分位範囲をもとに、A組とB組の得点の散らばり具合いを比較せよ。
(1) 下記参照
(2) A組の四分位範囲:$13$ B組の四分位範囲:$12$
(3) A組の方が四分位範囲が大きいから、A組の方が散らばりの度合いが大きいと考えられる。
方針:データを昇順に並べ、5数要約を求めてから箱ひげ図を描く。
A組(10個)を昇順に:$6, 9, 12, 17, 18, 18, 25, 25, 28, 28$
$Q_2 = \dfrac{18 + 18}{2} = 18$
下位5個 $\{6, 9, 12, 17, 18\}$ → $Q_1 = 12$
上位5個 $\{18, 25, 25, 28, 28\}$ → $Q_3 = 25$
5数要約:$6, 12, 18, 25, 28$
B組(9個)を昇順に:$3, 6, 9, 11, 14, 14, 20, 23, 28$
$Q_2 = 14$(5番目)
中央値を除外して下位4個 $\{3, 6, 9, 11\}$ → $Q_1 = \dfrac{6 + 9}{2} = 7.5$
上位4個 $\{14, 20, 23, 28\}$ → $Q_3 = \dfrac{20 + 23}{2} = 21.5$
5数要約:$3, 7.5, 14, 21.5, 28$
(2) A組:$25 - 12 = 13$ B組:$21.5 - 7.5 = 14$
※ 訂正:B組の四分位範囲は $14$ であり、B組の方がわずかに大きい。
(3) B組の方が四分位範囲がわずかに大きいため、B組の方が中央50%のデータの散らばりがやや大きいと考えられる。