データの特徴を1つの数値で表す「代表値」。
平均値・中央値・最頻値の3つは、それぞれ異なる「顔」でデータを要約します。
どの場面でどの代表値を使うべきか、原理から理解しましょう。
10人のテストの点数、100日分の気温、1000世帯の年収 ── データはそのままでは情報量が多すぎて、全体像がつかめません。 そこで、データ全体の特徴を適当な1つの数値で表すことを考えます。 この数値のことを代表値といいます。
代表値としてよく使われるのが、平均値、中央値(メジアン)、最頻値(モード)の3つです。 この3つはそれぞれ異なる視点でデータを要約しており、 「どれが正しい」ではなく「どの場面で何が適切か」を判断することが大切です。
データが10個あるとき、その10個の情報を1つの数値に圧縮するのが代表値です。 当然、情報の大部分は失われます。
だからこそ、目的に合った代表値を選ぶことが重要です。 「平均値さえ求めれば十分」という考えは危険で、 データの分布の形によっては、中央値や最頻値のほうがデータの実態を正確に表すことがあります。
代表値の選択は「データの性質への理解」そのものです。
| 代表値 | 定義(直感的な意味) | 英語名 |
|---|---|---|
| 平均値 | 全データの合計を個数で割ったもの(重心) | Mean |
| 中央値 | データを小さい順に並べたとき、真ん中に位置する値 | Median |
| 最頻値 | 最も多く現れる値(度数が最大の値) | Mode |
この3つが同じ値になることもあれば、大きく異なることもあります。 以降のセクションで、それぞれの意味を原理から理解していきましょう。
大学の統計学では、代表値は位置尺度(measure of location / measure of central tendency)と呼ばれます。 データの分布が数直線上の「どのあたり」にあるかを示す尺度、という意味です。
位置尺度に対して、データの「散らばり具合い」を示す散布度(measure of spread)があり、 分散や標準偏差がこれに当たります(5-3で学びます)。 「中心の位置」と「散らばりの大きさ」の2つを組み合わせて、 初めてデータの全体像が見えてくるのです。
最もよく使われる代表値が平均値です。 大きさ $n$ のデータの値を $x_1, x_2, \ldots, x_n$ とするとき、平均値 $\bar{x}$ は次の式で定義されます。
$$\bar{x} = \frac{1}{n}(x_1 + x_2 + \cdots + x_n) = \frac{1}{n}\sum_{i=1}^{n} x_i$$
計算自体は単純ですが、平均値の意味を正しく理解しておくことが重要です。
数直線上に各データの値の位置におもりを置いたとき、 ちょうどバランスがとれる点が平均値です。 物理でいう「重心」に当たります。
たとえば、データ $\{2, 4, 6\}$ の平均値は $4$ です。 $2$ は平均から $-2$ だけ離れ、$6$ は平均から $+2$ だけ離れ、$4$ はちょうど平均上にあります。 偏差(各値と平均の差)の合計は $(2-4)+(4-4)+(6-4) = -2+0+2 = 0$ となります。
この「偏差の合計が常に0になる」という性質こそ、 平均値が「重心」である数学的な根拠です。
各データの偏差(データの値と平均値の差)の合計を計算します。
$$\sum_{i=1}^{n}(x_i - \bar{x}) = \sum_{i=1}^{n} x_i - \sum_{i=1}^{n} \bar{x}$$
$\bar{x}$ は定数なので $\sum_{i=1}^{n} \bar{x} = n\bar{x}$ です。 また、平均値の定義から $\sum_{i=1}^{n} x_i = n\bar{x}$ です。したがって、
$$\sum_{i=1}^{n}(x_i - \bar{x}) = n\bar{x} - n\bar{x} = 0$$
偏差の合計は必ず0になります。 これは平均値の定義から自動的に導かれる性質であり、 $n$ やデータの値に関係なく常に成り立ちます。
データの値がすべて大きい場合、計算を楽にするテクニックがあります。 仮に基準値 $a$ を設定し、各データから $a$ を引いた値 $d_i = x_i - a$ の平均 $\bar{d}$ を求めると、
$$\bar{x} = a + \bar{d}$$
たとえば、データ $\{97, 102, 98, 103, 100\}$ の平均を求めるとき、$a = 100$ とおけば 偏差は $\{-3, 2, -2, 3, 0\}$。偏差の平均は $\bar{d} = 0$。 よって $\bar{x} = 100 + 0 = 100$。暗算でもできるほど簡単になります。
次の2つのデータを比べてみましょう。
データA:$\{3, 4, 5, 5, 6, 7\}$ → 平均値 $= 5$
データB:$\{3, 4, 5, 5, 6, 47\}$ → 平均値 $\approx 11.7$
データBでは最後の値が $47$ に変わっただけで、平均値が $5$ から $11.7$ に跳ね上がりました。 しかし、6個中5個は $3$ から $6$ の範囲にあります。 $11.7$ という平均値は、データの「典型的な値」とは言えません。
✕ 誤:「平均値を見れば、データの中心がわかる」と無条件に信じる
○ 正:外れ値(他から極端にかけ離れた値)がある場合、平均値はデータの実態からかけ離れる。 このとき中央値のほうが「典型的な値」を正しく表す
A班(5人)の平均が60点、B班(10人)の平均が75点のとき、全体の平均は何点でしょうか。
✕ 誤:$\dfrac{60 + 75}{2} = 67.5$ 点(2つの平均の「平均」をとる)
○ 正:$\dfrac{60 \times 5 + 75 \times 10}{5 + 10} = \dfrac{300 + 750}{15} = 70$ 点
グループごとの平均を単純に足して割るのは間違いです。 各グループの合計(=平均 $\times$ 人数)を足してから、全体の人数で割る必要があります。 人数が異なるグループの平均を合成するときは、必ず重み付き平均を使ってください。
実は平均値には、もう1つ深い数学的な意味があります。 $c$ を任意の定数として、各データと $c$ のずれの2乗の合計 $S(c) = \sum_{i=1}^{n}(x_i - c)^2$ を最小にする $c$ は何でしょうか。
$S(c)$ を $c$ について展開して微分すると、$S'(c) = -2\sum(x_i - c) = 0$ から $c = \bar{x}$。 つまり、「各データとの2乗距離の合計を最小にする点」が平均値です。
この性質は大学の統計学で最小二乗法の基礎になります。 回帰分析や機械学習の根幹にある考え方が、実は平均値の定義に既に含まれているのです。
データを値の大きさの順に並べたとき、中央の位置にくる値を中央値(メジアン)といいます。 平均値と異なり、中央値は極端な値の影響を受けにくいという大きな特徴があります。
中央値の求め方は、データの個数 $n$ が奇数か偶数かで場合分けが必要です。
データを小さい順に並べたとき:
$n$ が奇数($n = 2k+1$)のとき:$\dfrac{n+1}{2}$ 番目、つまり $(k+1)$ 番目の値が中央値
$n$ が偶数($n = 2k$)のとき:$\dfrac{n}{2}$ 番目と $\dfrac{n}{2}+1$ 番目、つまり $k$ 番目と $(k+1)$ 番目の値の平均が中央値
具体例で確認しましょう。
奇数個の場合:データ $\{1, 3, 6, 7, 8\}$($n = 5$)
$\dfrac{5+1}{2} = 3$ 番目の値、つまり $6$ が中央値。
偶数個の場合:データ $\{1, 2, 3, 6, 7, 8\}$($n = 6$)
$3$ 番目の値は $3$、$4$ 番目の値は $6$。中央値 $= \dfrac{3 + 6}{2} = 4.5$
平均値が「値の大きさ」を使って中心を決めるのに対し、 中央値は「順位(何番目か)」だけを使って中心を決めます。
データ $\{1, 2, 3, 4, 100\}$ の平均値は $22$ ですが、中央値は $3$ です。 $100$ という値がいくら大きくても、順位としては「5番目」であることは変わりません。 だから中央値は $100$ を $5$ に変えても $1000$ に変えても、$3$ のままです。
この性質が「中央値は外れ値に頑健(ロバスト)である」と言われる理由です。
データ $\{8, 3, 1, 6, 2, 7\}$ の中央値を求めるとき:
✕ 誤:3番目と4番目を見て $\dfrac{1+6}{2} = 3.5$(並べ替えていない!)
○ 正:まず小さい順に並べる → $\{1, 2, 3, 6, 7, 8\}$。 $3$ 番目 $= 3$、$4$ 番目 $= 6$。中央値 $= \dfrac{3+6}{2} = 4.5$
中央値を求めるときは、必ず「小さい順に並べる」ことが第一歩です。 並べ替えを忘れると、全く違う値になります。
データ $\{2, 5, 7, 9\}$($n = 4$)の中央値を求めるとき:
✕ 誤:「2番目の $5$ が中央値」(1つだけ選んでしまう)
○ 正:$2$ 番目 $= 5$ と $3$ 番目 $= 7$ の平均 $= \dfrac{5+7}{2} = 6$ が中央値
偶数個のときは「真ん中の1つ」は存在しません。 必ず中央の2つの値を取り出して平均してください。 結果として、中央値がデータに含まれない値になることもあります(上の例では $6$)。
平均値が「2乗距離の合計」を最小にする値であったように、 中央値にも最小化の性質があります。
$c$ を任意の定数として、各データとの絶対値の距離の合計 $T(c) = \sum_{i=1}^{n}|x_i - c|$ を最小にする $c$ が中央値です。
2乗ではなく絶対値なので、大きな偏差のペナルティが平均値の場合ほど大きくならず、 結果として外れ値に引っ張られにくくなります。 この性質は、大学の統計学でロバスト統計の出発点になります。
データの中で最も多く現れる値(最も度数が大きい値)を最頻値(モード)といいます。 度数分布表に整理されている場合は、度数が最も大きい階級の階級値を最頻値とします。
たとえば、データ $\{1, 2, 3, 3, 3, 4, 4\}$ の最頻値は $3$ です(3回出現で最多)。
データが度数分布表に整理されている場合、個々の値はわからないため、 度数が最も大きい階級の階級値(階級の両端の平均値)を最頻値とします。
たとえば、ある果物の重さの度数分布表で「55g 以上 60g 未満」の度数が最大なら、 最頻値 $= \dfrac{55 + 60}{2} = 57.5$ (g) となります。
平均値が「重心」、中央値が「順位の真ん中」を表すのに対し、 最頻値は「最も多く出現する典型的な値」を表します。
靴のサイズ、服のサイズ、商品の売れ筋 ── 「一番多い」ということは、それが「最も普通」だということです。 平均値や中央値と違い、最頻値は必ずデータ中に実際に存在する値です (度数分布表の場合を除く)。
最頻値は計算が不要で直感的にわかる反面、 データの散らばりや他の値の情報は全く反映しません。
データ $\{1, 2, 3, 4, 5\}$ のように、すべての値が1回ずつしか現れない場合、 最頻値は存在しない(または「すべてが最頻値」とする考え方もあります)。
また、データ $\{1, 1, 2, 3, 3\}$ のように最多の度数が複数の値で同じなら、 最頻値は$1$ と $3$ の2つになります。
✕ 誤:「最頻値は必ず1つだけ存在する」と決めつける
○ 正:最頻値は0個・1個・複数個のいずれもありえます。 平均値や中央値が必ず1つに定まるのとは対照的です。
ヒストグラムの山が2つある分布を双峰性(bimodal)分布といいます。 たとえば、男女混合の身長データは、男性の山と女性の山で2つのピークを持つことがあります。 この場合、最頻値が2つ存在し、平均値はその中間付近の「谷」に位置してしまいます。
大学の統計学で学ぶ正規分布(ガウス分布)は、 左右対称で山が1つの分布です。正規分布では平均値・中央値・最頻値がすべて一致します。 逆に言えば、この3つが大きくずれているデータは正規分布から離れている、という判断材料になります。
3つの代表値を学んだところで、最も重要な問いに答えましょう。 「いつ、どの代表値を使えばよいのか?」
| 代表値 | 適する場面 | 注意点 |
|---|---|---|
| 平均値 | 外れ値がなく、分布が左右対称に近い場合 | 外れ値に弱い。合計を復元できる(平均 $\times$ 個数 $=$ 合計) |
| 中央値 | 外れ値がある場合。年収など偏りのある分布 | 外れ値に強い。ただし合計の情報は失われる |
| 最頻値 | カテゴリデータ(服のサイズ、血液型など) | 連続データでは使いにくい。値が定まらないことがある |
例1:テストの点数
クラス全員の得点がだいたい均等に散らばっているなら、平均値がデータをよく表します。
ただし、0点が数人いるなど極端な値がある場合は、中央値のほうが「クラスの実力の中心」を表すことがあります。
例2:世帯年収
年収の分布は一般に右に裾が長い(一部の高年収者がいる)形をしています。
このような分布では、平均年収は一部の高所得者に引っ張られて高くなりがちです。
「国民の標準的な年収はいくらか」を知りたいなら、中央値が適切です。
例3:靴のサイズの仕入れ
靴屋が仕入れるサイズを決めるとき、平均サイズ 25.3cm は意味がありません。
最頻値(最も売れるサイズ)を多く仕入れるのが合理的です。
代表値の使い分けは、単なるテクニックではなく、 「このデータで何を知りたいのか」という問いへの答えです。
合計を推定したい → 平均値(平均 $\times$ 人数 $=$ 合計だから)
典型的な1人を知りたい → 中央値(半分がこれより上、半分がこれより下)
最も多い層を知りたい → 最頻値(商品企画、マーケティングで重要)
目的が違えば、正しい代表値も変わります。
分布の形によって、3つの代表値の大小関係には典型的なパターンがあります。
裾が長い方向に平均値が引っ張られるイメージです。 中央値は順位だけで決まるので、平均値ほどは引っ張られません。
日常生活で「平均」は最もよく使われる言葉ですが、 統計的に見れば平均値が最適でない場面は多くあります。
✕ 誤:「代表値を求めよ」と言われたら、とりあえず平均値を計算する
○ 正:まずデータの分布を確認する。 外れ値がないか、分布は左右対称か、何を知りたいのかを考えてから代表値を選ぶ
入試でも「平均値と中央値のどちらが適切か、理由とともに答えよ」 といった問題が出題されることがあります。
Q1. データ $\{4, 7, 2, 9, 3\}$ の平均値と中央値をそれぞれ求めてください。
Q2. データ $\{3, 5, 8, 10\}$ の中央値を求めてください。
Q3. データ $\{2, 3, 3, 5, 5, 5, 7, 8\}$ の最頻値を求めてください。
Q4. 5人のテストの平均点が72点でした。5人の合計点は何点ですか?
Q5. 年収データのように右に裾が長い分布では、平均値と中央値のどちらが大きくなりますか? その理由も答えてください。
この記事で学んだ内容を、入試形式の問題で確認しましょう。
次のデータは、10人の生徒の数学のテストの得点(100点満点)である。
$55,\ 62,\ 70,\ 73,\ 75,\ 78,\ 80,\ 85,\ 88,\ 94$
(1) このデータの平均値を求めよ。
(2) このデータの中央値を求めよ。
(3) このデータの最頻値について説明せよ。
(1) 平均値 $= 76$(点)
(2) 中央値 $= 76.5$(点)
(3) すべての値が1回ずつしか出現していないので、最頻値は存在しない。
方針:定義に従って計算する。中央値は $n$ が偶数であることに注意。
(1) $\bar{x} = \dfrac{55+62+70+73+75+78+80+85+88+94}{10} = \dfrac{760}{10} = 76$
(2) $n = 10$(偶数)なので、5番目の値 $75$ と6番目の値 $78$ の平均。 中央値 $= \dfrac{75+78}{2} = 76.5$
(3) 各値が1回ずつしか出現していない(度数はすべて1)ので、最多の度数をもつ値が存在しない。
8人の生徒の100m走の記録の平均値は13.8秒であった。 8人のうち7人の記録は次の通りである。
$13.2,\ 14.5,\ 12.8,\ 14.1,\ 13.6,\ 15.0,\ 12.3$
(1) 残り1人の記録を求めよ。
(2) 8人のデータの中央値を求めよ。
(1) $14.9$(秒)
(2) $13.85$(秒)
方針:(1) 平均値 $\times$ 人数 $=$ 合計 を利用して未知の値を求める。
(1) 8人の合計 $= 13.8 \times 8 = 110.4$(秒)
7人の合計 $= 13.2 + 14.5 + 12.8 + 14.1 + 13.6 + 15.0 + 12.3 = 95.5$(秒)
残り1人の記録 $= 110.4 - 95.5 = 14.9$(秒)
(2) 8人の記録を小さい順に並べると:
$12.3,\ 12.8,\ 13.2,\ 13.6,\ 14.1,\ 14.5,\ 14.9,\ 15.0$
$n = 8$(偶数)なので、4番目 $= 13.6$ と5番目 $= 14.1$ の平均。
中央値 $= \dfrac{13.6 + 14.1}{2} = 13.85$(秒)
ある会社の社員10名の月給(万円)が次のデータで与えられている。
$22,\ 24,\ 25,\ 25,\ 26,\ 27,\ 28,\ 30,\ 32,\ 150$
(1) このデータの平均値、中央値、最頻値をそれぞれ求めよ。
(2) このデータの「典型的な社員の月給」を表す代表値として、平均値と中央値のどちらが適切か。理由とともに答えよ。
(1) 平均値 $= 38.9$(万円)、中央値 $= 26.5$(万円)、最頻値 $= 25$(万円)
(2) 中央値が適切である。(理由は解説参照)
方針:(1) は定義に従い計算。(2) は外れ値の影響を考える。
(1) 平均値 $= \dfrac{22+24+25+25+26+27+28+30+32+150}{10} = \dfrac{389}{10} = 38.9$
$n = 10$(偶数)。5番目 $= 26$、6番目 $= 27$。中央値 $= \dfrac{26+27}{2} = 26.5$
$25$ が2回出現で最多。最頻値 $= 25$。
(2) 中央値 $26.5$ 万円が適切である。150万円は他の値から極端にかけ離れた外れ値であり、 平均値 $38.9$ 万円はこの外れ値に引っ張られている。 10名中9名が22万〜32万円の範囲にいるのに対し、$38.9$ 万円はその範囲を超えており、 「典型的な社員の月給」を表しているとはいえない。 一方、中央値 $26.5$ 万円は外れ値の影響を受けず、多くの社員の実態に近い。
5つの自然数 $a, b, c, d, e$(ただし $a \leq b \leq c \leq d \leq e$)について、 次の条件が成り立つとき、$c$ の値を求めよ。
$c = 5$
方針:各条件を数式に翻訳し、$c$ の値を絞り込む。
$n = 5$(奇数)なので、中央値は3番目の値 $c$。 中央値 $= 5$ より $c = 5$。
検算:平均値 $= 6$ より $a + b + c + d + e = 30$。$c = 5$, $e = 12$ を代入して $a + b + d = 13$。最頻値が $5$ で2回だけ出現するので、$b$ と $c$ のうち一方が $5$ ($c = 5$ は確定なので、$b = 5$ または $d = 5$)。 ただし $5$ は2回だけなので、$b$ と $d$ の一方だけが $5$。
$b = 5$ の場合:$a + d = 8$、$a \leq 5 \leq d \leq 12$。$d \geq 6$($d = 5$ なら3回出現になる)より、 例えば $a = 2, d = 6$ などが条件を満たす。
$d = 5$ の場合:$a + b = 8$、$a \leq b \leq 5$。$b \leq 5$ かつ $b \neq 5$(2回ちょうどの条件)なので $b \leq 4$。 すると $a \geq 4$、$a \leq b \leq 4$ より $a = 4, b = 4$。これは最頻値が $4$(2回)と $5$(2回)で競合し、最頻値が $5$ のみにならない場合がある。
いずれの場合でも、$c = 5$ は確定。