平均値だけではデータの姿は見えません。同じ平均点でも、全員が同じくらいの点数なのか、両極端に分かれているのかは全く違う状況です。
「散らばりの大きさ」を1つの数値で表す方法 ── それが分散と標準偏差です。なぜ偏差の「2乗」を使うのか、その原理から理解しましょう。
データの散らばり具合を数値化するために、まず各データが平均値からどれだけ離れているかを見ます。 データの値 $x_i$ と平均値 $\bar{x}$ の差
$$x_i - \bar{x}$$を、$x_i$ の偏差といいます。 偏差は、平均値より大きいデータでは正、小さいデータでは負になります。
直感的には、偏差の「平均」を求めれば散らばり具合がわかりそうです。 しかし、これには致命的な問題があります。
偏差の合計を計算してみましょう。$n$ 個のデータ $x_1, x_2, \ldots, x_n$ に対して、
$$(x_1 - \bar{x}) + (x_2 - \bar{x}) + \cdots + (x_n - \bar{x}) = (x_1 + x_2 + \cdots + x_n) - n\bar{x}$$ここで $\bar{x} = \dfrac{x_1 + x_2 + \cdots + x_n}{n}$ なので $x_1 + x_2 + \cdots + x_n = n\bar{x}$ です。 よって偏差の合計は $n\bar{x} - n\bar{x} = 0$ となり、偏差の平均も常に $0$ です。
正の偏差と負の偏差が打ち消し合ってしまう。 データがどんなにバラバラでも、偏差の平均は必ず $0$ になるのです。 これでは散らばりの指標として使えません。
偏差の合計が $0$ になるのは、正と負が打ち消し合うからです。この打ち消しを防ぐには、偏差を「常に0以上の値」に変換すればよい。
その方法として最も自然なのが2乗です。$(x_i - \bar{x})^2 \geq 0$ なので、すべてのデータで0以上の値が得られます。
「絶対値 $|x_i - \bar{x}|$ ではダメなのか?」と思うかもしれません。実は絶対値でも散らばりの指標は作れます(平均偏差と呼ばれます)。しかし、2乗には「微分できる」「確率論と相性がよい」という数学的な利点があり、統計学では2乗が標準です。
そこで、偏差の2乗の平均値を考えます。これが分散(variance)です。 $n$ 個のデータ $x_1, x_2, \ldots, x_n$ の平均値を $\bar{x}$ とするとき、分散 $s^2$ は次のように定義されます。
すなわち、分散 = 偏差の2乗の平均値
分散の値が大きいほど、データは平均値の周りに広く散らばっています。 分散が小さいほど、データは平均値の近くに集まっています。
✕ 誤:偏差の合計 $(x_1 - \bar{x}) + (x_2 - \bar{x}) + \cdots = 0$ を使って「散らばりは0」
○ 正:偏差を先に2乗してから合計する。$(x_1 - \bar{x})^2 + (x_2 - \bar{x})^2 + \cdots$ を計算し、$n$ で割る
順序が大事です。「合計してから2乗」ではありません。「2乗してから合計」です。
絶対値を使った指標 $\dfrac{1}{n}\sum|x_i - \bar{x}|$ は平均偏差(mean absolute deviation)と呼ばれ、直感的にはわかりやすい散らばりの尺度です。では、なぜ統計学では2乗が主流なのでしょうか。
理由は大きく2つあります。(1) 絶対値関数 $|x|$ は $x = 0$ で微分できないのに対し、$x^2$ はどこでも微分でき、数学的に扱いやすい。(2) 確率論で重要な正規分布は $e^{-x^2}$ の形をしており、2乗と自然に結びつく。大学の統計学では、分散を中心に理論が組み立てられます。
定義式を使って分散を計算すると、毎回「各データから平均値を引いて2乗する」作業が必要で、計算量が多くなります。 そこで、計算を簡略化する公式があります。
すなわち、分散 =($x^2$ の平均値)−($x$ の平均値)$^2$
定義式を展開します。
$$s^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i^2 - 2x_i\bar{x} + \bar{x}^2)$$
$$= \frac{1}{n}\sum x_i^2 - \frac{2\bar{x}}{n}\sum x_i + \frac{1}{n} \cdot n\bar{x}^2$$
ここで $\dfrac{1}{n}\sum x_i^2 = \overline{x^2}$($x^2$ の平均値)、$\dfrac{1}{n}\sum x_i = \bar{x}$($x$ の平均値)ですから、
$$s^2 = \overline{x^2} - 2\bar{x} \cdot \bar{x} + \bar{x}^2 = \overline{x^2} - \bar{x}^2$$
5つのデータ $3, 5, 7, 4, 6$ の分散を、2通りの方法で求めてみましょう。
まず平均値:$\bar{x} = \dfrac{3 + 5 + 7 + 4 + 6}{5} = \dfrac{25}{5} = 5$
定義式で計算:
$$s^2 = \frac{1}{5}\{(3-5)^2 + (5-5)^2 + (7-5)^2 + (4-5)^2 + (6-5)^2\} = \frac{4 + 0 + 4 + 1 + 1}{5} = \frac{10}{5} = 2$$計算公式で計算:
$$\overline{x^2} = \frac{3^2 + 5^2 + 7^2 + 4^2 + 6^2}{5} = \frac{9 + 25 + 49 + 16 + 36}{5} = \frac{135}{5} = 27$$ $$s^2 = \overline{x^2} - \bar{x}^2 = 27 - 5^2 = 27 - 25 = 2$$どちらの方法でも $s^2 = 2$ と同じ結果が得られます。計算公式のほうが、偏差を1つずつ求める手間が省けます。
$\overline{x^2}$:各データを先に2乗してから平均をとる(2乗の平均)
$\bar{x}^2$:先に平均をとってからその値を2乗する(平均の2乗)
一般に $\overline{x^2} \geq \bar{x}^2$ が成り立ちます(等号はすべてのデータが同じ値のときのみ)。この差が分散です。
✕ 誤:$s^2 = \bar{x}^2 - \overline{x^2}$(引く順番が逆)
○ 正:$s^2 = \overline{x^2} - \bar{x}^2$(「2乗の平均」から「平均の2乗」を引く)
覚え方:分散は $0$ 以上なので、大きい方($\overline{x^2}$)から小さい方($\bar{x}^2$)を引きます。引く順番を間違えると負の値になってしまい、それは必ず計算ミスです。
手書きのとき、$\overline{x^2}$($x^2$ 全体にバーがかかっている)と $\bar{x}^2$($x$ だけにバーがかかっている)を区別できないことがあります。
✕ 誤:バーの範囲を曖昧にして、どちらも同じだと思い込む
○ 正:$\overline{x^2}$ は「$x$ を2乗したもの全体の平均」、$\bar{x}^2$ は「$x$ の平均の2乗」。バーがどこまでかかるかが意味を変えます。手書きではバーを長くして $x^2$ 全体を覆うようにしましょう。
$\overline{x^2} - \bar{x}^2 \geq 0$ という事実(分散が0以上であること)は、実は有名なコーシー・シュワルツの不等式の特殊ケースとして理解できます。
大学の線形代数では、分散を「ベクトルの内積」の言葉で表現します。データの散らばりを「ベクトルの長さ」として捉える視点は、多変量解析(主成分分析など)の基礎になります。
変量 $x$ のデータに対して、定数 $a, b$ を使って $y = ax + b$ で新しい変量 $y$ を作ることを変量の変換といいます。 テストの点数を10倍して100点満点に換算する場合や、気温を摂氏から華氏に変換する場合がこれにあたります。
変換後の平均値・分散・標準偏差がどうなるかを、原理から考えてみましょう。
$y_i = ax_i + b$ なので、$y$ の平均値は
$$\bar{y} = \frac{1}{n}\sum y_i = \frac{1}{n}\sum(ax_i + b) = a \cdot \frac{1}{n}\sum x_i + b = a\bar{x} + b$$つまり、平均値にも同じ変換が適用されるのです。
$y$ の偏差を考えましょう。$y_i - \bar{y} = (ax_i + b) - (a\bar{x} + b) = a(x_i - \bar{x})$
定数 $b$ は偏差の計算で消えます。これは直感的にも正しい:データ全体に同じ値を加えても、散らばり具合は変わらないからです。
$y$ の分散は
$$s_y^2 = \frac{1}{n}\sum(y_i - \bar{y})^2 = \frac{1}{n}\sum\{a(x_i - \bar{x})\}^2 = a^2 \cdot \frac{1}{n}\sum(x_i - \bar{x})^2 = a^2 s_x^2$$$y = ax + b$ のとき($a, b$ は定数)
平均値:$\bar{y} = a\bar{x} + b$
分散:$s_y^2 = a^2 s_x^2$
標準偏差:$s_y = |a| \, s_x$
変換 $y = ax + b$ には2つの効果があります。
$+b$(平行移動):データ全体を $b$ だけずらす。平均値は変わるが、散らばり具合は変わらない。よって分散・標準偏差は不変。
$\times a$(スケール変換):データの散らばりが $a$ 倍に拡大(縮小)される。偏差が $a$ 倍になるので、分散は $a^2$ 倍、標準偏差は $|a|$ 倍になる。
この2つの効果を分けて考えれば、公式を暗記しなくても導けます。
データの値が大きいとき、計算を楽にするテクニックがあります。 適当な値 $c$ を引いて $u_i = x_i - c$ とおくと($a = 1, b = -c$ の変換)、 平均値は $\bar{u} = \bar{x} - c$ となりますが、分散は $s_u^2 = s_x^2$ のまま変わりません。
たとえば $x$ のデータが $101, 103, 105, 98, 103$ のとき、$c = 100$ として $u = x - 100$ とおくと、$u$ のデータは $1, 3, 5, -2, 3$ となり、計算が格段に楽になります。
✕ 誤:$y = 3x + 2$ のとき、$s_y^2 = 3 s_x^2$
○ 正:$s_y^2 = 3^2 \cdot s_x^2 = 9 s_x^2$
分散では偏差を2乗しているので、係数 $a$ も2乗されます。標準偏差のほうは $s_y = |a| \, s_x = 3 s_x$ です。「分散は $a^2$ 倍、標準偏差は $|a|$ 倍」を区別してください。
$z = \dfrac{x - \bar{x}}{s_x}$ という変換を行うと、$z$ の平均値は $0$、標準偏差は $1$ になります。これを標準化(standardization)といいます。
標準化を使えば、異なる科目の点数のように単位やスケールが違うデータを公平に比較できます。模試の偏差値は $T = 10z + 50 = 10 \cdot \dfrac{x - \bar{x}}{s_x} + 50$ と定義されており、標準化の応用です。偏差値50が平均、偏差値60は「平均より標準偏差1個分だけ上」を意味します。
分散 $s^2$ はデータの散らばりを表す優れた指標ですが、1つ困った点があります。 偏差を2乗しているため、単位も2乗されるのです。
たとえば、データの単位が「cm」なら、分散の単位は「cm$^2$」になります。 身長のデータの散らばりを表すのに「cm$^2$」では、直感的にわかりにくい。
そこで、分散の正の平方根をとったものが標準偏差(standard deviation)です。
標準偏差 = 分散の正の平方根
標準偏差 $s$ は、各データが平均値からどれくらい離れているかの典型的な大きさを表します。
たとえば、テストの平均点が60点、標準偏差が10点なら、「多くの生徒は平均点から10点程度の範囲にいる」というイメージです。
分散は「理論的な計算に便利」、標準偏差は「実際のデータの解釈に便利」。それぞれの長所を使い分けるのが大切です。
| 指標 | 定義 | 単位 | 長所 |
|---|---|---|---|
| 分散 $s^2$ | 偏差の2乗の平均 | 元の単位の2乗 | 計算が扱いやすい。加法性がある |
| 標準偏差 $s$ | 分散の正の平方根 | 元の単位と同じ | 直感的に理解しやすい。データと比較しやすい |
問題文が「分散を求めよ」と「標準偏差を求めよ」のどちらを聞いているか、必ず確認してください。
✕ 誤:「分散を求めよ」に対して $s = \sqrt{2}$ と答える(標準偏差を答えている)
○ 正:「分散を求めよ」なら $s^2 = 2$、「標準偏差を求めよ」なら $s = \sqrt{2}$
分散の記号は $s^2$、標準偏差の記号は $s$ です。問題文で聞かれている方を正確に答えましょう。
高校では分散を $\dfrac{1}{n}\sum(x_i - \bar{x})^2$ と定義しますが、大学の統計学では $\dfrac{1}{n-1}\sum(x_i - \bar{x})^2$ と定義する場面があります。前者を母分散(population variance)、後者を不偏分散(unbiased variance)と呼びます。
なぜ $n-1$ で割るのでしょうか。全体のデータ(母集団)から一部(標本)を取り出して分散を推定するとき、$n$ で割ると分散を過小評価してしまう傾向があります。$n-1$ で割ることでこの偏りを補正できるのです。$n-1$ は「自由度」と呼ばれ、平均値を求めるのに1つの情報を使ったために自由に動けるデータが1つ減ることを意味します。
高校の範囲では $n$ で割る定義を使います。入試では指示がない限り $n$ で割ってください。
ここまで、データの散らばりを数値化する方法を学んできました。 最後に、散らばりの指標を一覧にして全体像を整理しましょう。
| 指標 | 定義 | 特徴 |
|---|---|---|
| 範囲 | 最大値 $-$ 最小値 | 最も簡単だが外れ値に弱い |
| 四分位範囲 | $Q_3 - Q_1$ | 外れ値に強いが情報量が少ない |
| 分散 $s^2$ | 偏差の2乗の平均 | すべてのデータを使う。計算に便利 |
| 標準偏差 $s$ | $\sqrt{s^2}$ | 元の単位で解釈可能。最も広く使用 |
| 平均偏差 | $|$偏差$|$の平均 | 直感的だが数学的に扱いにくい |
Q1. データの偏差の合計が常に $0$ になるのはなぜですか?
Q2. データ $2, 4, 6, 8, 10$ の分散を求めてください。
Q3. $s^2 = \overline{x^2} - \bar{x}^2$ の公式で、$\overline{x^2}$ と $\bar{x}^2$ の違いを説明してください。
Q4. 変量 $x$ の分散が $s_x^2 = 5$ のとき、$y = 3x - 10$ の分散 $s_y^2$ はいくらですか?
Q5. 分散の単位がデータの単位の2乗になるとき、元の単位に戻すにはどうしますか?
この記事で学んだ内容を、入試形式の問題で確認しましょう。
ある商品 A, B の5日間の売り上げ個数が次の通りであった。
A:$5, 7, 4, 3, 6$ B:$4, 6, 8, 3, 9$
(1) A, B それぞれの平均値と分散を求めよ。
(2) 標準偏差を用いて、A と B のどちらが売り上げの散らばりが大きいか比較せよ。
(1) A:平均値 $5$、分散 $2$。B:平均値 $6$、分散 $5.2$。
(2) $s_A = \sqrt{2} \fallingdotseq 1.41$、$s_B = \sqrt{5.2} \fallingdotseq 2.28$。B のほうが散らばりが大きい。
方針:$s^2 = \overline{x^2} - \bar{x}^2$ を使って計算する。
A について:$\bar{x} = \dfrac{5 + 7 + 4 + 3 + 6}{5} = 5$
$\overline{x^2} = \dfrac{25 + 49 + 16 + 9 + 36}{5} = \dfrac{135}{5} = 27$
$s_A^2 = 27 - 25 = 2$
B について:$\bar{y} = \dfrac{4 + 6 + 8 + 3 + 9}{5} = 6$
$\overline{y^2} = \dfrac{16 + 36 + 64 + 9 + 81}{5} = \dfrac{206}{5} = 41.2$
$s_B^2 = 41.2 - 36 = 5.2$
(2) $s_A = \sqrt{2} \fallingdotseq 1.41$、$s_B = \sqrt{5.2} \fallingdotseq 2.28$。$s_A < s_B$ なので、B のほうが平均値の周りの散らばりが大きい。
10人の生徒のテストの点数(100点満点)の平均値が $62$ 点、標準偏差が $8$ 点であった。
各生徒の点数を $x$ として、$y = \dfrac{x - 50}{10}$ で新しい変量 $y$ を作る。
(1) $y$ の平均値を求めよ。
(2) $y$ の標準偏差を求めよ。
(1) $\bar{y} = 1.2$
(2) $s_y = 0.8$
方針:$y = \dfrac{x - 50}{10} = \dfrac{1}{10}x - 5$ と変形し、$a = \dfrac{1}{10}$、$b = -5$ の変換として処理する。
(1) $\bar{y} = \dfrac{1}{10} \times 62 - 5 = 6.2 - 5 = 1.2$
(2) $s_y = \left|\dfrac{1}{10}\right| \times 8 = 0.8$
※ $b = -5$ は標準偏差に影響しない点に注意。
変量 $x$ の $n$ 個のデータの値を $x_1, x_2, \ldots, x_n$ とし、$x$ の平均値を $\bar{x}$、$x^2$ の平均値を $\overline{x^2}$ とする。
$x$ の分散 $s^2$ は $s^2 = \overline{x^2} - \bar{x}^2$ と表せることを証明せよ。
分散の定義より
$$s^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i^2 - 2\bar{x} \cdot x_i + \bar{x}^2)$$
$$= \frac{1}{n}\sum x_i^2 - \frac{2\bar{x}}{n}\sum x_i + \frac{n\bar{x}^2}{n}$$
ここで $\dfrac{1}{n}\sum x_i^2 = \overline{x^2}$、$\dfrac{1}{n}\sum x_i = \bar{x}$ であるから
$$s^2 = \overline{x^2} - 2\bar{x}^2 + \bar{x}^2 = \overline{x^2} - \bar{x}^2$$
方針:定義式の $(x_i - \bar{x})^2$ を展開し、$\sum$ を分配してまとめる。
ポイントは、$\bar{x}$ が定数($\sum$ の中では $i$ に依存しない)であることを利用して、$\sum$ の外に出すこと。
$\dfrac{2\bar{x}}{n}\sum x_i = 2\bar{x} \cdot \bar{x} = 2\bar{x}^2$ の変形がカギです。
10人の生徒のテストの得点について、平均値が $54$ 点、分散が $36$ であった。採点ミスがあり、1人の生徒の点数が $40$ 点と記録されていたが、正しくは $50$ 点であった。
(1) 修正後の平均値を求めよ。
(2) 修正後の分散を求めよ。
(1) 修正後の平均値:$55$ 点
(2) 修正後の分散:$27$
方針:$\overline{x^2}$ と $\bar{x}$ を使って考える。修正前後のデータの合計と2乗の合計の変化を追跡する。
(1):修正前の合計は $10 \times 54 = 540$。修正により $540 - 40 + 50 = 550$。修正後の平均値は $\dfrac{550}{10} = 55$。
(2):修正前の $\overline{x^2}$ を求める。$s^2 = \overline{x^2} - \bar{x}^2$ より $\overline{x^2} = s^2 + \bar{x}^2 = 36 + 54^2 = 36 + 2916 = 2952$。
よって $\sum x_i^2 = 10 \times 2952 = 29520$。
修正後の $\sum x_i^2 = 29520 - 40^2 + 50^2 = 29520 - 1600 + 2500 = 30420$。
修正後の $\overline{x^2} = \dfrac{30420}{10} = 3042$。
修正後の分散 $= 3042 - 55^2 = 3042 - 3025 = 27$(以前は$36$)。
※ 修正前より分散が小さくなった。40点は平均値から大きく離れていたので、それが50点(平均値に近い値)に修正されたことで散らばりが減少した。