第13章 統計学の理論

記述統計の深層
─ 分散の意味と最小二乗法

高校の「データの分析」では、平均・分散・標準偏差・相関係数を公式として学び、データの特徴を数値で要約する方法を身につけます。 しかし、なぜ散らばりの尺度として「二乗偏差の平均」を使うのか、なぜ回帰直線がデータにもっともよく適合する直線と言えるのかについては、公式の背後にある原理が見えていません。

大学数学の視点では、分散とは「二乗誤差を最小にする値が平均である」という最小化原理の産物です。 この原理を出発点にすると、平均がなぜ代表値として優れているかが説明でき、同じ原理を2変量に拡張すれば最小二乗法として回帰直線の公式が導かれます。 さらに、相関係数 $r$ が回帰直線のあてはまりの良さ(決定係数 $r^2$)と直結していることも自然に理解できます。

1高校での扱い ─ 公式としての分散と回帰直線

高校の「データの分析」(数学I)では、$n$ 個のデータ $x_1, x_2, \ldots, x_n$ に対して、次の統計量を学びます。

平均値は、データの総和を個数で割った値です。

$$\bar{x} = \frac{1}{n}\sum_{k=1}^{n} x_k$$

分散は、各データと平均値の差(偏差)の二乗の平均です。

$$s_x^2 = \frac{1}{n}\sum_{k=1}^{n}(x_k - \bar{x})^2$$

標準偏差は分散の正の平方根 $s_x = \sqrt{s_x^2}$ であり、データと同じ単位で散らばりを表します。

2変量のデータ $(x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n)$ に対しては、共分散相関係数を学びます。

$$s_{xy} = \frac{1}{n}\sum_{k=1}^{n}(x_k - \bar{x})(y_k - \bar{y})$$

$$r = \frac{s_{xy}}{s_x \cdot s_y}$$

さらに、散布図のデータに最もよくあてはまる直線として回帰直線の方程式 $y = a + bx$ を学び、傾き $b$ と切片 $a$ の公式が

$$b = \frac{s_{xy}}{s_x^2}, \qquad a = \bar{y} - b\bar{x}$$

であることを使って計算します。

これらの公式は計算手順としては明確ですが、次のような疑問が残ります。なぜ散らばりの尺度として偏差の「二乗」を使うのか。偏差の絶対値の平均ではなぜいけないのか。回帰直線の傾きと切片の公式はどこから出てくるのか。相関係数と回帰直線にはどのような関係があるのか。これらの問いに答えるために、大学数学の視点を導入します。

2大学の視点 ─ 最小化原理が統計量を生む

大学の統計学では、平均・分散・回帰直線のすべてが、一つの共通する原理から導かれます。それは二乗誤差の最小化です。

高校と大学の視点の違い
高校
平均・分散・回帰直線はそれぞれ独立した公式として与えられる
大学
「二乗誤差を最小にする」という一つの原理から、平均・分散・回帰直線のすべてが導出される
高校
分散 $= $ 偏差の二乗の平均。なぜ二乗かは説明されない
大学
「$c$ を動かしたとき $\frac{1}{n}\sum(x_k - c)^2$ を最小にする $c$ が平均」。分散はその最小値
高校
回帰直線の公式 $b = s_{xy}/s_x^2$ を暗記して使う
大学
残差の二乗和 $\sum(y_k - a - bx_k)^2$ を $a, b$ で偏微分して最小化する(最小二乗法)
高校
相関係数 $r$ は $-1 \le r \le 1$ で、$1$ に近いほど正の相関が強い
大学
$r^2$(決定係数)は回帰直線で説明できる変動の割合を表す
二乗誤差の最小化が統計量を統一する

この記事では、次のことを示します。

  • $\frac{1}{n}\sum(x_k - c)^2$ を最小にする $c$ は平均 $\bar{x}$ であり、その最小値が分散 $s_x^2$ である
  • 同じ最小化原理を2変量に拡張すると、残差の二乗和を最小にする直線として回帰直線の公式が導出される(最小二乗法)
  • 相関係数の二乗 $r^2$(決定係数)は、回帰直線が全変動のうちどれだけを説明しているかを表す
  • これらはすべて「二乗誤差を最小にする」という一つの原理の表れである

ここから先は、この最小化原理を具体的に展開していきます。まず1変量の場合(平均と分散)から始めて、次に2変量の場合(回帰直線)へ進みます。

3平均の最適性 ─ 二乗誤差を最小にする値

データ $x_1, x_2, \ldots, x_n$ を一つの値 $c$ で代表するとき、各データと $c$ のずれの大きさを測る必要があります。そのずれの尺度として二乗誤差の平均を考えます。

$$f(c) = \frac{1}{n}\sum_{k=1}^{n}(x_k - c)^2$$

この $f(c)$ は、$c$ がデータからどれだけ離れているかを二乗の意味で測る量です。$f(c)$ を最小にする $c$ が、二乗誤差の意味で「最も良い代表値」ということになります。

平方完成による導出

$f(c)$ を $c$ について平方完成します。ここでは微分を使わず、高校の数学Iで学ぶ平方完成だけで最小値を求められることを示します。

$f(c)$ の最小値が分散であることの導出

示すべきこと:$f(c) = \frac{1}{n}\sum(x_k - c)^2$ が $c = \bar{x}$ で最小値 $s_x^2$ をとること。

方針:各 $(x_k - c)$ を $(x_k - \bar{x}) + (\bar{x} - c)$ と分解して展開します。

ステップ1:$x_k - c = (x_k - \bar{x}) + (\bar{x} - c)$ と書きます。両辺を二乗して

$$(x_k - c)^2 = (x_k - \bar{x})^2 + 2(x_k - \bar{x})(\bar{x} - c) + (\bar{x} - c)^2$$

ステップ2:$k = 1, 2, \ldots, n$ について足し合わせて $\frac{1}{n}$ を掛けます。

$$f(c) = \frac{1}{n}\sum_{k=1}^{n}(x_k - \bar{x})^2 + \frac{2(\bar{x} - c)}{n}\sum_{k=1}^{n}(x_k - \bar{x}) + (\bar{x} - c)^2$$

ステップ3(鍵):偏差の和はゼロです。$\sum_{k=1}^{n}(x_k - \bar{x}) = \sum_{k=1}^{n}x_k - n\bar{x} = n\bar{x} - n\bar{x} = 0$ なので、中間の項が消えます。

$$f(c) = \underbrace{\frac{1}{n}\sum_{k=1}^{n}(x_k - \bar{x})^2}_{= \, s_x^2} + (\bar{x} - c)^2$$

結論:$(\bar{x} - c)^2 \ge 0$ であり、等号は $c = \bar{x}$ のときに成り立ちます。したがって $f(c)$ は $c = \bar{x}$ で最小値 $s_x^2$ をとります。 $\blacksquare$

この結果は二つのことを同時に教えてくれます。

平均と分散の最適性

平均 $\bar{x}$ は、二乗誤差 $\frac{1}{n}\sum(x_k - c)^2$ を最小にする唯一の値です。つまり、平均とは「二乗の意味で全データに最も近い値」です。

分散 $s_x^2$ は、その最小値です。つまり、分散とは「最良の代表値(平均)を選んでもなお残る、データのばらつきの最小限の大きさ」を表しています。

具体例で確認する

データ $x_1 = 2, \, x_2 = 4, \, x_3 = 6$ で確認します。平均は $\bar{x} = \frac{2 + 4 + 6}{3} = 4$ です。

$c$ をいくつかの値にしたときの $f(c)$ を計算してみます。

$c$$(2-c)^2$$(4-c)^2$$(6-c)^2$$f(c)$
$3$$1$$1$$9$$\frac{11}{3} \approx 3.67$
$4$$4$$0$$4$$\frac{8}{3} \approx 2.67$
$5$$9$$1$$1$$\frac{11}{3} \approx 3.67$

$c = 4$(平均値)のときに $f(c)$ が最小になっていることが確認できます。このときの最小値 $\frac{8}{3}$ が分散です。実際、$s_x^2 = \frac{(2-4)^2 + (4-4)^2 + (6-4)^2}{3} = \frac{4 + 0 + 4}{3} = \frac{8}{3}$ と一致します。

「なぜ二乗か」への一つの回答

疑問:散らばりの尺度として、偏差の絶対値の平均 $\frac{1}{n}\sum|x_k - c|$ を使ってもよいのではないか。

回答:絶対値の平均を最小にする $c$ は中央値であり、平均値ではありません。絶対値は微分不可能な点を持つため、最小値の導出に微分法が直接使えないという計算上の困難もあります。一方、二乗誤差を使うと、平方完成または微分によって最小値が代数的に求まり、平均値・分散・回帰直線・相関係数といった統計量が一貫した体系として導かれます。二乗を使う理由は「唯一の正解」ではなく、「代数的に扱いやすい体系が得られる」という実用的な利点によるものです。

ここまでで、平均と分散が二乗誤差の最小化から統一的に理解できることがわかりました。次に、この同じ原理を2変量データに拡張し、回帰直線を導出します。

4最小二乗法 ─ 回帰直線の導出

セクション3では、1変量のデータを一つの定数 $c$ で代表するとき、二乗誤差を最小にする $c$ が平均であることを示しました。今度は、2変量のデータ $(x_1, y_1), \ldots, (x_n, y_n)$ を一次関数 $y = a + bx$ で代表することを考えます。

データ点 $(x_k, y_k)$ と直線 $y = a + bx$ のずれは、$y$ 方向の差 $y_k - (a + bx_k)$ で測ります。この差を残差(residual)と呼びます。セクション3と同じ原理に従い、残差の二乗の総和を最小にする $a, b$ を求めます。

最小二乗法の目的関数

$a, b$ の関数として、残差の二乗和

$$Q(a, b) = \sum_{k=1}^{n}(y_k - a - bx_k)^2$$

を定義します。$Q(a, b)$ を最小にする $a, b$ の値を求める方法が最小二乗法(method of least squares)です。

セクション3の $f(c) = \sum(x_k - c)^2$ は、直線 $y = c$(傾き $0$ の水平線)に対する最小二乗法と見なせます。今回は傾き $b$ も自由に動かせるようにしたものです。

偏微分による最小化

$Q(a, b)$ は $a$ と $b$ の2つの変数を持ちます。高校では1変数関数の微分を学びますが、2変数関数の最小値を求めるには、各変数について他方を固定して微分する偏微分を使います。

偏微分とは、2変数関数 $Q(a, b)$ に対して、$b$ を定数とみなして $a$ だけで微分したもの $\frac{\partial Q}{\partial a}$ と、$a$ を定数とみなして $b$ だけで微分したもの $\frac{\partial Q}{\partial b}$ のことです。計算方法は、1変数の微分と全く同じです。片方の変数を定数だと思って微分するだけです。

$Q(a,b)$ が最小になる点では、両方の偏微分がゼロになります。これは、1変数関数 $f(x)$ の極値で $f'(x) = 0$ となるのと同じ考え方です。

回帰直線の係数の導出

示すべきこと:$Q(a,b) = \sum(y_k - a - bx_k)^2$ を最小にする $a, b$ が $a = \bar{y} - b\bar{x}$、$b = \frac{s_{xy}}{s_x^2}$ であること。

ステップ1:$a$ で偏微分します。$\sum(y_k - a - bx_k)^2$ の各項を $a$ で微分すると、合成関数の微分により $-2(y_k - a - bx_k)$ が出ます。

$$\frac{\partial Q}{\partial a} = -2\sum_{k=1}^{n}(y_k - a - bx_k) = 0$$

整理すると

$$\sum_{k=1}^{n} y_k - na - b\sum_{k=1}^{n} x_k = 0$$

両辺を $n$ で割って、$\bar{y} - a - b\bar{x} = 0$ を得ます。したがって

$$a = \bar{y} - b\bar{x} \quad \cdots (*)$$

ステップ2:$b$ で偏微分します。

$$\frac{\partial Q}{\partial b} = -2\sum_{k=1}^{n} x_k(y_k - a - bx_k) = 0$$

整理すると

$$\sum_{k=1}^{n} x_k y_k - a\sum_{k=1}^{n} x_k - b\sum_{k=1}^{n} x_k^2 = 0 \quad \cdots (**)$$

ステップ3:$(*)$ を $(**)$ に代入します。$a = \bar{y} - b\bar{x}$ を使うと

$$\sum x_k y_k - (\bar{y} - b\bar{x})\sum x_k - b\sum x_k^2 = 0$$

$$\sum x_k y_k - \bar{y} \cdot n\bar{x} + b\bar{x} \cdot n\bar{x} - b\sum x_k^2 = 0$$

$$\sum x_k y_k - n\bar{x}\bar{y} = b\left(\sum x_k^2 - n\bar{x}^2\right)$$

ステップ4:左辺は $\sum x_k y_k - n\bar{x}\bar{y} = \sum(x_k - \bar{x})(y_k - \bar{y}) = n \cdot s_{xy}$ です(共分散の定義の $n$ 倍)。右辺のカッコ内は $\sum x_k^2 - n\bar{x}^2 = \sum(x_k - \bar{x})^2 = n \cdot s_x^2$ です(分散の定義の $n$ 倍)。したがって

$$n \cdot s_{xy} = b \cdot n \cdot s_x^2$$

$$b = \frac{s_{xy}}{s_x^2}$$

結論:$Q(a,b)$ を最小にする係数は $b = \frac{s_{xy}}{s_x^2}$、$a = \bar{y} - b\bar{x}$ です。 $\blacksquare$

この導出から、高校で天下り的に与えられた回帰直線の公式が、残差の二乗和を最小にするという明確な原理から導かれることがわかります。

回帰直線の幾何学的意味

式 $(*)$ から $a = \bar{y} - b\bar{x}$、つまり回帰直線 $y = a + bx$ は点 $(\bar{x}, \bar{y})$ を必ず通ることがわかります。これは「データの重心を通る直線の中で、残差の二乗和が最小になる傾きを選ぶ」ということです。

セクション3の結果と対応づけると、構造がよく見えます。セクション3では「定数 $c$ の中から二乗誤差を最小にするものを選ぶと平均が得られた」のに対し、ここでは「直線 $a + bx$ の中から二乗誤差を最小にするものを選ぶと回帰直線が得られた」のです。原理は同じで、探索する関数の範囲を広げただけです。

偏微分を使わない導出

セクション3と同じ平方完成の方法でも回帰直線の係数を導出できます。$(*)$ の結果 $a = \bar{y} - b\bar{x}$ を $Q$ に代入すると、$Q$ は $b$ だけの2次関数になり、平方完成で最小値を求められます。偏微分は2次関数の平方完成と本質的に同じ操作であり、多変数への拡張が容易であるという利点があります。

ここまでで、回帰直線の公式を最小二乗法から導出しました。次のセクションでは、この回帰直線がデータをどの程度うまく表現しているかを定量化し、それが相関係数と結びつくことを示します。

5決定係数と相関係数 ─ あてはまりの良さの定量化

回帰直線が求まったとき、次に知りたいのは「その直線がデータをどの程度説明しているか」です。この問いに答えるのが決定係数 $R^2$ です。

変動の分解

各データ $y_k$ と全体の平均 $\bar{y}$ との差 $y_k - \bar{y}$ を全変動と呼びます。この全変動を、回帰直線による予測値 $\hat{y}_k = a + bx_k$ を使って2つの部分に分解します。

$$y_k - \bar{y} = \underbrace{(\hat{y}_k - \bar{y})}_{\text{(A)}} + \underbrace{(y_k - \hat{y}_k)}_{\text{(B)}}$$

(A) は回帰直線で説明できる部分、(B) は回帰直線では説明できない残差です。

この分解の両辺を二乗して $k = 1, \ldots, n$ について和をとると、次の等式が成り立ちます。

変動の分解公式の導出

示すべきこと:$\sum(y_k - \bar{y})^2 = \sum(\hat{y}_k - \bar{y})^2 + \sum(y_k - \hat{y}_k)^2$ が成り立つこと。

方針:二乗を展開したときの交差項がゼロになることを示します。

展開:

$$\sum(y_k - \bar{y})^2 = \sum(\hat{y}_k - \bar{y})^2 + 2\sum(\hat{y}_k - \bar{y})(y_k - \hat{y}_k) + \sum(y_k - \hat{y}_k)^2$$

交差項の計算:$\hat{y}_k = a + bx_k$ なので $\hat{y}_k - \bar{y} = b(x_k - \bar{x})$(回帰直線が $(\bar{x}, \bar{y})$ を通ることから)。また、残差 $e_k = y_k - \hat{y}_k$ とおくと

$$\sum(\hat{y}_k - \bar{y})(y_k - \hat{y}_k) = b\sum(x_k - \bar{x}) \cdot e_k$$

最小二乗法の条件 $\frac{\partial Q}{\partial b} = 0$ から $\sum x_k \cdot e_k = 0$ が成り立ち、また $\frac{\partial Q}{\partial a} = 0$ から $\sum e_k = 0$ が成り立ちます。これらを合わせると $\sum(x_k - \bar{x}) \cdot e_k = \sum x_k \cdot e_k - \bar{x}\sum e_k = 0$ となり、交差項はゼロです。

結論:

$$\underbrace{\sum(y_k - \bar{y})^2}_{S_T} = \underbrace{\sum(\hat{y}_k - \bar{y})^2}_{S_R} + \underbrace{\sum(y_k - \hat{y}_k)^2}_{S_E}$$

$S_T$(全変動)$= S_R$(回帰による変動)$+ S_E$(残差変動)$\blacksquare$

決定係数の定義

決定係数 $R^2$

決定係数は、全変動のうち回帰直線で説明できる割合として定義されます。

$$R^2 = \frac{S_R}{S_T} = 1 - \frac{S_E}{S_T}$$

$S_T = S_R + S_E$ かつ $S_R \ge 0$、$S_E \ge 0$ なので、$0 \le R^2 \le 1$ が成り立ちます。

$R^2 = 1$ のとき、すべてのデータ点が回帰直線上にあります(残差がゼロ)。$R^2 = 0$ のとき、回帰直線は $y$ の変動をまったく説明していません。

決定係数 $=$ 相関係数の二乗

ここで、決定係数 $R^2$ が相関係数 $r$ の二乗に等しいことを示します。これにより、高校で学んだ相関係数に新しい意味が加わります。

$R^2 = r^2$ の導出

示すべきこと:$\frac{S_R}{S_T} = r^2$ であること。

ステップ1:$\hat{y}_k - \bar{y} = b(x_k - \bar{x})$ なので

$$S_R = \sum(\hat{y}_k - \bar{y})^2 = b^2 \sum(x_k - \bar{x})^2 = b^2 \cdot n \cdot s_x^2$$

ステップ2:$S_T = \sum(y_k - \bar{y})^2 = n \cdot s_y^2$ です。

ステップ3:$b = \frac{s_{xy}}{s_x^2}$ を代入すると

$$R^2 = \frac{b^2 \cdot n \cdot s_x^2}{n \cdot s_y^2} = \frac{s_{xy}^2}{s_x^4} \cdot \frac{s_x^2}{s_y^2} = \frac{s_{xy}^2}{s_x^2 \cdot s_y^2} = \left(\frac{s_{xy}}{s_x \cdot s_y}\right)^2 = r^2$$

結論:$R^2 = r^2$ です。 $\blacksquare$

相関係数の二乗が持つ意味

高校では相関係数 $r$ を「$1$ に近いほど正の相関が強い」と学びますが、大学の視点では $r^2$ に明確な意味があります。$r^2$ は$y$ の全変動のうち、$x$ との直線関係で説明できる割合です。

たとえば $r = 0.8$ ならば $r^2 = 0.64$ であり、$y$ の変動の64%が $x$ との直線関係で説明でき、残り36%は直線では捉えられないばらつきです。

ここまでで、セクション3の最小化原理を2変量に拡張し(セクション4)、さらに回帰直線のあてはまりの良さが相関係数の二乗で測れること(セクション5)を示しました。次のセクションでは、これらを具体的なデータに適用して計算します。

6応用 ─ 具体的なデータで回帰分析を行う

ここまでに導出した公式を、具体的な数値データに適用します。

データと基本統計量

ある5人の生徒の数学の勉強時間 $x$(時間)とテストの得点 $y$(点)のデータが以下の通りであるとします。

生徒$x$(時間)$y$(点)
A$2$$40$
B$3$$55$
C$5$$60$
D$7$$75$
E$8$$80$

まず、平均値を計算します。

$$\bar{x} = \frac{2 + 3 + 5 + 7 + 8}{5} = \frac{25}{5} = 5$$

$$\bar{y} = \frac{40 + 55 + 60 + 75 + 80}{5} = \frac{310}{5} = 62$$

分散と共分散の計算

偏差を使って分散と共分散を求めます。

生徒$x_k - \bar{x}$$y_k - \bar{y}$$(x_k - \bar{x})^2$$(x_k - \bar{x})(y_k - \bar{y})$$(y_k - \bar{y})^2$
A$-3$$-22$$9$$66$$484$
B$-2$$-7$$4$$14$$49$
C$0$$-2$$0$$0$$4$
D$2$$13$$4$$26$$169$
E$3$$18$$9$$54$$324$
合計$26$$160$$1030$

$$s_x^2 = \frac{26}{5} = 5.2, \qquad s_{xy} = \frac{160}{5} = 32, \qquad s_y^2 = \frac{1030}{5} = 206$$

回帰直線の計算

セクション4で導出した公式を適用します。

$$b = \frac{s_{xy}}{s_x^2} = \frac{32}{5.2} = \frac{160}{26} = \frac{80}{13} \approx 6.15$$

$$a = \bar{y} - b\bar{x} = 62 - \frac{80}{13} \times 5 = 62 - \frac{400}{13} = \frac{806 - 400}{13} = \frac{406}{13} \approx 31.23$$

したがって、回帰直線は $y = \frac{406}{13} + \frac{80}{13}x$(約 $y = 31.23 + 6.15x$)です。

この式は、勉強時間が1時間増えるごとにテストの得点が約 $6.15$ 点増えるという関係を表しています。

決定係数と相関係数

セクション5の結果 $R^2 = r^2$ を使って、相関係数を計算します。

$$r^2 = \frac{s_{xy}^2}{s_x^2 \cdot s_y^2} = \frac{32^2}{5.2 \times 206} = \frac{1024}{1071.2} \approx 0.956$$

$$r = \sqrt{0.956} \approx 0.978$$

($s_{xy} > 0$ なので正の値をとります。)

$r^2 \approx 0.956$ は、$y$(テスト得点)の変動の約95.6%が $x$(勉強時間)との直線関係で説明できることを意味します。非常に強い直線関係があると言えます。

残差の確認

各データ点の残差 $e_k = y_k - \hat{y}_k$ を計算し、残差の和がゼロになること($\sum e_k = 0$、最小二乗法の条件)を確認します。

生徒$x_k$$y_k$$\hat{y}_k = \frac{406 + 80x_k}{13}$$e_k = y_k - \hat{y}_k$
A$2$$40$$\frac{566}{13} \approx 43.54$$\approx -3.54$
B$3$$55$$\frac{646}{13} \approx 49.69$$\approx 5.31$
C$5$$60$$\frac{806}{13} = 62$$\approx -2.00$
D$7$$75$$\frac{966}{13} \approx 74.31$$\approx 0.69$
E$8$$80$$\frac{1046}{13} \approx 80.46$$\approx -0.46$

残差の和は $(-3.54) + 5.31 + (-2.00) + 0.69 + (-0.46) = 0.00$(小数の丸めを除けば厳密にゼロ)であり、最小二乗法の条件 $\sum e_k = 0$ が確認できます。

$n-1$ で割る「不偏分散」との違い

高校と本記事では分散を $\frac{1}{n}\sum(x_k - \bar{x})^2$ と定義しましたが、大学の統計学(数学B「統計的な推測」でも一部触れます)では $\frac{1}{n-1}\sum(x_k - \bar{x})^2$ で割る不偏分散もよく使います。不偏分散は、標本から母集団の分散を推定するときに「偏りがない」(期待値が母分散に一致する)推定量になるという性質を持ちます。記述統計(手元のデータの特徴を要約する)では $\frac{1}{n}$ で割り、推測統計(母集団について推定する)では $\frac{1}{n-1}$ で割るのが一般的です。この違いについては M-13-2 で扱います。

7つながりマップ

Sまとめ

  • 平均 $\bar{x}$ は、二乗誤差 $\frac{1}{n}\sum(x_k - c)^2$ を最小にする唯一の値 $c$ である。分散 $s_x^2$ はその最小値であり、「最良の代表値を選んでもなお残る散らばり」を表す。
  • 最小二乗法は、残差の二乗和 $\sum(y_k - a - bx_k)^2$ を $a, b$ について最小化する方法である。偏微分を用いると、回帰直線の傾き $b = \frac{s_{xy}}{s_x^2}$、切片 $a = \bar{y} - b\bar{x}$ が導かれる。
  • $y$ の全変動 $S_T$ は、回帰による変動 $S_R$ と残差変動 $S_E$ に分解できる:$S_T = S_R + S_E$。決定係数 $R^2 = S_R / S_T$ は回帰直線で説明できる変動の割合を表す。
  • 決定係数は相関係数の二乗に等しい:$R^2 = r^2$。したがって $r^2$ は「$y$ の変動のうち $x$ との直線関係で説明できる割合」を意味する。
  • 平均・分散・回帰直線・決定係数のすべてが「二乗誤差を最小にする」という一つの原理から統一的に導かれる。

9確認テスト

理解度チェック

Q1. $f(c) = \frac{1}{n}\sum_{k=1}^{n}(x_k - c)^2$ を最小にする $c$ の値と、そのときの最小値をそれぞれ何と呼びますか。

クリックして解答を表示 $f(c)$ を最小にする $c$ は平均値 $\bar{x}$ であり、そのときの最小値は分散 $s_x^2$ です。平均は「二乗誤差を最小にする代表値」、分散は「その最小の二乗誤差」として統一的に理解できます。

Q2. 最小二乗法で回帰直線の係数を求めるとき、$\frac{\partial Q}{\partial a} = 0$ から得られる条件を式で書き、その幾何学的意味を述べてください。

クリックして解答を表示 $\frac{\partial Q}{\partial a} = 0$ からは $a = \bar{y} - b\bar{x}$ が得られます。これは、回帰直線 $y = a + bx$ が点 $(\bar{x}, \bar{y})$(データの重心)を必ず通ることを意味しています。

Q3. 相関係数が $r = 0.7$ のとき、決定係数 $R^2$ の値を求め、その意味を説明してください。

クリックして解答を表示 $R^2 = r^2 = 0.49$ です。これは、$y$ の全変動の49%が $x$ との直線関係で説明でき、残りの51%は直線では捉えられないばらつきであることを意味します。

Q4. 「偏差の絶対値の平均 $\frac{1}{n}\sum|x_k - c|$ を最小にする $c$」は何ですか。平均値との違いを説明してください。

クリックして解答を表示 絶対値偏差の平均を最小にする $c$ は中央値です。平均値は二乗誤差を最小にする値であり、中央値は絶対値誤差を最小にする値です。どちらの尺度を選ぶかによって「最良の代表値」が異なります。二乗誤差を使うと、微分による計算が容易であり、分散・回帰直線・相関係数という統計量の体系が一貫して構築できる利点があります。

10演習問題

問1 A 基本

データ $x_1 = 1, \, x_2 = 3, \, x_3 = 5, \, x_4 = 7$ に対して、$f(c) = \frac{1}{4}\sum_{k=1}^{4}(x_k - c)^2$ を $c$ の関数として展開し、平方完成によって最小値とそのときの $c$ を求めてください。

クリックして解答を表示
解答

$\bar{x} = \frac{1+3+5+7}{4} = 4$ です。

$f(c) = \frac{1}{4}\{(1-c)^2 + (3-c)^2 + (5-c)^2 + (7-c)^2\}$ を展開します。

$$f(c) = \frac{1}{4}(4c^2 - 32c + 84) = c^2 - 8c + 21 = (c - 4)^2 + 5$$

したがって $c = 4$(平均値)で最小値 $5$ をとります。この最小値 $5$ は分散 $s_x^2 = \frac{(1-4)^2 + (3-4)^2 + (5-4)^2 + (7-4)^2}{4} = \frac{9+1+1+9}{4} = 5$ に一致します。

問2 A 定義の確認

3つのデータ点 $(1, 2), \, (2, 4), \, (3, 6)$ に対して、回帰直線 $y = a + bx$ の傾き $b$ と切片 $a$ を求めてください。すべてのデータ点が回帰直線上にあることを確認し、決定係数 $R^2$ の値を求めてください。

クリックして解答を表示
解答

$\bar{x} = 2$、$\bar{y} = 4$ です。

$s_x^2 = \frac{(1-2)^2 + (2-2)^2 + (3-2)^2}{3} = \frac{2}{3}$

$s_{xy} = \frac{(1-2)(2-4) + (2-2)(4-4) + (3-2)(6-4)}{3} = \frac{2+0+2}{3} = \frac{4}{3}$

$b = \frac{s_{xy}}{s_x^2} = \frac{4/3}{2/3} = 2$、$a = \bar{y} - b\bar{x} = 4 - 2 \times 2 = 0$

回帰直線は $y = 2x$ です。$x = 1$ で $y = 2$、$x = 2$ で $y = 4$、$x = 3$ で $y = 6$ となり、すべてのデータ点が直線上にあります。残差がすべてゼロなので $R^2 = 1$ です。

問3 B 計算

次の4つのデータ点 $(1, 3), \, (2, 5), \, (4, 7), \, (5, 9)$ について、以下を求めてください。

(1) 回帰直線 $y = a + bx$ の傾き $b$ と切片 $a$

(2) 相関係数 $r$ と決定係数 $R^2 = r^2$

(3) 各データ点の残差 $e_k$ を計算し、$\sum e_k = 0$ が成り立つことを確認してください

クリックして解答を表示
解答

$\bar{x} = \frac{1+2+4+5}{4} = 3$、$\bar{y} = \frac{3+5+7+9}{4} = 6$ です。

偏差の計算:

$\sum(x_k - \bar{x})^2 = (-2)^2 + (-1)^2 + 1^2 + 2^2 = 10$、$s_x^2 = \frac{10}{4} = 2.5$

$\sum(x_k - \bar{x})(y_k - \bar{y}) = (-2)(-3) + (-1)(-1) + (1)(1) + (2)(3) = 6+1+1+6 = 14$、$s_{xy} = \frac{14}{4} = 3.5$

$\sum(y_k - \bar{y})^2 = (-3)^2 + (-1)^2 + 1^2 + 3^2 = 20$、$s_y^2 = \frac{20}{4} = 5$

(1) $b = \frac{3.5}{2.5} = 1.4$、$a = 6 - 1.4 \times 3 = 1.8$。回帰直線は $y = 1.8 + 1.4x$ です。

(2) $r^2 = \frac{3.5^2}{2.5 \times 5} = \frac{12.25}{12.5} = 0.98$、$r = \sqrt{0.98} \approx 0.990$。$y$ の変動の98%が $x$ との直線関係で説明できます。

(3) 残差:$e_1 = 3 - 3.2 = -0.2$、$e_2 = 5 - 4.6 = 0.4$、$e_3 = 7 - 7.4 = -0.4$、$e_4 = 9 - 8.8 = 0.2$。$\sum e_k = -0.2+0.4-0.4+0.2 = 0$ が確認できます。

問4 B 証明

データ $x_1, x_2, \ldots, x_n$ に対して、分散の公式 $s_x^2 = \frac{1}{n}\sum x_k^2 - \bar{x}^2$ を、定義 $s_x^2 = \frac{1}{n}\sum(x_k - \bar{x})^2$ から導いてください。

クリックして解答を表示
解答

$(x_k - \bar{x})^2 = x_k^2 - 2\bar{x} \cdot x_k + \bar{x}^2$ を展開して $k = 1, \ldots, n$ で和をとります。

$$\sum_{k=1}^{n}(x_k - \bar{x})^2 = \sum x_k^2 - 2\bar{x}\sum x_k + n\bar{x}^2$$

$\sum x_k = n\bar{x}$ を代入すると

$$= \sum x_k^2 - 2\bar{x} \cdot n\bar{x} + n\bar{x}^2 = \sum x_k^2 - n\bar{x}^2$$

両辺を $n$ で割って

$$s_x^2 = \frac{1}{n}\sum x_k^2 - \bar{x}^2$$

つまり「二乗の平均」$-$「平均の二乗」$=$ 分散、という関係が得られます。 $\blacksquare$

問5 C 発展

相関係数 $r = \frac{s_{xy}}{s_x \cdot s_y}$ が $-1 \le r \le 1$ を満たすことを、次の方針で証明してください。

(1) 任意の実数 $t$ に対して $\frac{1}{n}\sum_{k=1}^{n}\{(x_k - \bar{x}) + t(y_k - \bar{y})\}^2 \ge 0$ が成り立つことを説明してください。

(2) 左辺を展開して $t$ の2次式と見なし、その判別式 $D \le 0$ から $|r| \le 1$ を導いてください。

クリックして解答を表示
解答

(1) 実数の二乗は非負なので、$(x_k - \bar{x}) + t(y_k - \bar{y})$ の二乗も非負です。非負な数の和も非負なので、$\frac{1}{n}\sum\{(x_k - \bar{x}) + t(y_k - \bar{y})\}^2 \ge 0$ が任意の $t$ について成り立ちます。

(2) 展開すると

$$\frac{1}{n}\sum(x_k - \bar{x})^2 + \frac{2t}{n}\sum(x_k - \bar{x})(y_k - \bar{y}) + \frac{t^2}{n}\sum(y_k - \bar{y})^2 \ge 0$$

$$s_x^2 + 2t \cdot s_{xy} + t^2 \cdot s_y^2 \ge 0$$

これが任意の $t$ に対して成り立つので、$t$ の2次式 $s_y^2 \cdot t^2 + 2s_{xy} \cdot t + s_x^2 \ge 0$ の判別式は $D \le 0$ です。

$$D = (2s_{xy})^2 - 4 \cdot s_y^2 \cdot s_x^2 = 4(s_{xy}^2 - s_x^2 \cdot s_y^2) \le 0$$

$$s_{xy}^2 \le s_x^2 \cdot s_y^2$$

両辺を $s_x^2 \cdot s_y^2 > 0$ で割ると $r^2 = \frac{s_{xy}^2}{s_x^2 \cdot s_y^2} \le 1$、すなわち $|r| \le 1$ が示されました。$\blacksquare$

解説

この証明はコーシー・シュワルツの不等式の特殊な場合です。偏差ベクトル $(x_1 - \bar{x}, \ldots, x_n - \bar{x})$ と $(y_1 - \bar{y}, \ldots, y_n - \bar{y})$ を $n$ 次元ベクトルと見なすと、共分散はこれらの内積を $n$ で割ったもの、分散はノルムの二乗を $n$ で割ったものに対応します。コーシー・シュワルツの不等式 $|\mathbf{u} \cdot \mathbf{v}| \le |\mathbf{u}||\mathbf{v}|$ から直ちに $|r| \le 1$ が従います。相関係数は「2つの偏差ベクトルのなす角の余弦」に他なりません。この視点は M-17-2 で詳しく扱います。