第12章 確率論

大数の法則と中心極限定理
─ 正規分布はなぜ至るところに現れるか

高校の統計分野では、正規分布は「データが左右対称の釣鐘型に分布するもの」として登場し、標本平均の分布や信頼区間の計算に用いられます。 しかし、なぜ身長や体重、テストの合計点など、まったく異なる現象が揃って正規分布に従うのかについては、十分な説明がなされません。

大学数学は、この問いに対して二つの定理で明快に答えます。 大数の法則は「標本平均が母平均に収束すること」を保証し、中心極限定理は「標本平均がどのような分布の形に従いながら収束するか」を明らかにします。 中心極限定理の主張は、元の分布がどんな形であっても、独立な確率変数の和を標準化すれば標準正規分布に近づくというものです。 正規分布の普遍性は、この定理によって数学的に裏付けられています。

1高校での扱い ─ 正規分布と標本平均

高校数学Bの「統計的な推測」では、次のような内容を学びます。

まず、確率変数 $X$ の期待値 $E(X) = \mu$、分散 $V(X) = \sigma^2$ を定義します。 独立な確率変数の和の期待値は各期待値の和になり、分散も各分散の和になることを学びます。

次に、二項分布 $B(n, p)$ について、$n$ が大きいとき正規分布 $N(np, np(1-p))$ で近似できると学びます。 そして、母集団から大きさ $n$ の標本を無作為抽出したとき、標本平均 $\bar{X}$ は近似的に正規分布 $N\!\left(\mu, \dfrac{\sigma^2}{n}\right)$ に従うと習います。

この事実を利用して、母平均の信頼区間を

$$\bar{X} - 1.96 \cdot \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X} + 1.96 \cdot \frac{\sigma}{\sqrt{n}}$$

のように求めます。ここで $1.96$ は標準正規分布の上側 $2.5\%$ 点です。

高校の教科書は「$n$ が十分大きいとき、標本平均は近似的に正規分布に従う」と述べますが、その理由は説明されません。 なぜ元の分布の形によらず正規分布が出てくるのか。 このセクションの先で、その根拠となる二つの定理を順に見ていきます。

2大学の視点 ─ 標本平均の「収束」を二段階で捉える

大学の確率論では、標本平均 $\bar{X}_n = \dfrac{1}{n}\sum_{i=1}^{n} X_i$ の振る舞いを、二つの段階に分けて解析します。

第一段階:$n$ を大きくすると $\bar{X}_n$ はどこに向かうか。 答えは「母平均 $\mu$ に収束する」であり、これが大数の法則です。

第二段階:$\bar{X}_n$ が $\mu$ に収束するとき、そのばらつきはどのような分布の形をとるか。 $\bar{X}_n$ と $\mu$ のずれを $\sqrt{n}$ 倍に拡大して観察すると、元の分布の形によらず標準正規分布に近づきます。 これが中心極限定理です。

高校 vs 大学:標本平均と正規分布の関係
高校:結果だけを使う
「$n$ が大きいとき、標本平均は近似的に正規分布に従う」と天下り的に受け入れる。
大学:なぜそうなるかを証明する
大数の法則で「どこに収束するか」を示し、中心極限定理で「どのような形で収束するか」を示す。
高校:正規分布は特定の現象の分布
身長や体重などが正規分布に従う「自然な事実」として扱う。
大学:正規分布は普遍的に現れる
独立な多数の要因の和は、各要因の分布の形によらず正規分布に近づく。これが普遍性の数学的根拠。
高校:収束の概念は直感的
「$n$ が大きいとき近似的に」という曖昧な表現。
大学:確率的な収束を厳密に定義する
「確率収束」「分布収束」という異なる収束概念を区別して用いる。
標本平均の収束と正規分布の普遍性

この記事を読み終えると、以下のことができるようになります。

1. チェビシェフの不等式を用いて、大数の法則(弱法則)を証明できる

2. 大数の法則が「標本平均の収束先」を保証することを説明できる

3. 中心極限定理が「収束の形」を決めることを説明できる

4. 元の分布がどんな形であっても中心極限定理が成り立つことの意味を、具体例で確認できる

5. 高校の信頼区間の公式が中心極限定理の帰結であることを理解できる

大数の法則を証明するための鍵となるのが、次のセクションで導入するチェビシェフの不等式です。 この不等式は分散と確率の関係を定量的に述べるもので、大数の法則の証明に直結します。

3準備 ─ チェビシェフの不等式

大数の法則を証明するために、まず一つの基本的な不等式を導入します。 チェビシェフの不等式(Chebyshev's inequality)は、「分散が小さければ、平均から大きく離れた値をとる確率は小さい」ことを定量的に述べるものです。

マルコフの不等式からの準備

チェビシェフの不等式を導くために、まずマルコフの不等式を示します。 これは「非負の確率変数が大きな値をとる確率」に上限を与える不等式です。

マルコフの不等式

$Y$ を非負の確率変数($Y \geq 0$)とする。任意の $a > 0$ に対して

$$P(Y \geq a) \leq \frac{E(Y)}{a}$$

この不等式は「$Y$ の期待値が小さければ、$Y$ が大きな値 $a$ 以上をとる確率も小さい」ことを意味します。

マルコフの不等式の証明

証明の方針:$Y \geq 0$ であることと、$Y \geq a$ のとき $Y$ は少なくとも $a$ 以上であることを使って、期待値の下からの評価を得ます。

$Y \geq 0$ なので、期待値を $Y \geq a$ の場合とそうでない場合に分けて評価できます。

$$E(Y) = E(Y \cdot \mathbf{1}_{Y \geq a}) + E(Y \cdot \mathbf{1}_{Y < a})$$

ここで $\mathbf{1}_{Y \geq a}$ は「$Y \geq a$ のとき $1$、そうでないとき $0$」をとる関数です。右辺の第2項は $Y \geq 0$ より非負なので

$$E(Y) \geq E(Y \cdot \mathbf{1}_{Y \geq a})$$

$Y \geq a$ が成り立つとき $Y \geq a$ なので

$$E(Y \cdot \mathbf{1}_{Y \geq a}) \geq E(a \cdot \mathbf{1}_{Y \geq a}) = a \cdot P(Y \geq a)$$

したがって $E(Y) \geq a \cdot P(Y \geq a)$ となり、両辺を $a > 0$ で割ると

$$P(Y \geq a) \leq \frac{E(Y)}{a}$$

が得られます。 $\square$

チェビシェフの不等式の導出

マルコフの不等式を使うと、チェビシェフの不等式を簡単に導くことができます。

チェビシェフの不等式

確率変数 $X$ の期待値を $\mu = E(X)$、分散を $\sigma^2 = V(X)$ とする。任意の $\varepsilon > 0$ に対して

$$P(|X - \mu| \geq \varepsilon) \leq \frac{\sigma^2}{\varepsilon^2}$$

これは「$X$ が平均 $\mu$ から $\varepsilon$ 以上離れる確率は、分散 $\sigma^2$ を $\varepsilon^2$ で割った値以下である」ことを意味します。 分散が小さいほど、また許容する誤差 $\varepsilon$ が大きいほど、この確率は小さくなります。

チェビシェフの不等式の証明

証明の方針:$|X - \mu| \geq \varepsilon$ という事象を $(X - \mu)^2 \geq \varepsilon^2$ に言い換え、非負の確率変数 $(X - \mu)^2$ にマルコフの不等式を適用します。

$|X - \mu| \geq \varepsilon$ と $(X - \mu)^2 \geq \varepsilon^2$ は同値です。$Y = (X - \mu)^2$ とおくと $Y \geq 0$ であり、マルコフの不等式より

$$P((X - \mu)^2 \geq \varepsilon^2) \leq \frac{E((X - \mu)^2)}{\varepsilon^2} = \frac{\sigma^2}{\varepsilon^2}$$

ここで $E((X - \mu)^2) = V(X) = \sigma^2$ を用いました。 $\square$

具体例で確認する

チェビシェフの不等式の意味を具体的な数値で確認しましょう。 サイコロを1回振る場合、$X$ を出る目の値とすると、$\mu = E(X) = 3.5$、$\sigma^2 = V(X) = \dfrac{35}{12} \approx 2.917$ です。

$\varepsilon = 2.5$ として、$P(|X - 3.5| \geq 2.5)$ を考えます。 $|X - 3.5| \geq 2.5$ を満たすのは $X = 1$ または $X = 6$ の場合なので、実際の確率は $\dfrac{2}{6} = \dfrac{1}{3} \approx 0.333$ です。

チェビシェフの不等式による上界は

$$\frac{\sigma^2}{\varepsilon^2} = \frac{35/12}{6.25} = \frac{35}{75} = \frac{7}{15} \approx 0.467$$

実際の確率 $0.333$ はこの上界 $0.467$ 以下になっており、不等式が成り立っています。 チェビシェフの不等式は分布の形を一切使わない汎用的な上界なので、個別の分布に対しては粗い評価になりますが、だからこそ任意の分布に適用できる強みがあります。

ここまでで、チェビシェフの不等式という道具が手に入りました。次のセクションでは、この不等式を標本平均に適用して大数の法則を証明します。

4大数の法則 ─ 平均は安定する

前のセクションで得たチェビシェフの不等式を、標本平均 $\bar{X}_n$ に適用します。 ここから「標本平均が母平均に収束する」という大数の法則が導かれます。

標本平均の期待値と分散

$X_1, X_2, \ldots, X_n$ が互いに独立で、すべて同じ分布に従い(これを独立同分布、i.i.d. と略します)、共通の期待値 $\mu$ と分散 $\sigma^2$ をもつとします。 標本平均 $\bar{X}_n = \dfrac{1}{n}\sum_{i=1}^{n} X_i$ の期待値と分散は、高校で学んだ性質を使って計算できます。

期待値については、高校で学んだ「期待値の線形性」$E(aX + b) = aE(X) + b$ と $E(X + Y) = E(X) + E(Y)$ を使うと

$$E(\bar{X}_n) = E\!\left(\frac{1}{n}\sum_{i=1}^{n} X_i\right) = \frac{1}{n}\sum_{i=1}^{n} E(X_i) = \frac{1}{n} \cdot n\mu = \mu$$

つまり、標本平均の期待値は母平均 $\mu$ に等しくなります。

分散については、独立な確率変数の和の分散は各分散の和になる($V(X + Y) = V(X) + V(Y)$、独立のとき)ことと、$V(aX) = a^2 V(X)$ を使うと

$$V(\bar{X}_n) = V\!\left(\frac{1}{n}\sum_{i=1}^{n} X_i\right) = \frac{1}{n^2}\sum_{i=1}^{n} V(X_i) = \frac{1}{n^2} \cdot n\sigma^2 = \frac{\sigma^2}{n}$$

標本平均の分散は $\dfrac{\sigma^2}{n}$ であり、$n$ が大きくなるほど小さくなります。 分散が $0$ に近づくということは、$\bar{X}_n$ の値が期待値 $\mu$ の周りにどんどん集中することを意味します。

大数の弱法則

この直感をチェビシェフの不等式で厳密にしたものが、大数の弱法則(weak law of large numbers)です。

大数の弱法則

$X_1, X_2, \ldots$ を独立同分布な確率変数の列とし、共通の期待値 $\mu$、共通の分散 $\sigma^2 < \infty$ をもつとする。このとき、任意の $\varepsilon > 0$ に対して

$$\lim_{n \to \infty} P(|\bar{X}_n - \mu| \geq \varepsilon) = 0$$

これは「$n$ を大きくすると、標本平均 $\bar{X}_n$ が母平均 $\mu$ から $\varepsilon$ 以上離れる確率が $0$ に近づく」ことを意味します。 どんなに小さい正の数 $\varepsilon$ をとっても成り立つので、「標本平均は確率的に母平均に収束する」と言えます。 この収束を確率収束と呼びます。

大数の弱法則の証明

証明の方針:$\bar{X}_n$ にチェビシェフの不等式を適用し、右辺が $0$ に収束することを示します。

$\bar{X}_n$ の期待値は $\mu$、分散は $\dfrac{\sigma^2}{n}$ です。チェビシェフの不等式より

$$P(|\bar{X}_n - \mu| \geq \varepsilon) \leq \frac{V(\bar{X}_n)}{\varepsilon^2} = \frac{\sigma^2}{n\varepsilon^2}$$

$\sigma^2$ と $\varepsilon$ は $n$ によらない定数なので、$n \to \infty$ のとき右辺は $0$ に収束します。したがって

$$0 \leq P(|\bar{X}_n - \mu| \geq \varepsilon) \leq \frac{\sigma^2}{n\varepsilon^2} \to 0$$

はさみうちの原理より $P(|\bar{X}_n - \mu| \geq \varepsilon) \to 0$ が得られます。 $\square$

証明は驚くほど簡潔です。チェビシェフの不等式に $\bar{X}_n$ を代入するだけで、大数の法則が導かれました。 鍵は、標本平均の分散が $\dfrac{\sigma^2}{n}$ と $n$ に反比例して小さくなることです。

具体例:サイコロの目の平均

サイコロを $n$ 回投げたときの出た目の平均を考えます。 1回の目の値 $X_i$ は $\mu = 3.5$、$\sigma^2 = \dfrac{35}{12}$ です。

$\varepsilon = 0.1$(平均が $3.5$ から $0.1$ 以上ずれる確率)とすると、チェビシェフの不等式による上界は

$$P(|\bar{X}_n - 3.5| \geq 0.1) \leq \frac{35/12}{n \cdot 0.01} = \frac{3500}{12n} \approx \frac{292}{n}$$

$n = 1000$ のとき上界は約 $0.292$、$n = 10000$ のとき約 $0.029$ です。 $n$ を増やすほどこの確率は小さくなり、サイコロの出目の平均は $3.5$ に限りなく近づきます。 これが大数の法則の具体的な意味です。

大数の法則の誤解:「偏りの修正」は起こらない

誤り:サイコロを10回投げて6が多く出たら、その後は6が出にくくなって平均が戻る。

正しい理解:大数の法則は「過去の偏りが将来修正される」とは言っていません。各試行は独立であり、過去の結果は将来に影響しません。平均が $\mu$ に近づく理由は、試行回数 $n$ が増えるにつれて過去の偏りが全体に占める割合が薄まるからです。

例えば最初の10回で合計40(平均4.0)が出ても、その後の990回の平均が3.5に近ければ、1000回全体の平均は $\dfrac{40 + 990 \times 3.5}{1000} = 3.505$ のように $3.5$ に近くなります。過去の偏り $40$ は、大量のデータの中で「希釈」されるのです。

ここまでで、大数の法則により「標本平均は母平均に収束する」ことがわかりました。 しかし、この定理は収束の「行き先」を教えてくれますが、収束の途中で $\bar{X}_n$ がどのような分布の形をとるかは教えてくれません。 次のセクションでは、この「収束の形」を明らかにする中心極限定理を見ていきます。

5中心極限定理 ─ 正規分布の普遍性の数学的根拠

標準化:ばらつきを拡大して観察する

大数の法則により、$\bar{X}_n$ は $\mu$ に収束します。しかしこのままでは、$n$ が大きくなるにつれて分布が1点に潰れてしまい、分布の「形」を観察できません。 そこで、$\bar{X}_n$ と $\mu$ のずれを $\sqrt{n}$ 倍に拡大する標準化を行います。

標準化した確率変数 $Z_n$ を次のように定義します。

$$Z_n = \frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} = \frac{\sum_{i=1}^{n} X_i - n\mu}{\sigma\sqrt{n}}$$

この $Z_n$ は、期待値 $0$、分散 $1$ をもちます。$n$ がいくら大きくなっても分散が $1$ のまま保たれるので、分布の形を観察し続けることができます。 高校で学んだ標準化($Z = \dfrac{X - \mu}{\sigma}$)を標本平均に適用したものだと理解できます。

中心極限定理の主張

中心極限定理(CLT: Central Limit Theorem)

$X_1, X_2, \ldots$ を独立同分布な確率変数の列とし、共通の期待値 $\mu$、共通の分散 $0 < \sigma^2 < \infty$ をもつとする。このとき

$$Z_n = \frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} N(0, 1) \quad (n \to \infty)$$

すなわち、任意の実数 $a$ に対して

$$\lim_{n \to \infty} P(Z_n \leq a) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{a} e^{-t^2/2} \, dt$$

$\xrightarrow{d}$ は分布収束を表します。これは「$Z_n$ の累積分布関数が標準正規分布の累積分布関数に各点で収束する」ことを意味します。 ここで重要なのは、$X_i$ の分布がどのような形であっても(離散でも連続でも、左右対称でなくても)、期待値と分散が有限である限りこの定理が成り立つことです。

正規分布が普遍的に現れる理由

中心極限定理が伝えていることを整理します。

独立な多数の要因の和は、各要因の分布がどんな形であっても、標準化すれば標準正規分布に近づく。

身長が正規分布に近いのは、身長が遺伝、栄養、環境など多数の独立した要因の「和」で決まるからです。テストの合計点が正規分布に近いのは、各問題の得点という独立な要因の和だからです。中心極限定理は、正規分布が自然界や社会に普遍的に現れる理由を、数学的に説明しています。

大数の法則と中心極限定理の関係

二つの定理の関係を整理しましょう。大数の法則は $\bar{X}_n \to \mu$(確率収束)を述べますが、中心極限定理は $\bar{X}_n$ のばらつきを $\sqrt{n}$ 倍に拡大したものの分布が標準正規分布になると述べます。

つまり、中心極限定理は大数の法則より精密な情報を与えています。大数の法則が「$\bar{X}_n$ は $\mu$ に近づく」と言うだけなのに対し、中心極限定理は「$\bar{X}_n$ は $\mu$ の周りで $\dfrac{\sigma}{\sqrt{n}}$ 程度のばらつきをもち、そのばらつきの分布は正規分布である」と、ばらつきの大きさと形の両方を教えてくれます。

中心極限定理の証明の方針

中心極限定理の厳密な証明にはモーメント母関数(moment generating function)または特性関数(characteristic function)と呼ばれる道具を使います。これらは確率変数の分布を別の形で表現する関数です。

証明のアイデアを大まかに述べると、$Z_n$ のモーメント母関数を計算し、$n \to \infty$ でそれが標準正規分布のモーメント母関数 $e^{t^2/2}$ に収束することを示します。そして「モーメント母関数が収束すれば分布も収束する」という定理(連続性定理)を適用して結論を得ます。

この証明では、$e^x$ のテイラー展開 $e^x = 1 + x + \dfrac{x^2}{2} + \cdots$ が本質的な役割を果たします。独立な確率変数の和のモーメント母関数が各モーメント母関数の積になるという性質と、テイラー展開による近似を組み合わせることで、正規分布が自然に現れます。

二項分布への適用:ド・モアブル-ラプラスの定理

中心極限定理の最も基本的な適用例は、高校でも学ぶ「二項分布の正規近似」です。 $X_i$ をベルヌーイ試行の結果(成功なら $1$、失敗なら $0$)とすると、$\sum_{i=1}^{n} X_i$ は二項分布 $B(n, p)$ に従います。 $E(X_i) = p$、$V(X_i) = p(1-p)$ なので、中心極限定理より

$$\frac{\sum_{i=1}^{n} X_i - np}{\sqrt{np(1-p)}} \xrightarrow{d} N(0, 1)$$

が成り立ちます。これは歴史的にはド・モアブルとラプラスが中心極限定理より先に証明したもので、ド・モアブル-ラプラスの定理と呼ばれます。高校で「$n$ が大きいとき $B(n, p)$ は $N(np, np(1-p))$ で近似できる」と学んだのは、まさにこの定理のことです。

ここまでで、大数の法則と中心極限定理の理論的な内容を理解しました。次のセクションでは、これらを具体的な計算に応用して効果を体感します。

6応用 ─ 具体例で体感する

例1:一様分布からの標本平均

中心極限定理が「元の分布の形によらない」ことを、一様分布で確認します。 $X_i$ が区間 $[0, 1]$ 上の一様分布に従うとき、$E(X_i) = \dfrac{1}{2}$、$V(X_i) = \dfrac{1}{12}$ です。

$n = 12$ 個の標本平均 $\bar{X}_{12}$ を考えます。中心極限定理より、標準化した

$$Z_{12} = \frac{\bar{X}_{12} - 1/2}{\sqrt{1/12} / \sqrt{12}} = \frac{\bar{X}_{12} - 1/2}{1/12}$$

は近似的に $N(0, 1)$ に従います。したがって $\bar{X}_{12}$ は近似的に $N\!\left(\dfrac{1}{2}, \dfrac{1}{144}\right)$、すなわち平均 $0.5$、標準偏差 $\dfrac{1}{12} \approx 0.083$ の正規分布に従います。

元の分布は $[0, 1]$ 上の完全に平らな分布(釣鐘型ではない)ですが、その標本平均の分布は $n = 12$ 程度でも既にかなり正規分布に近い形をとります。

例2:信頼区間の導出

高校で学ぶ母平均の $95\%$ 信頼区間が、中心極限定理からどのように導かれるかを確認します。

中心極限定理より、$n$ が大きいとき

$$Z_n = \frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \approx N(0, 1)$$

標準正規分布の性質から $P(-1.96 \leq Z_n \leq 1.96) \approx 0.95$ なので

$$P\!\left(-1.96 \leq \frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \leq 1.96\right) \approx 0.95$$

不等式を $\mu$ について解くと

$$P\!\left(\bar{X}_n - 1.96 \cdot \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X}_n + 1.96 \cdot \frac{\sigma}{\sqrt{n}}\right) \approx 0.95$$

これが高校で天下り的に与えられた $95\%$ 信頼区間の公式です。 中心極限定理がなければ、この公式は導けません。 高校の教科書が「$n$ が大きいとき標本平均は近似的に正規分布に従う」と述べていた根拠は、まさに中心極限定理だったのです。

例3:具体的な確率計算

ある工場で生産される部品の重さは、平均 $50\,\mathrm{g}$、標準偏差 $4\,\mathrm{g}$ の分布に従うとします(分布の形は不明)。 $100$ 個の部品を無作為に選んだとき、その平均重量が $49\,\mathrm{g}$ 以上 $51\,\mathrm{g}$ 以下となる確率を求めます。

中心極限定理より、$\bar{X}_{100}$ は近似的に $N\!\left(50, \dfrac{16}{100}\right) = N(50, 0.16)$ に従います。標準化すると

$$P(49 \leq \bar{X}_{100} \leq 51) = P\!\left(\frac{49 - 50}{0.4} \leq Z \leq \frac{51 - 50}{0.4}\right) = P(-2.5 \leq Z \leq 2.5)$$

標準正規分布表より $P(-2.5 \leq Z \leq 2.5) \approx 0.9876$ です。

この計算で注目すべき点は、部品の重さの分布が正規分布かどうかを問うていないことです。 分布の形が不明でも、標本サイズ $100$ が十分大きければ中心極限定理により標本平均は正規分布で近似できます。 これが中心極限定理の実用上の強みです。

中心極限定理が使えない場合

注意:中心極限定理は万能ではありません。前提条件「分散が有限」が満たされない場合は成り立ちません。

具体例:コーシー分布(確率密度関数 $f(x) = \dfrac{1}{\pi(1+x^2)}$)は期待値も分散も定義できない(無限大に発散する)分布です。コーシー分布に従う確率変数の標本平均は、$n$ を大きくしても正規分布に近づきません。それどころか、$\bar{X}_n$ 自体がまたコーシー分布に従うという性質をもちます。

高校で扱う分布(二項分布、正規分布、一様分布など)はすべて分散が有限なので、中心極限定理の前提は満たされます。

7つながりマップ

Sまとめ

  • チェビシェフの不等式:$P(|X - \mu| \geq \varepsilon) \leq \dfrac{\sigma^2}{\varepsilon^2}$。分散が小さいほど、平均から離れる確率が小さいことを定量的に保証する。
  • 大数の弱法則:独立同分布な確率変数の標本平均 $\bar{X}_n$ は、$n \to \infty$ で母平均 $\mu$ に確率収束する。チェビシェフの不等式から直接証明できる。
  • 中心極限定理:$\bar{X}_n$ を標準化した $Z_n = \dfrac{\bar{X}_n - \mu}{\sigma/\sqrt{n}}$ は、元の分布の形によらず標準正規分布に分布収束する。これが正規分布の普遍性の数学的根拠である。
  • 信頼区間との関係:高校で学ぶ母平均の信頼区間の公式は、中心極限定理の直接的な帰結として導ける。
  • 二つの定理の役割分担:大数の法則は「どこに収束するか」を、中心極限定理は「どのような分布で収束するか」を教える。

Q確認テスト

理解を確認しましょう

Q1. チェビシェフの不等式において、$V(X) = 9$、$\varepsilon = 6$ のとき、$P(|X - \mu| \geq 6)$ の上界はいくらですか。

クリックして解答を表示 $\dfrac{9}{36} = \dfrac{1}{4} = 0.25$。チェビシェフの不等式 $P(|X - \mu| \geq \varepsilon) \leq \dfrac{\sigma^2}{\varepsilon^2}$ に $\sigma^2 = 9$、$\varepsilon = 6$ を代入します。

Q2. 大数の弱法則の証明で、標本平均の分散が $\dfrac{\sigma^2}{n}$ であることが重要な理由を述べてください。

クリックして解答を表示 チェビシェフの不等式の右辺 $\dfrac{V(\bar{X}_n)}{\varepsilon^2} = \dfrac{\sigma^2}{n\varepsilon^2}$ が $n \to \infty$ で $0$ に収束するためには、分子の $V(\bar{X}_n) = \dfrac{\sigma^2}{n}$ が $0$ に近づく必要があるからです。分散が $n$ に反比例して減少することが、大数の法則の成立を保証しています。

Q3. 中心極限定理が成り立つための条件として正しいものはどれですか。
(a) 元の分布が正規分布であること
(b) 元の分布が連続であること
(c) 元の分布の分散が有限であること
(d) 標本サイズ $n$ が30以上であること

クリックして解答を表示 (c) が正しいです。中心極限定理は、元の分布が離散でも連続でも、正規分布でなくても成り立ちます。必要なのは独立同分布であることと、分散が有限であることです。(d) の「$n \geq 30$」は近似の精度に関する経験則であり、定理の成立条件ではありません。定理自体は $n \to \infty$ の極限として述べられます。

Q4. 大数の法則と中心極限定理の役割の違いを、一文で説明してください。

クリックして解答を表示 大数の法則は標本平均が母平均に収束する(行き先を保証する)のに対し、中心極限定理はその収束の途中における分布の形が正規分布であること(収束の仕方を明らかにする)を述べています。

E演習問題

問1 A チェビシェフの不等式

確率変数 $X$ の期待値が $\mu = 10$、分散が $\sigma^2 = 4$ であるとき、チェビシェフの不等式を用いて $P(|X - 10| \geq 3)$ の上界を求めてください。

クリックして解答を表示
解答

チェビシェフの不等式より

$$P(|X - 10| \geq 3) \leq \frac{4}{9}$$

解説

$\sigma^2 = 4$、$\varepsilon = 3$ をチェビシェフの不等式 $P(|X - \mu| \geq \varepsilon) \leq \dfrac{\sigma^2}{\varepsilon^2}$ に代入すると

$$P(|X - 10| \geq 3) \leq \frac{4}{3^2} = \frac{4}{9} \approx 0.444$$

この上界は分布の形によらず成り立ちます。

問2 B 大数の法則

コインを $n$ 回投げ、表が出る割合を $\hat{p}_n = \dfrac{1}{n}\sum_{i=1}^{n} X_i$($X_i = 1$:表、$X_i = 0$:裏)とする。$\hat{p}_n$ が真の確率 $p = 0.5$ から $0.05$ 以上離れる確率をチェビシェフの不等式で上から評価し、その上界が $0.01$ 以下になるために必要な $n$ を求めてください。

クリックして解答を表示
解答

$$n \geq 10000$$

解説

$X_i$ はベルヌーイ分布に従い、$E(X_i) = 0.5$、$V(X_i) = 0.5 \times 0.5 = 0.25$ です。

$\hat{p}_n$ の分散は $V(\hat{p}_n) = \dfrac{0.25}{n}$ なので、チェビシェフの不等式より

$$P(|\hat{p}_n - 0.5| \geq 0.05) \leq \frac{0.25/n}{0.05^2} = \frac{0.25}{0.0025n} = \frac{100}{n}$$

これが $0.01$ 以下になる条件は $\dfrac{100}{n} \leq 0.01$、すなわち $n \geq 10000$ です。

$10000$ 回もコインを投げれば、表の割合が $0.45$ から $0.55$ の範囲に収まる確率は $99\%$ 以上になることがチェビシェフの不等式から保証されます。

問3 B 中心極限定理

ある商品の1個あたりの不良率は $p = 0.02$ である。$400$ 個の商品を検査するとき、不良品の個数が $12$ 個以上になる確率を、中心極限定理を用いて近似的に求めてください。標準正規分布表の値 $P(Z \leq 1.41) \approx 0.921$ を用いてよいものとします。

クリックして解答を表示
解答

$$P(X \geq 12) \approx 0.079$$

解説

不良品の個数 $X$ は二項分布 $B(400, 0.02)$ に従います。

$E(X) = 400 \times 0.02 = 8$、$V(X) = 400 \times 0.02 \times 0.98 = 7.84$ です。

中心極限定理(ド・モアブル-ラプラスの定理)より $X$ は近似的に $N(8, 7.84)$ に従います。標準化すると

$$P(X \geq 12) = P\!\left(Z \geq \frac{12 - 8}{\sqrt{7.84}}\right) = P\!\left(Z \geq \frac{4}{2.80}\right) \approx P(Z \geq 1.43)$$

ここで $\sqrt{7.84} \approx 2.80$ を用いました。$P(Z \leq 1.41) \approx 0.921$ より $P(Z \geq 1.43) \approx 1 - 0.921 = 0.079$ と近似できます。

したがって、$400$ 個中 $12$ 個以上が不良品になる確率は約 $7.9\%$ です。

問4 C 大数の法則と中心極限定理の統合

$X_1, X_2, \ldots$ を独立同分布な確率変数の列で、$E(X_i) = \mu$、$V(X_i) = \sigma^2 < \infty$ とする。

(1) 大数の弱法則を用いて、$S_n = \sum_{i=1}^{n} X_i$ について $\dfrac{S_n}{n} \to \mu$(確率収束)が成り立つことを説明してください。

(2) 中心極限定理を用いて、$n$ が十分大きいとき $P\!\left(\mu - \dfrac{2\sigma}{\sqrt{n}} \leq \bar{X}_n \leq \mu + \dfrac{2\sigma}{\sqrt{n}}\right)$ の近似値を求めてください。標準正規分布表の値 $P(Z \leq 2) \approx 0.9772$ を用いてよいものとします。

(3) 上の結果を用いて、なぜ標本サイズを $4$ 倍にすると信頼区間の幅が半分になるかを説明してください。

クリックして解答を表示
解答

(1) $\dfrac{S_n}{n} = \bar{X}_n$ であり、大数の弱法則より任意の $\varepsilon > 0$ に対して $P(|\bar{X}_n - \mu| \geq \varepsilon) \leq \dfrac{\sigma^2}{n\varepsilon^2} \to 0$。

(2) 約 $0.9544$。

(3) 信頼区間の半幅は $\dfrac{\sigma}{\sqrt{n}}$ に比例する。$n$ を $4n$ にすると $\dfrac{\sigma}{\sqrt{4n}} = \dfrac{\sigma}{2\sqrt{n}}$ となり、半幅が半分になる。

解説

(1) $\bar{X}_n = \dfrac{S_n}{n}$ はまさに標本平均です。大数の弱法則より $P(|\bar{X}_n - \mu| \geq \varepsilon) \leq \dfrac{\sigma^2}{n\varepsilon^2}$ が成り立ち、$n \to \infty$ で右辺は $0$ に収束するので、$\bar{X}_n$ は $\mu$ に確率収束します。

(2) 中心極限定理より $Z_n = \dfrac{\bar{X}_n - \mu}{\sigma/\sqrt{n}}$ は近似的に $N(0, 1)$ に従います。求める確率は

$$P\!\left(-2 \leq Z_n \leq 2\right) = P(Z_n \leq 2) - P(Z_n \leq -2) \approx 0.9772 - (1 - 0.9772) = 0.9544$$

(3) $95\%$ 信頼区間の半幅は $1.96 \cdot \dfrac{\sigma}{\sqrt{n}}$ です。$n$ を $4n$ に置き換えると $1.96 \cdot \dfrac{\sigma}{\sqrt{4n}} = 1.96 \cdot \dfrac{\sigma}{2\sqrt{n}}$ となり、半幅は元の半分になります。つまり、推定の精度を $2$ 倍にするには標本サイズを $4$ 倍にする必要があり、精度は $\sqrt{n}$ に比例してしか改善しません。